回归分析的基本思想及其初步应用
一.知识要点,学习目标
1.如果一组具有相关关系的数据 作出散点图大致分布在一条直线附近,那么我们称这样的变量之间的关系为线性相关关系(也称一元线性相关),这条直线就是回归直线,记为.
2.在所求回归直线方程中,当取时,与实际收集到的数据之间的偏差为,偏差的平方为
即以 来刻画出个点与回归直线在整体上偏差的平方和,显然Q取最小值时的的值就是我们所求的。
应注意,这个最小距离不是通常所指的各数据的点到直线的距离,而是各数据点沿平行y轴方向到直线的距离.
这就是我们所要求的公式(无特殊要求时以此公式求回归方程中的、).
其中为样本数据,为样本平均数,称为样本点中心,且所求线性回归直线经过样本点中心点(如图2所示).
当回归直线斜率时,为线性正相关,时为线性负相关.
线性回归分析:
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.前面我们给出了线性回归方程,这里我们主要结合教材分析一元线性回归问题.
1.以散点图分析线性相关关系,散点图是较粗略地分析和判断两个具有相关关系的变量是否线性相关的问题,如果是线性相关的,我们可以求其线性回归方程,如果不是线性向相关的,即使求得线性回归方程,也是无效的;也就是说不能对一些数据进行分析判断,不能应用它解决和解释一些实际问题.
2.以相关系数分析线性相关关系的强弱
两个变量之间的相关关系的样本相关系数:
可衡量是否线性相关,以及线性相性关系的强弱.由于分子与线性回归方程中的斜率的分子一样(这也给出了公式的内在联系以及公式的记法),因此,当时,两个变量正相关;当时两个变量负相关.当的绝对值接近1,表明两个变量的线性相关性很强;当的绝对值接近0,表明两个变量之间几乎不存在线性相关关系.规定当时,我们认为两个变量有很强的线性相关关系.
3.解释变量与随机误差对预报精度的影响以及残差分析
(1)有关概念
由于样本数据点与一元线性回归方程上的点还有一定的差距,这说明了另外的一个因素随机误差的影响.于是有线性回归模型其中和为模型的未知参数;称为解释变量,称为预报变量;是与之间的误差,叫随机误差。随机误差的估计值为:
¥29.8
¥9.9
¥59.8