多元线性回归模型

多元线性回归

多元线性回归模型

多元线性回归模型为:$y=\beta_0+\beta_1x_1+\beta_2x_2+…+\beta_px_p+\varepsilon$

其中$\varepsilon$为随机误差,满足:

  1. $E(\varepsilon)=0$
  2. $var(\varepsilon)=\sigma^2$

多元线性回归方程:$E(y)=E(\beta_0+\beta_1x_1+\beta_2x_2+…+\beta_px_p+\varepsilon)=>y=\beta_0+\beta_1x_1+\beta_2x_2+…+\beta_px_p$

多元线性回归方程的矩阵形式:

回归模型参数估计

最小二乘估计

最小二乘估计(Least Square Estimation ,OLE):根据观察数据,寻找参数$\beta_0$,$\beta_1$的估计值$\hat{\beta_0}$,$\hat{\beta_1}$,使观测值和回归预测值的离差(离开正确值的差)平方和达到极小。估计值$\hat{\beta_0}$,$\hat{\beta_1}$称作回归参数$\beta_0$,$\beta_1$的最小二乘估计。

最大似然估计

回归模型的显著性检验

回归方程是否显著:F检验

F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。由平方和分解式可得到SSR越大,回归效果越好,据此构造F统计量。

  1. 确定假设:想检验自变量X对因变量Y是否有明显影响,即原假设$H_0: \beta_1=\beta_2… = 0$,备择假设$H_1: \beta_1 \ne 0$
  2. 确定检验水平:最常用的有$\alpha=0.05,\alpha=0.01,\alpha=0.005…$
  3. 计算统计量:计算自由度为(p,n-p-1)的F统计量
  4. 计算p值:根据F值计算p值(也可以直接去比较F值)
  5. 得到结论:p<$\alpha$或者$F>F_\alpha(p,n-p-1)$,拒绝原假设$H_0$,接受备择假设$H_1:\beta_1 \ne 0,\beta_2 \ne 0…$

回归系数是否显著:t检验

因变量y与自变量x之间是否存在线性关系,即$\beta_1$是否等于0,使用t检验进行判断。

  1. 确定假设:检验$x_j$对y是否作用显著,即原假设$H_{0j}: \beta_j = 0$,备择假设$H_{1j}: \beta_j \ne 0$
  2. 确定检验水平:最常用的有$\alpha=0.05,\alpha=0.01,\alpha=0.005…$
  3. 构造统计量:$H_0$成立时:$\hat{\beta_1}\sim N(\beta,\sigma^2(X^TX)^{-1}$,记$C=(X^TX)^{-1}$,构造t统计量:
  4. 根据t值计算p值(也可以直接去比较T值):计算t统计量,符合自由度n-p-1的t分布,双尾检测,查临界值表,找到p值
  5. 得到结论:p<$\alpha$或者$t>t_\alpha(n-p-1)$,拒绝原假设$H_{0j}$,接受备择假设$H_{1j}
    t检验和F检验对多元线性回归来说不等价,F检验的目标时对所有自变量,t检验目标为单个自变量,即使F检验拒绝原假设,也不等于所有自变量都对因变量有影响,需要使用t检验去逐个验证。

自变量的标准化

多个自变量x的单位不同,其取值也不同,如果取值相差太大,会因计算误差问题导致回归方程结果不理想,需要对其进行标准化。
中心化:找到样本数据的中心$(\bar{x_1},\bar{x_2},,…,\bar{x_p};\bar{y})$,回归方程回经过这点,通过坐标变化,将原点移到该中心:

中心化后方程:

中心化不会改变回归线的斜率,只改变了直线的截距,所以\hat{\beta_0}中心化后变成了0,而其他的回归系数\hat{\beta_1},\hat{\beta_2},…,\hat{\beta_p}没有变化。

标准化:自变量单位不同,数据大小差异大,不利于在同一个标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,将样本数据标准化处理,然后使用最小二乘法,得到标准化后的回归系数。

标准化公式为:$X_{ij}^\ast=\frac{x_{ij}-\bar{x_j}}{\sqrt{\frac{1}{n}\sum_{i=1}^n (x_{ij}-\bar{x_j})^2}}$
$y_{i}^\ast=\frac{y_{ij}-\bar{y}}{\sqrt{\frac{1}{n}\sum_{i=1}^n (y_{i}-\bar{y})^2}}$

标准化后方程:


 上一篇
回归模型诊断与优化(1) 回归模型诊断与优化(1)
回归模型诊断与优化(1)违背基本假设几个基本假设 零均值:随机误差项均值为0,保证未考虑的因素对被解释变量没有系统性的影响 同方差:随机误差项方差相同,在给定x的情况下,$\varepsilon$的条件方差为某个常数$\sigma^2$ 无
2019-07-23
下一篇 
一元线性回归 一元线性回归
一元线性回归回归模型参数估计最小二乘估计最小二乘估计(Least Square Estimation ,OLE):根据观察数据,寻找参数$\beta_0$,$\beta_1$的估计值$\hat{\beta_0}$,$\hat{\beta_1
2019-07-20
  目录