多元线性回归

多元线性回归模型

多元线性回归模型为：$y=\beta_0+\beta_1x_1+\beta_2x_2+…+\beta_px_p+\varepsilon$

其中$\varepsilon$为随机误差,满足：

$E(\varepsilon)=0$
$var(\varepsilon)=\sigma^2$

多元线性回归方程：$E(y)=E(\beta_0+\beta_1x_1+\beta_2x_2+…+\beta_px_p+\varepsilon)=>y=\beta_0+\beta_1x_1+\beta_2x_2+…+\beta_px_p$

多元线性回归方程的矩阵形式：

$\hat{\beta}=(X^TX)^{-1}X^Ty$ $y=X\beta+\varepsilon$

回归模型参数估计

最小二乘估计

最小二乘估计（Least Square Estimation ,OLE）：根据观察数据，寻找参数$\beta_0$,$\beta_1$的估计值$\hat{\beta_0}$,$\hat{\beta_1}$，使观测值和回归预测值的离差（离开正确值的差）平方和达到极小。估计值$\hat{\beta_0}$,$\hat{\beta_1}$称作回归参数$\beta_0$,$\beta_1$的最小二乘估计。

最大似然估计

回归模型的显著性检验

回归方程是否显著：F检验

F检验是根据平方和分解式，直接从回归效果检验回归方程的显著性。由平方和分解式可得到SSR越大，回归效果越好，据此构造F统计量。

确定假设：想检验自变量X对因变量Y是否有明显影响，即原假设$H_0: \beta_1=\beta_2… = 0$,备择假设$H_1: \beta_1 \ne 0$
确定检验水平：最常用的有$\alpha=0.05,\alpha=0.01,\alpha=0.005…$
计算统计量：计算自由度为(p,n-p-1)的F统计量
计算p值：根据F值计算p值（也可以直接去比较F值）
得到结论：p<$\alpha$或者$F>F_\alpha(p,n-p-1)$，拒绝原假设$H_0$,接受备择假设$H_1：\beta_1 \ne 0,\beta_2 \ne 0…$

回归系数是否显著：t检验

因变量y与自变量x之间是否存在线性关系，即$\beta_1$是否等于0，使用t检验进行判断。

确定假设：检验$x_j$对y是否作用显著，即原假设$H_{0j}: \beta_j = 0$,备择假设$H_{1j}: \beta_j \ne 0$
确定检验水平：最常用的有$\alpha=0.05,\alpha=0.01,\alpha=0.005…$
构造统计量：$H_0$成立时：$\hat{\beta_1}\sim N(\beta,\sigma^2(X^TX)^{-1}$,记$C=(X^TX)^{-1}$,构造t统计量： $t = \frac{\hat{\beta_j}}{\sqrt{\hat{\sigma^2}c_{jj}}} = \frac{\hat{\beta_j}}{\sqrt{C_jj}}\sqrt{\frac{n-p-1}{\varepsilon^T\varepsilon}}$
根据t值计算p值（也可以直接去比较T值）：计算t统计量，符合自由度n-p-1的t分布，双尾检测，查临界值表，找到p值
得到结论：p<$\alpha$或者$t>t_\alpha(n-p-1)$，拒绝原假设$H_{0j}$,接受备择假设$H_{1j}
t检验和F检验对多元线性回归来说不等价，F检验的目标时对所有自变量，t检验目标为单个自变量，即使F检验拒绝原假设，也不等于所有自变量都对因变量有影响，需要使用t检验去逐个验证。

自变量的标准化

多个自变量x的单位不同，其取值也不同，如果取值相差太大，会因计算误差问题导致回归方程结果不理想，需要对其进行标准化。
中心化：找到样本数据的中心$(\bar{x_1},\bar{x_2},,…,\bar{x_p};\bar{y})$,回归方程回经过这点，通过坐标变化，将原点移到该中心：

$x_{ij}^\prime=x_{ij}-\bar{x_j}\ \ \ \ \ \ \ i=1,2,...,n; j=1,2,...,p$ $y_i^\prime=y_i-\bar{y}\ \ \ \ \ \ \ i=1,2,...,n$

中心化后方程： $\hat{y^\prime}=\hat{\beta_1}x_1^\prime+\hat{\beta_2}x_2^\prime+...+\hat{\beta_p}x_p^\prime$

中心化不会改变回归线的斜率，只改变了直线的截距，所以\hat{\beta_0}中心化后变成了0，而其他的回归系数\hat{\beta_1},\hat{\beta_2},…,\hat{\beta_p}没有变化。

标准化：自变量单位不同，数据大小差异大，不利于在同一个标准上进行比较，为了消除量纲不同和数量级的差异带来的影响，将样本数据标准化处理，然后使用最小二乘法，得到标准化后的回归系数。

标准化公式为：$X_{ij}^\ast=\frac{x_{ij}-\bar{x_j}}{\sqrt{\frac{1}{n}\sum_{i=1}^n (x_{ij}-\bar{x_j})^2}}$
$y_{i}^\ast=\frac{y_{ij}-\bar{y}}{\sqrt{\frac{1}{n}\sum_{i=1}^n (y_{i}-\bar{y})^2}}$

标准化后方程： $\hat{y^\ast }=\hat{\beta_1^\ast}x_1^\ast +\hat{\beta_2^\ast}x_2^\ast +...+ \hat{\beta_p^\ast} x_p ^\ast$