回归模型诊断与优化

自变量选择的影响

当未选入的因素的参数不全为0时，选模型的回归系数为有偏估计
选模型的预测结果时有偏预测
选模型的参数估计有较小的方差
选模型的预测残差有较小的方差
选模型预测的均方误差比全模型的小

自变量选择的准则

需要评价回归模型最优的准则，来判断哪个选模型性能最好。

残差平方和SSE越小、决定系数$R^2$越大越好：并非如此，增加自变量个数会达到上述效果，单数考虑到多重共线性、变量测量误差累计、参数数目增加等因素，未必会好
自由度调整复决定系数达到最大：自变量增多，复决定系数增大，但是残差自由度减小（残差自由度等于样本个数减掉变量个数）。自由度减小意味着可靠性低，即区间预测的幅度变大，无实际应用意义。采用调整夫决定系数：
$adjR^2=1-\frac{n-1}{n-p-1}(1-R^2)$
回归误差项方差的无偏估计：$\hat(\sigma^2)=\frac{1}{n-p-1}SSE$
自变量个数从0开始增加，此时SSE变小、$\frac{1}{n-p-1}$开始增加，SSE的减小速度更快，整体上$\hat{\sigma^2}$开始逐渐减小；自变量增加到一定程度（比如重要变量都已加入），SEE减少到慢且趋于稳定，此时$\hat{\sigma^2}$开始逐渐增大。
赤池信息量（Akaike Information Criterion）达到最小：给予最大似然估计原理的模型选择准则

$AIC=-2lnL(\hat{\theta_L},x)+2p => AIC=nln(SSE)+2p$

其中$lnL(\hat{\theta_L},x)$为模型似然函数，维数（未知参数）为p,n为样本个数。

在回归建模过程中，对每一个模型计算AIC，其中该值最小的模型，就是最优回归模型。

统计量$C_p$达到最小： $C_p=\frac{SSE_p}{\hat{\sigma^2}}-n+2p=(n-m-1)\frac{SSE_p}{SSE_m}-n+2p$

自变量选择的方法

前进法

思路：变量由少到多，每次增加一个，直至没有可引入的变量
具体做法：
- 对所有m个自变量，分别对因变量y进行建模，建立m个一元线性回归方程
- 对这m个一元线性回归方程的m个回归系数进行F检验，计算F统计量值，找到最大的一个$F_j^1$
- 将$F_j^1$和预先设定的检验水平$\alpha$对应的F值比较，若$F_j^1 \geq F_\alpha(1,n-2)$，将自变量$x_j$引入回归方程
- 对$x_j$与剩余的m-1个自变量进行组合${x_j,x_1},{x_j,x_2},…{x_j,x_m}$,分别对因变量y进行建模，建立m-1个二元线性回归方程，对这m-1个方程中非$x_j$的回归系数进行F检验，选出最大的F值$F_k^2$,和$\alpha$对应的临界值比较，若$F_k^2\geq F_\alpha(1,n-3)$，将$x_k$引入回归方程
- 重复以上步骤，知道没有符合引入条件的变量为止，得到最终的回归方程
  后退法
思路：变量由多到少，每次减少一个，直至没有可减少的变量
具体做法：
- 对所有m个自变量，对因变量y进行建模，建立一个m元线性回归方程
- 对这个m元线性回归方程的m个回归系数进行F检验，计算F统计量，找到最小的一个$F_j^1$
- 将$F_j^1$和预先设定的检验水平$\alpha$对应的F值比较，若$F_j^1 \leq F_\alpha(1,n-m-1)$，将自变量$x_j$剔除出回归方程
- 对$x_j$与剩余的m-1个自变量进行组合${x_j,x_1},{x_j,x_2},…{x_j,x_m}$,分别对因变量y进行建模，建立m-1个二元线性回归方程，对这m-1个方程中非$x_j$的回归系数进行F检验，选出最大的F值$F_k^2$,和$\alpha$对应的临界值比较，若$F_k^2\leq F_\alpha(1,n-m)$，将$x_k$剔除出回归方程
- 重复以上步骤，知道没有符合剔除条件的变量为止，得到最终的回归方程