回归模型诊断与优化(2)

回归模型诊断与优化

自变量选择的影响

  • 当未选入的因素的参数不全为0时,选模型的回归系数为有偏估计
  • 选模型的预测结果时有偏预测
  • 选模型的参数估计有较小的方差
  • 选模型的预测残差有较小的方差
  • 选模型预测的均方误差比全模型的小

自变量选择的准则

需要评价回归模型最优的准则,来判断哪个选模型性能最好。

  • 残差平方和SSE越小、决定系数$R^2$越大越好:并非如此,增加自变量个数会达到上述效果,单数考虑到多重共线性、变量测量误差累计、参数数目增加等因素,未必会好
  • 自由度调整复决定系数达到最大:自变量增多,复决定系数增大,但是残差自由度减小(残差自由度等于样本个数减掉变量个数)。自由度减小意味着可靠性低,即区间预测的幅度变大,无实际应用意义。采用调整夫决定系数:
    $adjR^2=1-\frac{n-1}{n-p-1}(1-R^2)$
    回归误差项方差的无偏估计:$\hat(\sigma^2)=\frac{1}{n-p-1}SSE$
    自变量个数从0开始增加,此时SSE变小、$\frac{1}{n-p-1}$开始增加,SSE的减小速度更快,整体上$\hat{\sigma^2}$开始逐渐减小;自变量增加到一定程度(比如重要变量都已加入),SEE减少到慢且趋于稳定,此时$\hat{\sigma^2}$开始逐渐增大。
  • 赤池信息量(Akaike Information Criterion)达到最小:给予最大似然估计原理的模型选择准则

其中$lnL(\hat{\theta_L},x)$为模型似然函数,维数(未知参数)为p,n为样本个数。

在回归建模过程中,对每一个模型计算AIC,其中该值最小的模型,就是最优回归模型。

  • 统计量$C_p$达到最小:

自变量选择的方法

前进法

  • 思路:变量由少到多,每次增加一个,直至没有可引入的变量
  • 具体做法:
    • 对所有m个自变量,分别对因变量y进行建模,建立m个一元线性回归方程
    • 对这m个一元线性回归方程的m个回归系数进行F检验,计算F统计量值,找到最大的一个$F_j^1$
    • 将$F_j^1$和预先设定的检验水平$\alpha$对应的F值比较,若$F_j^1 \geq F_\alpha(1,n-2)$,将自变量$x_j$引入回归方程
    • 对$x_j$与剩余的m-1个自变量进行组合${x_j,x_1},{x_j,x_2},…{x_j,x_m}$,分别对因变量y进行建模,建立m-1个二元线性回归方程,对这m-1个方程中非$x_j$的回归系数进行F检验,选出最大的F值$F_k^2$,和$\alpha$对应的临界值比较,若$F_k^2\geq F_\alpha(1,n-3)$,将$x_k$引入回归方程
    • 重复以上步骤,知道没有符合引入条件的变量为止,得到最终的回归方程

      后退法

  • 思路:变量由多到少,每次减少一个,直至没有可减少的变量
  • 具体做法:
    • 对所有m个自变量,对因变量y进行建模,建立一个m元线性回归方程
    • 对这个m元线性回归方程的m个回归系数进行F检验,计算F统计量,找到最小的一个$F_j^1$
    • 将$F_j^1$和预先设定的检验水平$\alpha$对应的F值比较,若$F_j^1 \leq F_\alpha(1,n-m-1)$,将自变量$x_j$剔除出回归方程
    • 对$x_j$与剩余的m-1个自变量进行组合${x_j,x_1},{x_j,x_2},…{x_j,x_m}$,分别对因变量y进行建模,建立m-1个二元线性回归方程,对这m-1个方程中非$x_j$的回归系数进行F检验,选出最大的F值$F_k^2$,和$\alpha$对应的临界值比较,若$F_k^2\leq F_\alpha(1,n-m)$,将$x_k$剔除出回归方程
    • 重复以上步骤,知道没有符合剔除条件的变量为止,得到最终的回归方程

逐步回归法

  • 思路:有进有出。每当当前回归方程中的变量发生变化,都要对方称重的所有变量进行F检验

!(/image/8166116-93d70fba321d2b46.png)


 上一篇
Android Studio下进行apk签名发布 Android Studio下进行apk签名发布
Android Studio下进行apk签名发布 在Android Studio菜单栏中,Build —> Generate Signed APK: 如果已经有一个秘钥库,请转到步骤4,如果想创建一个新的秘钥库,单击新建: 创建新的秘
2019-09-16
下一篇 
回归模型诊断与优化(1) 回归模型诊断与优化(1)
回归模型诊断与优化(1)违背基本假设几个基本假设 零均值:随机误差项均值为0,保证未考虑的因素对被解释变量没有系统性的影响 同方差:随机误差项方差相同,在给定x的情况下,$\varepsilon$的条件方差为某个常数$\sigma^2$ 无
2019-07-23
  目录