Markdown

发布日期: 2019-07-23

文章字数: 2.8k

阅读时长: 10 分

阅读次数:

回归模型诊断与优化（1）

违背基本假设

几个基本假设

零均值：随机误差项均值为0，保证未考虑的因素对被解释变量没有系统性的影响
同方差：随机误差项方差相同，在给定x的情况下，$\varepsilon$的条件方差为某个常数$\sigma^2$
无自相关：两个$\varepsilon$之间不相关， $COV(\varepsilon_i,\varepsilon_j)=0,i \ne j$
正态分布：$\varepsilon$符合正态分布 $\varepsilon_i \sim N(0,\sigma^2)$
解释变量： $x_1,x_2,...,x_p$ 是非随机变量，其观测值是常数
解释变量之间不存在精确的线性关系
样本个数要多于解释变量的个数

常见不满足基本假设的情况

异方差

回归模型中的异方差(Heteroscedasticity)是指随机误差项的方差不是一个常数，而是随着自变量的取值变化而变化。

由于不满足回归分析中的同方差(Homoscedasticity)的前提假设，异方差将可能带来以下问题：

对使用最小二乘法(OLS)求解参数时，参数估计值虽然无偏，但是不是最小方差线性无偏估计
参数的显著性检验失效
回归方程的应用效果不理想

异方差的常见成因

模型缺少了某些解释变量，缺省变量本身的方差被包含在了随机误差的方差中

$y=\beta_0+\beta_1x_1\color{red}{+\varepsilon}\ \ \ \ \ \ \ y=\beta_0+\beta_1x_1+\color{red}{\beta_2x_2+\varepsilon}$

模型本身选区有误，比如原本是非线性的，结果使用了线性模型
其他原因，包括但不限于：
- 样本量过少
- 测量误差
- 异常数据
- 时序分析或使用面板数据等

异方差的检验

残差图分析

坐标选择：纵坐标为残差$e_i$,横坐标视情况而定，可选择：$x、\hat{y}$或者观测时间或序号
判断：散点随机散布、无规律则表明满足基本假设，有明显规律或者呈现一定趋势，则有异方差性

等级相关系数法

等级相关系数法又称斯皮尔曼(Spearman)检验

做y关于x的普通最小二乘回归，求出$\varepsilon_i$的估计值$e_i$
取$\varepsilon_i$的绝对值$|\varepsilon_i|$,把$x_i$和$|\varepsilon_i|$按升序或降序排列，分成等级（序号），$x_i$和$|\varepsilon_i|$分别有一个（序号），其差即为$d_i$计算出等级相关系数$r_s$:
$r_s=1-\frac{6}{n\ast(n^2-1)}\sum\limits_{i=1}^n d_i^2 \ \ \ \ \ \ \ \ \ \ n为样本个数$
做等级相关系数$r_s$的显著性检验，n>8时，进行t检验。构造t统计量：
$t=\frac{\sqrt{n-2}}{\sqrt{1-r_s^2}}r_s$
如果$|t|\leq t_{\frac{\alpha}{2}}(n-2)$,可以认为异方差不存在；反之，可以认为$x_i$与$|e_i|$之间存在系统关系，存在异方差问题。

其他常见方法

相关图分析：X-Y散点图，看是否存在明显的扩大、缩小、复杂趋势等
Park检验与Gleiser检验：选择关于x的不同函数形式，对方程进行估计并进行显著性检验，如果存在某一种函数形式的方程显著成立，则说明元模型存在异方差性。
Goldfeld-Quandt检验：以引起异方差的解释变量的大小为顺序，去除中间若干值，生成两个子样本集，对两个样本集进行回归，计算残差和，构造统计量。样本量要大，对于$\varepsilon_i$要求满足除同方差外的其他假定，仅适用于递增型异方差。
Breusch-Pagan检验：构造残差p平方序列与解释变量之间的辅助函数，得到回归平方和和ESS，从而判断异方差性存在的显著性。要已知随机误差产生的原因且要求随机误差服从正态分布。
White检验：与BP检验接近，但是无需任何方差先验知识。。是一种更一般的检查方法，无需做任何假定，不需排序，目前应用比较普遍

消除异方差

消除异方差的办法有多种，常见的有加权最小二乘法、BOX-COX变换法、方差稳定性变换法等

加权最小二乘法

以一元线性回归最小二乘法估计参数为例，其离差平方和公式： $Q(\beta_0,\beta_1)=\sum\limits_{i=1}^n ( y_i - \beta_0-\beta_1x_i)^2$

存在的问题：每个观测值（即每个样本）的权重相同（都为1），同方差时，每个观测值在离差平方和中的地位时一样的，但是当异方差时，方差大的观测值，对平方和的影响也大，OLE求得的回归线，会被拉向方差大的样本点，导致方差小的样本点拟合效果较差。

此时考虑调整权重，以平衡各个观察值得作用，即为加权最小二乘法，其利差平方和公式变为：

$Q(\beta_0,\beta_1)=\sum\limits_{i=1}^n \color{red}{\frac{1}{x_i^m}}( y_i - \beta_0-\beta_1x_i)^2\ \ \ \ \ \ \ \ \ \ \ i为第i个观测值的权重$

尝试不同的m值，得到不同的权重，取结果最好的一组。

自相关

回归模型中的自相关(Heteroscedasticity)是指随机误差项的协方差$cov(\varepsilon_i,\varepsilon_j)\ne 0$即变量前后数值之间存在相关关系。
由于不满足回归分析中的不相关的前提假设，自相关将可能带来以下问题：

对使用最小二乘法（OLS）求解参数时，参数估计值虽然无偏，但是OLS估计量的方差不是最小的，估计量不是最优线性无偏估计量(BLUE:Best Linear Unbiased Estimator,在所有线性、无偏的估计量中，有最小方差的估值)
OLS估计量的方差是有偏的。用来计算方差和OLS估计量标准误差的公式
会严重低估真实的方差和标准误差，从而导致t统计量的值变大，是某个系数县逐步为0，实际上相反
显著性检验失效，包括t检验和F检验
存在序列相关时，最小二乘估计量对抽样波动非常敏感
回归方程的应用效果不理想，会带来较大的方差甚至错误

自相关的常见成因

模型遗漏关键变量，被遗漏变量在时间顺序上存在相关性
错误的回归函数形式
蛛网现象（Cobweb Phenomenon）：来源于微观经济学，原意是表示某种商品的供给量因受前一期价格影响而表现出来的某种规律性，呈蛛网状收敛或发散与供需的均衡点。一般是指一个变量对另一个变量的反应是不同步的，迟滞一定时间：$S_t=B_1+B_2P_{t-1}+\varepsilon_t$
对数据加工整理而导致误差项之间出现自相关，比如处理序列数据时采用了不恰当的差分变换

自相关的检验

图示检验法

绘制$e_t.e_{t-1}$的散点图，如果大部分点落在第二、四象限，则表明随机扰动项$\varepsilon_t$存在负相关，如果大部分落在第一、三象限，则表明存在正相关
按时间顺序绘制回归残差项$e_t$的图形，如果随着t的变化，有规律的呈现锯齿形或循环性状的变化，表明存在序列相关

自相关系数法

根据$\varepsilon$（真正计算时取其估计值e）计算自相关系数$\rho$，其取值范围为[-1 , 1]，接近1时表示误差序列存在正相关，接近-1时表示存在负相关

$\rho=\frac{\sum_{t=2}^n \varepsilon_t\varepsilon_{t-1}}{\sqrt{\sum_{t=2}^n \varepsilon_t^2\sum_{t=2}^n \varepsilon_{t-1}^2}}$ $\rho=\frac{\sum_{t=2}^n e_te_{t-1}}{\sqrt{\sum_{t=2}^n e_t^2\sum_{t=2}^n e_{t-1}^2}}$

DW(Durbin-Watson)检验法

适用于小样本，只能检验随机扰动项具有一阶自回归形式的序列相关问题

随机扰动项的一阶自回归形式为：$\varepsilon_t=\rho\varepsilon_{t-1}+u_t$
构造原假设为：$H_0: \rho = 0$
构造DW统计量： $DW=\frac{\sum_{t=2}^n (e_t-e_{t-1})^2}{\sum_{i=1}^n e_t^2} \approx 2(1-\hat{\rho})$ 其中 $e_t=y_t-\hat{y_t},t=2,3,...,n$ 查DW表，得到$D_L,D_U$

缺点:

存在两个不能确定的区域，一旦取值在该区域内，无法判断，需要借助其他方法
只能用于随机扰动项的一阶序列相关情形，对于高阶不适用，限制了适用范围
上下界要求n>15，否则样本数过小，无法利用残差对自相关性的存在做出合理诊断

消除自相关

消除自相关的方法有多种，常见的有迭代法、差分法、BOX-COX变换法等

迭代法

差分法

差分法就是用增量数据代替原样本数据，将原来的回归模型变为差分形式的模型，一阶差分法通常适用于原模型存在较高程度的一阶自相关情况。

一阶差分法适合处理$\rho = 1$的情况，选用差分法而不选用迭代法的原因为：

迭代法需要根据样本估计$\rho$，$\rho$的估计误差会影响效率
差分法简单

BOX-COX变换

BOX-COX时一种应用非常广泛的变换方法，可用于异方差、自相关等多种问题。

异常值

回归分析中，一些异常或者极端的观测值可能会引起较大的残差，影响回归拟合的效果。

异常值成因	消除方法
数据录入错误	重新核实数据
数据测量误差	重新测量数据
数据随机误差	删除，或者重新观测数据
缺少重要自变量	增加相应自变量
缺少观测数据	增加观测数据
存在异方差	消除异方差，如加权回归等
模型选择错误	更改模型，如改成非线性回归

异常值的常见情况

因变量y出现异常值：一般认为残差超过$\pm 3\bar{\sigma}$的即为异常值
- 标准化残差：$ZRE_i=e_i/\hat{\sigma}$
- 删除残差：$e_{(i)}=y_i-\hat{y_i}=\frac{e_i}{1-h_{ii}}$
- 学生化残差：$SRE_i=\frac{e_i}{\sigma \sqrt{1-h_{ii}}}$,其中$h_{ii}为杠杆值$，为帽子矩阵$H=X(X^TX)^{-1}X^T$的对角线元素
- 删除学生化残差：$SRE_{(i)}=SRE_i(\frac{n-p-2}{n-p-1SRE_i^2})^{1/2}$,p为自变量个数，$|SRE_{(i)}|>3$的观测值被认为是异常值
自变量x出现异常值
- $h_{ii}$为杠杆值，表示第i次观测值与自变量平均值之间的距离，杠杆值$h_{ii}$大的样本点强影响点。杠杆值的平均值$\bar{h}=\frac{1}{n}\sum_{i=1}^nh_{ii}=\frac{p+1}{n}$当$h_{ii}$大于2倍或3倍的平均值$\bar{h}$时，被认为是最大的
- 库克距离：$D_i=\frac{e_i^2}{(n+1)\hat{\sigma^2}}\ast \frac{h_{ii}}{(1-h_{ii})^2}$，反应了$h_{ii}$与残差的综合效应，当$D_i<0.5$，不是异常值，当$d_i>1$，是异常值