回归分析
回归
回归是处理两个或两个以上的变量之间相互依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述。
线性回归
线性
线性(Linear)的严格定义是一种映射关系,其映射关系满足可加性和其次性。通俗理解就是两个变量之间存在一次方函数关系,在平面坐标系中表现为一条直线。不满足线性即为非线性(non-linear)。
线性回归
线性回归(Linear Regression):在回归分析中,如果自变量和因变量之间存在着线性关系,则被称为线性回归。如果只有一个因变量和一个自变量,则被称作一元线性回归,如果一个因变量多个自变量,则被称作多元回归。
模型的一般形式
其中$f(x_1,x_2,x_3,…,x_p)$为确定性关系,即表示因变量随自变量的变化关系。
$\varepsilon$表示随机误差(扰动项),包括:
- 影响因素缺失
- 观测/测量误差
- 其他随机误差
几个基本假设
- 零均值:随机误差项均值为0,保证未考虑的因素对被解释变量没有系统性的影响
- 同方差:随机误差项方差相同,在给定x的情况下,$\varepsilon$的条件方差为某个常数$\sigma^2$
- 无自相关:两个$\varepsilon$之间不相关,
- 正态分布:$\varepsilon$符合正态分布
- 解释变量:是非随机变量,其观测值是常数
- 解释变量之间不存在精确的线性关系
- 样本个数要多于解释变量的个数
如何建立回归模型
需求分析明确变量
了解相关需求,明确场景,清楚需要解释的指标(因变量),并根据相关业务知识选取与之有关的变量作为解释变量(自变量)。
以波斯顿房价为例,需要分析的变量有:- 面积
- 位置
- 房龄
- ……
数据加工处理
根据上一步分析得到的解释变量,去收集相关数据(时序数据、截面数据等),对得到的数据进行清洗、加工,并根据数据情况调整解释变量,并判断是否满足基本假设。
确定回归模型
了解数据集,使用绘图工具绘制变量样本散点图或使用其他线性分析变量间的关系,根据结果选择回归模型,如:线性回归模型、指数形式的回归模型等。
模型参数估计
模型确定后,基于收集、整理的样本数据,估计模型中的相关参数。最常用的方法是最小二乘法,在不满足基本假设的情况下还会采取岭回归,主成分回归、偏最小二乘法等。
- 最小二乘法(Least Square Method):也叫最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配的方法。
模型的检验优化
参数确定后,得到模型。此时需要对模型进行统计意义上的检验,包括对线性回归方程的显著性检验,回归系数的显著性检验,拟合优度检验,异方差检验,多重共线性检验等。还需要结合实际场景,判断该模型是否具有实际意义。
显著性检验(significance test)就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。换言之,我们对总体做了一个假设,现在得到了总体中的一些样本,这些样本和我们假设的差异是否可以认为是机会变异造成的,还是由于我们假设不正确导致这些差异的。常见的检验有t检验,F检验等。
模型部署应用
模型检验通过后,可以使用模型进行相关的分析、应用,包括因素分析、控制、预测等。
回归模型的特点
优点
- 模型简单,建模和应用都比较容易
- 有坚实的统计理论支撑
- 定量分析各变量之间的关系
- 模型预测结果可以通过误差分析精确了解
缺点
- 假设条件比较多且相对严格
- 变量选择对模型影响较大