1.异方差的定义
1.1 定义
对于经典线性回归模型Yi=β0+β1X1i+β2X2i+⋯+βnXni+uiY_{i}=\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+\dots+\beta_{n}X_{ni}+u_{i}Yi=β0+β1X1i+β2X2i+⋯+βnXni+ui在其他假设不变条件下,若随机误差项uiu_{i}ui的方差不相等,即Var(ui∣X1i,X2i,…,Xni)=σi2Var(u_{i}|X_{1i},X_{2i},\dots,X_{ni})=\sigma_{i}^{2}Var(ui∣X1i,X2i,…,Xni)=σi2则称随机误差项(即总体方差)uiu_{i}ui具有异方差性。
1.2 影响
异方差性的存在,会对回归模型的正确建立和统计推断带来严重后果。首先,在异方差情况下,所有与参数估计量方差有关的相关计算都会受到影响。ttt检验、多元回归的FFF检验都会因此变得不再准确。其次,异方差条件下参数的OLS估计量不再有效(仍然具有线性和一致性),会导致对YYY的预测也失去有效性。
1.3 产生原因
异方差产生的原因大致可以归纳为以下几种情况,具体如下:
解释变量变化对被解释变量所产生影响的程度不断变化,会引起异方差性;
遗漏变量或模型形式设定偏误都可能会产生异方差性。当遗漏的变量与解释变量相关时,其对被解释变量的影响被归入随机误差项,则可能使随机误差项产生异方差性。当模型形式设定偏误时,如变量间本来为非线性关系,而错误的设定为线性关系时,则该模型往往表现出异方差性。
样本数据本身属性也会导致异方差性;
2. 异方差的检测
异方差性表现为解释变量与随机干扰项方差之间的某种关系。具体常用的几种检测方法如下:
2.1 图示法
该方法的做法主要是通过绘制某个解释变量与样本残差平方ei2e_{i}^{2}ei2的散点图,查看这两者之间是否存在某种关系。如果不存在异方差性,则ei2e_{i}^{2}ei2不会随着XXX的变化而变化,若ei2e_{i}^{2}ei2会随着XXX的变化而发生同步变化,则可以初步判断模型存在异方差性。
2.2 G-Q检验
G-Q检验又称为样本分段检验,该检验可用于检验递增性或递减性异方差的有效方法。该方法的检验思路是,若随机干扰项方差随着某解释变量的增加同步递增或递减,则将该解释变量按大小排序之后,分成两段,则前后两段的残差平方和的差别会较大。其具体步骤如下:
将样本观测值按照认为可能会引起异方差的某个解释变量观测值的大小排序;如果是时间序列数据,则不可以排序;
将序列中间不大于1/31/31/3观测总量的观测值删除。此时序列形成前后两段,记其前后两段的样本容量分别为n1n_{1}n1、n2n_{2}n2。为计算方便,一般设置n1=n2n_{1}=n_{2}n1=n2。
分别用OLS方法对前后两段数据进行回归,可以得到两个回归模型各自的残差,分别记为e1ie_{1i}e1i、e2ie_{2i}e2i。则这两个回归模型的残差平方分别为RSS1=∑i=1n1ei12RSS_{1}=\sum_{i=1}^{n_{1}}e_{i1}^{2}RSS1=∑i=1n1ei12、RSS2=∑i=1n2ei22RSS_{2}=\sum_{i=1}^{n_{2}}e_{i2}^{2}RSS2=∑i=1n2ei22
分别计算前后两个回归模型随机误差项方差的估计量σ^12=RSS1n1−k\hat \sigma_{1}^{2}=\frac{RSS_{1}}{n_{1}-k}σ^12=n1−k