谈多重共线性
本文主要讨论古典假定中无多重共线性被违反的情况,主要情况包括多重共线性的实质和产生的原因、后果、检验方法及无多重共线性假定违反后的处置方法。
第一节 什么是多重共线性
一、多重共线性的含义
讨论多元线性回归模型的估计时,强调了假定无多重共线性,即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性无关。计量经济学中的多重共线性,不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系。
从数学意义上去说明多重共线性,即若存在不全为0的数使得:
则称解释变量X1,X2,X3,…,Xk之间存在完全的多重共线性。
用矩阵来表示的话,解释变量的数据矩阵的秩<k,即解释变量的个数,表明在数据矩阵X中,至少有一个列向量可以用其余的列向量线性表示,说明存在完全的多重共线性。
在实际经济问题中,完全的多重共线性并不多见。常见的情形是解释变量X1、X2,…,Xk之间存在不完全的多重共线性。不完全的多重共线性是指对于解释变量X1,X2,…,Xk,存在不全为0的数,使得
式中,ui为随机变量。这表示解释变量之间只是一种近似的线性关系。
如果解释变量之间不存在完全或不完全的线性关系,则称无多重共线性。需要强调,解释变量之间不存在线性关系,并非不存在非线性关系,当解释变量存在非线性关系时,并不违反无多重共线性假定。
回归模型中解释变量的关系可能表现为以下三种情形。
(1)r(xi,xj)=0,解释变量间毫无线性关系,变量间相互正交。事实上这是已经不需要做多元回归,每个参数Bj都可以通过y对xj的一元回归来估计。
(2)r(xi,xj)=1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度非常困难。
(3)0<r(xi,xj)<1,解释变量间存在一定程度的线性关系。实际中常遇到的是这种情形。
共线性程度的增加,会对参数估计值的准确性、稳定性带来影响。因此,不完全的多重共线性事实上有严重程度的问题。
二、产生多重共线性的背景
由于经济现象的变化涉及多个影响因素,而影响因素之间常常存在一定的相关性,多重共线性产生的经济背景主要有以下几种情形。
(1)经济变量之间具有共同变化趋势。例如,时间序列数据收入、消费等,在经济上升时,均出现增长的趋势,相反,在经济衰退期,又都出现下降趋势。当这些变量作为解释变量引入模型中会带来多重共线性问题。
(2)模型中包含滞后变量。当建立的模型中引入解释变量的滞后变量时,而X变量与滞后期变量常常高度相关,于是导致出现多重共线性。
(3)利用截面数据建立模型也可能出现多重共线性。利用截面数据建模时,许多变量与发展规模相关,会呈现出共同增长的趋势,如资本、劳动力