目录
简单介绍
1、内生性:
x与误差项有相关关系
2、为什么要解决内生性问题?
简单理解就是:因为Y同时受到x和扰乱项的影响,若 x对误差项有影响,则x对y的影响说不清了。
3、内生性问题产生的原因
随机扰动项和解释变量存在相关主要源自
(本文重点讲样本选择)
简单区分一下自选择偏误和样本选择偏误:
样本选择中,个体差异在于是否有机会进入到观测样本,那些没有进入样本的个体,其y是观测不到的;
而在自选择偏误中,个体的差异在于是否得到处理,并且这种差异是个体自选择形成的,而不论是否得到处理,其y都是可观测的。
4、例子
研究妇女工资和其受教育程度和工作经验的关系:
因变量y:妇女工资水平
自变量x:受教育程度和工作经验
已知200个妇女,其中只有100个妇女有工作,即样本只能是这100个妇女
(因为没工作的妇女我们没有办法调查到或者没工作也就没资格谈收入水平)
结果我们只能用着100个有工作的妇女的数据去做回归分析,得到了受教育程度和工作经验是显著正向影响工资水平的,但显然这个结论是不可靠的,因为样本的非随机性不能反映出总体的真实情况。
解决办法:Heckman两阶段法
代码(简洁版):
findit esttab
use "D:\大二\回归分析\内生性\womenwk",clear
reg lw education age children if work==1
est sto k1
heckman lw education age children,select(work=education age children married) mle nolog
est sto k2
heckman lw education age children,select(work=education age children married) twostep
est sto k3
local d "using D:\大二\回归分析\内生性\结果1.rtf"
local a "k1 k2 k3"