一、打开数据
利用stata软件打开数据gurnfeld.dta,得到有关
第一步,声明截面变量和时间变量。命令为:
tsset company year或xtset company year
显示:
panel variable: company (strongly balanced)
time variable: year, 1935 to 1954
delta: 1 year
第二步,进行样本的描述性统计。首先我们看看样本的大体分布情况,命令为:
xtdes
company: 1, 2, ..., 10 n = 10
year: 1935, 1936, ..., 1954 T = 20
Delta(year) = 1 year
Span(year) = 20 periods
(company*year uniquely identifies each observation)
Distribution of T_i: min 5% 25% 50% 75% 95% max
20 20 20 20 20 20 20
Freq. Percent Cum. | Pattern
---------------------------+----------------------
10 100.00 100.00 | 111111*********11111
---------------------------+----------------------
10 100.00 | XXXXXXXXXXXXXXXXXXXX
接下来,我们列示出样本中主要变量的基本统计量,命令为:xtsum
xtsum invest mvalue kstock
我们发现统计结果是按照"整体"、"组间"和"组内"三个层次进行的。当然,你也可以采用sum命令来得到基本统计量,而且在写论文时,所需列示的结果并不要求像上面那么详细,此时sum命令反而更实用。
第三歩,面板数据模型回归分析。
我们先做固定效应模型,命令为:
xtreg mvalue invest kstock,fe(软件默认为随机效应)
Fixed-effects (within) regression Number of obs = 200
Group variable: company Number of groups = 10
R-sq: within = 0.4117 Obs per group: min = 20
between = 0.8078 avg = 20.0
overall = 0.7388 max = 20
F(2,188) = 65.78
corr(u_i, Xb) = 0.6955 Prob > F = 0.0000
------------------------------------------------------------------------------
mvalue | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
invest | 2.856166 .3075147 9.29 0.000 2.249543 3.4627
kstock | -.5078673 .1403662 -3.62 0.000 -.7847625 -.2309721
_cons | 804.9802 32.43177 24.82 0.000 741.0033 868.9571
-------------+----------------------------------------------------------------
sigma_u | 905.81517
sigma_e | 268.73329
rho | .91910377 (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(9, 188) = 113.76 Prob > F = 0.0000
结果的前两行列示了模型的类别(本例中为固定效应模型)、截面变量、以及估计中使用的样
本数目和个体的数目。第3行到第5行列示了模型的拟合优度,分为组内、组间和样本总体
三个层次。第6行和第7行分别列示了针对参数联合检验的F统计量和相应的P值,本例中分别为65.78和0.0000,表明参数整体上相当显著。第8-11行列示了解释变量的估计系数、标准差、t统计量和相应的P值以及95%的置信区间,这和我们在进行截面回归是得到的结果是一样的。最后四行列示了固定效应模型中个体效应和隨机干扰项的方差估计值(分别为sigma_u和sigma_e),二者之间的关系(rho)。最后一行给出了检验固定效应是否显著的F统计量和相应的P值,本例中固定效应非常显著。
估计随机效应模型的命令为:
xtreg mvalue invest kstock,re
Random-effects GLS regression Number of obs = 200
Group variable: company Number of groups = 10
R-sq: within = 0.4115 Obs per group: min = 20
between = 0.8043 avg = 20.0
overall = 0.7371 max = 20
Wald chi2(2) = 149.94
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
------------------------------------------------------------------------------
mvalue | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
invest | 3.113429 .3076132 10.12 0.000 2.510519 3.71634
kstock | -.578422 .1424721 -4.06 0.000 -.8576622 -.2991819
_cons | 786.9048 182.1715 4.32 0.000 429.8553 1143.954
-------------+----------------------------------------------------------------
sigma_u | 546.52144
sigma_e | 268.73329
rho | .80529268 (fraction of variance due to u_i)
------------------------------------------------------------------------------
第四歩,模型的筛选和检验。
这是模型设定过程中最为关键同时也是最难的一歩,主要涉及使用【混合效应】混合OLS模型(最小二乘估计)、固定效应模型还是随机效应模型,更进一歩还可能包括序列相关和异方差的检验等问题。在这方面功力的提髙需要大量的实践经验和对理论的深入理解。
1)检验个体效应的显著性。对于固定效应模型而言,回归结果中最后一行汇报的F统计量
便在于检验所有的个体效应整体上是否显著。在我们的例子中,上而的检验结果表明固定效应模型优于混合的OLS模型。下面我们说明如何检验随机效应是否显著,命令为:
若模型检验下面没有F检验,就输入xttest0
注明:通过豪斯曼检验,使用固定效应/随机效应
Breusch and Pagan Lagrangian multiplier test for random effects
mvalue[company,t] = Xb + u[company] + e[company,t]
Estimated results:
| Var sd = sqrt(Var)
---------+-----------------------------
mvalue | 1727831 1314.47
e | 72217.58 268.7333
u | 298685.7 546.5214
Test: Var(u) = 0
chibar2(01) = 772.32
Prob > chibar2 = 0.0000
检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型,至于固定效应模型和随机效应模型何者更佳,则要采用Hausman检验来确定。
2) hausman检验。具体步骤为:
●step1:估计固定效应模型模型,存储估计结果;
●step2:估计随机效应模型,存储估计结果;
●step3:进行Hausman检验
qui xtreg mvalue invest kstock, fe /*step1*/
. est store fe
. qui xtreg mvalue invest kstock, re /*step2*/
. est store re
. hausman fe /*step3*/
这里qui的作用在于不把估计结果输出到屏幕上,est store 的作用在十把估计结果存储到名称为fe的临时性文件中。输出结果为:
---- Coefficients ----
| (b) (B) (b-B) sqrt(diag(V_b-V_B))
| fe re Difference S.E.
-------------+----------------------------------------------------------------
invest | 2.856166 3.113429 -.2572636 .
kstock | -.5078673 -.578422 .0705548 .
------------------------------------------------------------------------------
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test: Ho: difference in coefficients not systematic
chi2(2) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 2366.62
Prob>chi2 = 0.0000
(V_b-V_B is not positive definite)
我们注意到输出结果的最后一行提示说固定效应模型和随机效模型的参数估计方差的差是
-个非正定矩阵,因此sqrt(diag(V_b-V_B))一项全为缺失值。这是在进行Hausman检验过程中经常遇到的问题,有时我们还会得到负的chi2值。产生这些情况的原因可能有多种,但一个主要的原因是我们的模型设定有问题,导致hausman检验的基本假设得不到满足。
这时,我们最好先对模型的设定进行分析,看看是否有遗漏变量的问题,或者某些变量是非
平稳的等等。在确定模型的设定没有问题的情况再进行检验,如果仍然拒绝原假设或是出现上面的问题,那么我们就认为随机效应模型的基本假设(个体效应与解释变量不相关)得不到满足。此时,需要采用工具变量法或是使用固定效应模型。在本例中,如果抛开sqrt(diag(V_b-V_B))一项全为缺失值这一问题,从检验的P值为零这一结果来看,随机效应模型的假设无法满足,所以采用同定效应模型是比较合适的。
对于采用stata9.0或以上版本的读者而言,使用Hausman命令中新增的sigmaless和sigmamore两个选项可以大大降低上述chi2值为负的情况出现的次数。着下面的例子:
hausman fe, sigmaless
---- Coefficients ----
| (b) (B) (b-B) sqrt(diag(V_b-V_B))
| fe re Difference S.E.
-------------+----------------------------------------------------------------
invest | 2.856166 3.113429 -.2572636 .0803747
kstock | -.5078673 -.578422 .0705548 .0283398
------------------------------------------------------------------------------
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test: Ho: difference in coefficients not systematic
chi2(2) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 16.58
Prob>chi2 = 0.0003
以及
hausman fe, sigmamore
---- Coefficients ----
| (b) (B) (b-B) sqrt(diag(V_b-V_B))
| fe re Difference S.E.
-------------+----------------------------------------------------------------
invest | 2.856166 3.113429 -.2572636 .0832959
kstock | -.5078673 -.578422 .0705548 .0293698
------------------------------------------------------------------------------
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test: Ho: difference in coefficients not systematic
chi2(2) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 15.44
Prob>chi2 = 0.0004
时间固定效应
如果希望进一歩在上述模型中加入时间效应,那么可以采用时间虛拟变量来实现。首先我们需要定义T-1个时间虚拟变量:
tab year, gen (dumt)
drop dumt1
这里,为样本中标示时间的变量,选项gen (dumt)的作用在于产生T个年度虛拟变量,第二条命令的作用在于去掉第一个虛拟变量以避免共线性。若在固定效应模型中加入时间虚拟变量,则估计命令为:
xtreg mvalue invest kstock dumt*, fe
若估计随机效应模型,命令为:
xtreg mvalue invest kstock dumt*, re
无论估计哪一个模型,检验时间效应的命令均为:
test dumt2 = dumt3 = dumt4 = dumt5 = dumt6 = …… =0
这里我们假设T = 6,所以 有5个时间虚拟变量
序列相关和截面相关检验
对于固定效应模型,我们可以采用前面介绍的基于差分估计量的检验方法来检验序列相关是否存在,命令为:
xtserial mvalue invest kstock
输出结果为:
Wooldridge test for autocorrelation in panel data
H0: no first order autocorrelation
F( 1, 9) = 5.698
Prob > F = 0.0408
可见,我们在5%的显著水平上拒绝了不存在序列相关的原假设,考虑到本例中样本的时间跨度为20年,这个结论还是比较合理的。
对于随机效应模型,我们可以采用xttest1命令进行检验,命令为:
qui xtreg mvalue invest kstock, re
xttest1
输出结果为:
Tests for the error component model:
mvalue[company,t] = Xb + u[company] + v[company,t]
v[company,t] = lambda v[company,(t-1)] + e[company,t]
Estimated results:
| Var sd = sqrt(Var)
---------+-----------------------------
mvalue | 1727831 1314.47
e | 72217.58 268.73329
u | 298685.7 546.52144
Tests:
Random Effects, Two Sided:
ALM(Var(u)=0) = 634.29 Pr>chi2(1) = 0.0000
Random Effects, One Sided:
ALM(Var(u)=0) = 25.19 Pr>N(0,1) = 0.0000
Serial Correlation:
ALM(lambda=0) = 13.91 Pr>chi2(1) = 0.0002
Joint Test:
LM(Var(u)=0,lambda=0) = 786.24 Pr>chi2(2) = 0.0000
该命令是针对随机效应模型的,汇报了7个统计量,用于检验随机效应(单尾和双尾)、序列相关以及二者的联合显著性。检验结果表明存在随机效应和序列相关,而且对随机效应和序列相关的联合检验也非常显著。
许多面板数据都是针对国家或公司的,因此截面间往往会存在相关性,我们可以利用xttest2命令来检验固定效应模型中截面间的相关性是否显著。对于该命令的理论解释部分请参考Greene(2000,第601页),检验的命令为:
qui xtreg mvalue invest kstock, fe
xttest2
输出结果为:
Correlation matrix of residuals:
__e1 __e2 __e3 __e4 __e5 __e6 __e7 __e8 __e9 __e10
__e1 1.0000
__e2 0.3746 1.0000
__e3 0.60 0.4337 1.0000
__e4 0.8056 0.1370 0.5072 1.0000
__e5 -0.1700 -0.5253 0.1597 -0.0227 1.0000
__e6 -0.0799 -0.4317 0.3103 0.0086 0.9428 1.0000
__e7 0.2392 -0.4190 0.3872 0.2967 0.5548 0.6132 1.0000
__e8 0.2090 -0.1227 0.6950 0.3424 0.7438 0.7888 0.52 1.0000
__e9 0.14 -0.2176 0.5794 0.2217 0.7218 0.7961 0.4753 0.8615 1.0000
__e10 0.6661 0.4116 0.1157 0.3515 -0.5425 -0.4422 0.0208 -0.4282 -0.3780 1.0000
Breusch-Pagan LM test of independence: chi2(45) = 211.075, Pr = 0.0000
Based on 20 complete observations over panel units
可见,不同公司的经营行为存在显著的相关性。
对于固定效应模型而言,我们还可以检验截面异方差性,命令为
xttest3
输出结果为:
Modified Wald test for groupwise heteroscedasticity in fixed effect regression model
H0: sigma(i)^2 = sigma^2 for all i
chi2 (10) = 7.4e+06
Prob>chi2 = 0.0000
最后总结
| 检验步骤 | 指令 | 显著性判断 |
| 固定效应与混合效应 | xtreg mvalue invest kstock, fe | 若显著,固定效应 |
| 随机效应与混合效应 | xtreg mvalue invest kstock, re xttest0 | 若显著,随机效应 |
| 固定效应与随机效应 | Hausman 检验 | 若显著,采用固定效应 |
| 固定效应序列相关 | xtserial | 若显著,存在序列相关 |
| 随机效应序列相关 | qui xtreg mvalue invest kstock, re xttest1 | 若显著,存在序列相关 |
| 固定效应截面相关 | qui xtreg mvalue invest kstock, fe xttest2 | 若显著,存在截面相关 |
| 固定效应异方差检验 | Xttest3 | 若显著,存在异方差 |