面板数据中基本效应的处理方法-CDA数据分析师官网

面板数据中基本效应的处理方法

2014-07-22

面板数据中基本效应的处理方法

面板数据（panel data）分析是实证金融领域研究者经常用到的方法。在很多面板数据中，残差（residual）往往会和时间序列或企业相关，从而导致了普通最小二乘估计（OLS）中标准误（standard errors）的偏误。，美国西北大学金融学教授Dr. Mitchell Peterson于2009年在Review of Finance Studies发表了”Estimating Standard Errors in Finance Panel Data Sets: Comparing Approaches”的文章，在学术界颇有影响。其在文章中比较了不同标准误的算法对于处理面板数据回归分析中不同类别的估计偏误的效果，并对各种类型的偏误提出了指导性的建议。笔者在学习之余，基于个人的理解，试图精简、通俗地归纳Peterson文章的要义。

众所周知，在进行标准二乘线性无偏估计的时候，我们假设残差项是独立同分布的（independent and identically distributed, i.i.d.）。而一旦此假设在实际数据中被打破，则估计就会出现偏误（ bias ）。Peterson指出，在过去的很多实证金融文献中，很多研究者实际上并没有正确地选择合适的方法，根据残差项与时间或者企业的相关性来修正标准误，或者它们只是盲目地跟从在他们之前其他文献中的方法来修正偏误，而事实上这可能完全是互相误导。错误的标准误会导致在判断变量显著性的时候给出不可靠甚至错误的结论，从而使得研究的可信度大打折扣。Peterson在文章当中对不同的面板数据结构所应采用的标准误估计方法做出了考察和比较。

1. 只具有“企业固定效应”（firm fixed effect）的面板数据

首先我们明确什么叫企业固定效应。面板数据一般是二维的，具有时间和对象两种要素。对象可以是个人、企业、国家等等。为了简化文义，我们将对象改称为企业，因为这也是金融实证数据中最为常见的对象。企业固定效应指的是，在面板数据的时间维度上，每一个个体企业都具有一个特有的特征能影响被解释变量，而且这个特征会在整个时间维度上伴随着这个企业，并且独立于其他企业，换言之，不受其他企业影响。比如某个企业的管理能力是伴随着这个企业的一个特征，它不受其他企业影响，并且在有限的时间维度内可以假设不变。

Peterson指出，在这种情况下，OLS的标准误会被低估，因为每一个额外观测值所能提供的真实信息量要小于OLS模型所假设具有的信息量。在这种情况下，研究者应采用群集标准误（clustered standard errors），并且根据企业来群集。简单地讲，企业群集标准误把同一个企业的变量在不同的时间点可能存在的相关性考虑进去了，从而提供一个修正了的标准误。Peterson的论证指出，企业群集标准误在处理具有企业固定效应的面板数据中的有效性是突出且可靠的。

除此之外，采用其他方法来估计标准误可能会有潜在的问题产生。比如，OLS估计的标准误会是有偏的，至于偏误多少，则取决于残差和变量存在多大的相关性。又如，用Fama-MacBeth两阶段回归的方法也会产生偏误（标准误被低估），而且因为F-M方法的计算手段的关系，F-M会比OLS具有更大的偏误。F-M的方法是被设计用于考虑横截面相关的（在同一时点上不同观测对象之间的相关性），而非序列相关（同一观测对象在不同时点上的相关性），因此用在这里不合适。再如，用Newey-West的方法也会造成标准误的低估。Newey-West的方法在于只考虑在同一群集内滞后期的残差之间的相关性，而最大的滞后期是比面板数据所提供的时间维度小1。Peterson的实验发现，随着滞后期的上升，Newey-West的偏误会逐渐减小，但因为最大滞后期的限制，其永远无法消除估计上的偏误。

2. 只具有“时间效应”（time effect）的面板数据

同样的，先明确什么是时间效应。简而言之，指的是在同一时点上的不同企业的变量之间存在着相关性。这可能由比如宏观经济状况等某种外部因素所导致的，而这种因素会影响同一时点上的所有企业，但在跨时期中会出现独立变化。

Peterson发现，当面板数据存在时间效应时，普通最小二乘估计依然会低估标准误。而根据时间来群集的群集标准误则可以提供相对准确的估计，但这只局限于当时间维度（即面板数据可提供的时点数）很大的时候。比如，当数据中只有很少的几个年份的时候，群集标准误也显得不够准确。

Peterson指出，在这种仅有时间效应的情况下，最理想的方法应当是采用Fama-MacBeth两阶段回归法来估计标准误。简而言之，先对每一个企业的时间序列进行回归，得到beta系数后，再将beta系数作为已知变量再进行横截面数据的回归。这种方法的要义在于，通过第一步来得到每个企业受各个变量影响而导致的超额收益，而其中还有一部分没有观测到的影响因素则受时间变化而变化，因此在第二步的回归中，对同一时点上的所有企业做横截面数据回归，从而找出这些因素的影响，而这就是时间效应之所在。

3. 同时具有“企业效应”和“时间效应”的面板数据

根据前文所述，如果研究者有足够的把握选取某一种方法（群集标准误或者F-M法）来估计标准误，她必须要保证面板数据只存在企业效应或者时间效应，而非同时存在两种效应。但往往这是一种太过于理想化的假设。

Peterson指出，一种最通常的方法是：对某一个维度使用虚拟变量（dummy variable），然后使用另一维度的群集标准误。一般在研究中比较常见的是，对时间取虚拟变量，然后做企业的群集标准误，因为一般的面板数据都具有许多个企业，但未必有足够多的时间点用来做时间群集标准误。

再者，也可以在两个维度上做群集，只要每个维度的数量足够多。在这种方法上，Thompson（2006）提出了一种简便的算法，即：

V_{firmtime}=V_{firm}+V_{time}-V_{white}

二维标准误 = 企业群集标准误 + 时间群集标准误 – 稳健标准误

其中稳健标准误即为怀特标准误（White standard errors），也是在处理异方差时最常用的稳健标准误。

4. 结语

以上是面板数据中最基本的几种效应的处理方法，但在实证中，有些情况会比较复杂。比如Peterson提到，有些时候企业效应是暂时性的，即随着时间的推延，某些影响因素会渐渐消退。广义线性估计（GLS）可以比较有效地估计随机效应模型，但是如果残差间的相关性随着时间变化而消退，那么GLS的估计可能也是有偏的。对此，Peterson提出使用调整了的F-M方法来进行处理，但前提是残差间相关性的消退应比较迅速，并且面板数据的时间维度要足够充足。数据分析师培训

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征最小二乘数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇随机森林 vs XGBoost vs 决策树：算法选择中的

下一篇图论在大数据分析中的作用！

面板数据中基本效应的处理方法

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...