惩罚函数Beta回归变量选择方法
基于惩罚函数的Beta回归变量选择方法
内容提要:当因变量取值在(0,1)区间的比例数据时,Beta回归是常用的模型,该模型基于因变量服从Beta分布的假设,通过连接函数将样本服从Beta分布的均值与自变量联系起来。本文主要研究基于惩罚函数的Beta回归模型变量选择方法,研究了在LASSO SCAD和MCP三种惩罚方法下的极大似然估计,同时实现了变量选择和回归系数的估计。本文还研究了其渐进性质与Oracle性质,并且给出了计算机模拟。最后,将该方法应用到股息率的影响因素研究中。
关键词:Beta回归;变量选择;惩罚函数;Oracle性质
中图分类号:0212 文献标识码:A
Variable Selection for Beta Regression based on Penalized Function
Abstract: Beta regression is the popular model when the dependent variable is proportional data in interval (0,1), which assumes the dependent variable is beta distribution, connecting the mean of beta distribution and independent variables via link function. This article main focus on the variable selection for beta regression based on penalized function, giving maximum likelihood estimation with LASSO, SCAD and MCP penalty methods, the variable selection and estimation of coefficients can be conducted at the same time. We also give the proof of its asymptotical and oracle properties and the results of simulations. Finally, we apply this method to select significant factors for dividend rate.
Key Words: Beta Regression; Variable selection; Penalized function; Oracle Properties
一、引言
线性回归模型是最常用的回归模型,其假设因变量的取值区间为,但对因变量取值限制在区间的比例数据时,直接线性回归建模就不合适了,因为其拟合值很可能会落在区间外。而比例数据在实际中是很常见的,比如股息率、升学率、电视收视率、环境效率等。对于这种比例数据的因变量,传统的方法是将因变量转换到实数区间上,用自变量与转换后的因变量的均值建模。然而,这种方法的回归系数难以解释,而且比例数据通常具有非对称性,基于正态分布假设下做出的推断可能会导致预测失误。为解决传统回归所存在的问题,Ferrari 和 Cribari-Neto(2004)提出了Beta回归。由于Beta分布的密度函数的形状变化十分灵活,能够描述各种各样的分布,且回归系数具有较好的解释意义,因此广受欢迎。Beta回归模型的参数估计和统计诊断可以通过R包betareg实现(Cribari-Neto 和Zeileis,2010)。
随着计算机技术的飞速发展,极大地便利了数据的获取和存储,很多部门积累了大量的数据,比如股票市场的逐笔交易记录、商业银行交易记录等,同时这些数据的维度也越来越高,高维模型中噪声变量多,一个最重要的问题是模型选择,在许多情形下,这等价于如何选择自变量的问题。若不对它们加以筛选,引入过多变量,从理论上来说,一方面会导致模型不稳健,极大地降低了估计和预测精度;另一方面会加大模型的复杂度,无法突出最重要的自变量。
在回归分析中,往往先引入大量的自变量,然后筛选对因变量影响显著的自变量,这样可以减少模型的设定偏差。关于变量的选择,计量经济学中常用的方法有最优子集法(subset selection)、逐步(向前、向后)回归法(stepwise)、逐段法(stagewise)等(方匡南等,2014)。但是这些方法存在许多缺点,Fan和Li(2001)指出最优子集法遍历所有子集搜索最优解,因此计算成本高,特别是很大时,基本不可能实现求解; Breiman(1996)指出逐步回归法缺乏稳定性,对数据的微小