基本面信息在中国股市月度预测中的重要性研究
刘思屹1 章勇1 王俊博2 1.南方科技大学商学院 广东深圳 518055 2.招商证券股份有限责任公司 广东深圳 518046 基金项目:深圳市人文社会科学重点研究基地成果。 摘要:实证研究发现,在中国股市月度预测中交易类指标比基本面指标具有更高的重要性。首先,在线性回归的因子框架当中,体现基本面信息的变量的显著性远不如体现交易信息的变量。第二,在非线性的随机森林集成学习收益率预测方法中,盈利变量显示出了较高的重要性,但也仍不如交易类指标重要。第三,对全市场宏观指标的重要性分析也表明,体现市场资金信息的新股发行金额的重要性大于体现基本面信息的宏观变量。以上发现表明,基本面指标在月度中国股市预测中有一定作用,但并不是最重要的。用非线性模型可以更好地捕捉基本面信息的预测作用。 关键词:基本面;因子;中国股市;随机森林;集成学习 一、引言 传统金融理论认为,股票的价格主要由基本面决定。基于这样的理论,衍生出了股市投资中最重要的策略,价值投资策略。价值投资策略主要通过对公司基本面进行深入分析,发现便宜的好公司进行买入并长期持有。除了价值投资策略,以多因子为代表的量化投资策略也在市场中具有较大的影响力,这主要起源于资产定价理论的发展。在上世纪60年代Sharpe等学者们提出CAPM[1]后,资产定价的研究被不断丰富和加深。上世纪90年代,Fama和French提出了著名的市场、规模、价值三因子模型[2, 3],成为了多因子模型的基础。在此之后,学术界在三因子模型之后发现了数百种异象。近年来,学术界在三因子模型的基础上,又进一步提出了众多新的资产定价模型,不论是增加了动量因子的Carhart四因子模型[4],Hou, Xue, Zhang(2015)的q-factor模型[5]还是Fama-French(2014)提出的增加了盈利和投资的五因子模型[6]。过去的资产定价模型大多使用线性回归,而Gu, Kelly, Xiu(2018)[7] 提出了机器学习等非线性模型在资产定价领域的应用。绝大多数资产定价模型使用的是美国股市数据。Liu, Stambaugh and Yuan(2018)的《Size and Value in China》[8] 为中国A股市场实证资产定价做出了重要贡献,还提出了一个符合中国市场特点的新因子,换手率。换手率变量在中国股市历史数据中具有较高的显著性。这引出了一个关于中国股市的重要问题:基本面信息在中国股市月度预测中有用吗? 本文中,我们将分别使用线性和非线性的工具研究基本面信息的重要性问题。在第二节中,我们首先使用Fama-French包含盈利和投资的五因子模型[6]对基本面指标在中国股市中的显著性和因子投资组合的历史收益曲线进行分析。在第三节中,我们重点对换手率因子[8]在中国股市的表现情况进行分析。在第四节中,我们使用Gu, Kelly, Xiu(2018)[7]中表现良好且可解释的随机森林集成学习模型对个股与宏观指标对预测股票收益率的重要性进行分析。在第五节中,提出本文结论。 二、盈利和投资效应在中国股市显著性较弱 Fama and French(2015)用美国股市数据构建的一个新的五因子模型 [6]比传统的三因子模型[3]表现更好。然而,在我们用中国股市的数据构建的五因子模型中,与三因子模型相比,新增的两个体现基本面信息的变量,盈利能力和投资,显著性较弱。 为了使分析尽可能简单直观,我们用ROE作为盈利能力变量,用总资产的变化作为投资变量进行计算。由于一些投资变量的绝对值非常高,我们将大于5(排名99%)的变量设为5。按照Fama and French(2015)的做法,我们从6月底开始作为第t年,并使用t-1的ROE,以及t-2到t-1的资产变化百分比。第二节和第三节的数据来自Tushare,一个中国股市数据python接口。我们使用python和MATLAB等工具对数据进行处理和分析。数据时间从2000年1月到2020年5月。 表1 五因子的Fama-MacBeth回归
表2 双重排序:规模和盈利能力
表1中展示了Fama-MacBeth回归的结果。表中数据显示,当单独与市场β系数进行回归时,盈利能力和投资变量的t值都是显著的。然而,当在回归中加入规模变量时,ROE变得不显著。这可能表明,ROE和超额收益的异常负相关可能与规模有关。为了找出规模和盈利能力之间的关系,我们使用了双重排序法。表2是双重排序后的分析结果。表中显示,在双重排序中,每个5-1(ROE)都不显著。最小的规模组有最大的负超额收益。这意味着盈利能力在超额收益的预测中可能并不重要。 为了进一步了解变量在预测中的作用,我们按照单变量排序前20%减去后20%形成简单的盈利因子WMR(Weak Minus Robust)和投资因子CMA(Conservative Minus Aggressive)投资组合。在投资组合净值表现中,低ROE股票的回报率大于高ROE股票,这与理论相反。理论上,获得正收益组合应该是RMW而不是WMR。这意味着基本面信息在中国股市月度收益率预测中可能起到了和理论相反的作用。 为了让每个因子在收益率预测中的作用显得更直观,我们绘制了图1来展示盈利能力WMR、投资CMA、规模SMB(Small Minus Big)、价值HML(High Minus Low)因子投资组合的历史净值表现。投资组合仍然是按照单变量排序,用排名前20%的投资组合回报减去后20%的投资组合回报构建。投资因子在中国股市的负超额收益与五因子模型在美国股市的方向是一致的。然而,与其他变量相比,超额收益非常低。 图 1 SMB (右轴), HML, WMR and CMA投资组合净值曲线 在图1中,我们还可以看到,不仅盈利能力因子投资组合的表现与理论方向相反,投资因子投资组合的累计回报率非常低,价值因子HML投资组合表现也并不好,甚至历史累计收益率还没有反向ROE高。这些体现基本面信息的因子的历史回报率都远不如规模因子。 三、换手率效应在中国股市显著性很强 换手率是一个反映情绪效应的变量。Liu, Stambaugh and Yuan(2018)[8]指出,换手率在中国股市的回归结果非常显著。其起源于Baker and Stein(2004)[9],Lee(2013)[10]将其作为情绪衡量标准。 我们按照Liu, Stambaugh and Yuan(2018)[8]的方法构建这个变量,用过去1个月的成交量除以过去12个月的成交量。对于PMO(Pessimism Minus Optimism)因子,为了与我们过去的方法一致,我们使用换手率最低的20%股票投资组合收益率减去换手率最高的20%股票投资组合收益率。为了检验其显著性,我们使用Fama-MacBeth回归,包含市场、市值和价值变量。回归结果见表3。 表3 Fama-MacBeth回归:市场、市值、价值和换手率
在与市值和价值的回归中,换手率的t统计量为7.3194,远高于市值和价值的t统计量绝对值。换手率变量回归结果的显著性,体现了情绪指标在中国股票市场的预测重要程度可能远高于基本面指标。我们还构建了表4,进一步观察换手率指标排序构建的五个投资组合表现情况。 表4 五分排序组合的平均回报率和t统计量
表4中清晰地显示,最高的换手率组合有非常显著的负收益。为了更直观展示换手率指标对中国股市的预测重要性,我们还绘制了图2,展示换手率因子PMO的超额收益净值与沪深300指数的对比图。结果显示,沪深300指数在近十几年当中并没有很高的累计涨幅,而换手率因子PMO却可以产生较高的正回报。 图2 换手率因子(左轴)与沪深300指数净值曲线(右轴) 图2中,换手率变量构建的投资组合有良好的历史净值表现。这进一步体现出,中国股市月度收益率预测主要通过交易指标获取市场情绪相关信息,而不是通过基本面指标获取的基本面信息。 四、基本面信息在非线性方法中体现出重要性 前文中主要使用线性因子模型对变量进行分析。实际上,线性模型所能检验的变量较少。与全市场成百上千指标相比,仅靠几个指标的回归结果可能难以得出令人信服的结论。如果使用更多的指标,线性模型的估计效果可能会变差,并且无法考虑变量之间的互动关系。我们能否进一步使用非线性模型分析各种变量的重要性,更全面地分析基本面信息在月度中国股市预测中的作用?这里我们将引入部分源自Gu, Kelly, Xiu(2018)[7]的机器学习资产定价模型:随机森林集成学习模型。 随机森林集成模型的基础模型是决策树。在一颗决策树当中,我们可以实现非线性的组合。例如,在决策树中,我们可以实现这样的预测:当公司规模变量小于0.5,且价值变量大于0.3时,预测超额收益率为2%。但是在线性回归当中,我们只能按照规模变量和价值变量的大小进行加权求和,而不能实现自由分段组合。随机森林是一种对决策树的集成学习方法,它可以有效减少过拟合现象,即对用于训练的样本内数据拟合很好,但是对样本外的数据预测力却很差的情况。在随机森林集成学习模型的训练中,资产定价基本公式的形式与传统的资产定价模型有一些细节变化,这样将可以更好地利用市场中的个股特征信息与市场宏观信息进行预测。 传统的资产定价模型是多因子模型。多因子模型的理论基础主要包括绝对定价和相对定价,而最通用的公式则是p=E[mx]所描述的无套利定价公式[11]。大量学者的研究表明,多因子模型和无套利定价公式的框架是等价的。多因子模型的基本形式为: 因子所代表的是某种系统性风险,而每种资产在这种系统性风险上的暴露不同。所有因子暴露乘以系统性风险溢价之积相加就得到了资产的期望风险溢价。近年来,金融资产定价理论的突破主要集中在因子识别和因子风险溢价的估计,可以简单理解为对公式中β的识别和对λ的估计。近年来,Fama and French也在最近的研究中发现用公司特征作为暴露的模型效果更好[12]。GreenandZhang(2017) [13]对94个公司特征作为暴露进行研究。Welch and Goyal(2008)则提出,使用分红价格比、盈利价格比等宏观指标,可以用于预测资产的风险溢价 [14]。Kelly, Pruitt, and Su (2019) 提出的IPCA方法在聚合因子信息方面产生了较重要的突破[15]。在本文的研究中,我们参照Gu, Kelly, Xiu(2018)的做法 [7],以公司特征c作为因子暴露β的基础,宏观变量x作为因子风险溢价λ的基础,假设β=cθ1,λ=θ2x,用随机森林集成学习模型去估计θ=θ1θ2,并估计各变量在估计风险溢价中的重要性,即按假设去掉这个变量后预测结果变差的程度进行加权计算。 在第四节中,我们总共采用了85个股票特征变量和7个宏观变量,以及110个行业哑变量。构建总计85*(7+1)+110=790个变量,作为机器学习模型的输入。最终的输出是资产风险溢价。需要强调的是,在本研究中,机器学习模型是基于截面的,与单只股票或者时间无关。本文中的研究主要基于Gu, Kelly, Xiu (2018) [7]中使用的Breiman et al. (1999) [16]提出的随机森林方法。本部分的数据获取的来源主要为Tushare金融数据库(行情与基本面数据)、Wind金融数据库(部分宏观数据)、Betaplus小组(部分因子数据)以及中国货币网(部分利率数据)。代码的编写主要使用python。 用于检验的个股指标有85个,参考Green and Zhang(2017) [13],主要分为月度指标(交易信息为主)、季度指标以及年度指标(基本面信息为主)。部分季度指标包含行情与基本面数据的结合,例如bm指标(book to market)包含股东权益数据和股票市值数据。交易数据指标主要包括动量与反转指标、beta相关指标以及流动性(交易量)相关指标等20个。基本面指标则包含盈利能力(roe,roa),运营能力,杠杆情况等61个。参考Kelly et al.(2019)[15]的方法,指标计算完毕之后,根据每一期的截面排序情况,将指标全部标准化为[-1,1]区间。月收益率则使用后复权价格。宏观指标参考Welch and Goyal(2008)[14]主要按月更新,滚动12个月计算,包括dp(分红价格比),ep(盈利价格比),bm(账面市值比),ntis(新发行股票市值),tbl(无风险收益率),tms(长短期国债利差),svar(股票市场波动率)等。数据合并按照行情、季度和年度基本面指标,按t-1,t-5和t-7与t月的收益率进行对齐。 按照以上处理方式完成数据准备之后,我们使用随机森林方法对模型进行拟合,并按照变量对预测结果影响的重要程度计算变量重要性权重排序(所有变量重要性权重求和为1)。我们将特征变量以及宏观变量的重要性权重进行分别汇总,得出重要性排序的结果。 从公司特征重要性排序结果看,交易金额(dolvol)排在第一,权重接近10%;其次是流动性(ill),权重超过7%,然后是市值(mve),权重超过5%。进入前十的指标还有无交易天数(zerotrade)、换手率及其标准差(turn,std_turn)、上市年限(age)、盈利增长期数(nincr)、季度盈利(roeq)以及价值(bm)等,权重都在2%-5%之间。从以上结果中可以看到,基本面指标可以进入重要性前十,但都排在靠后的位置。前五的指标都是交易行为指标。在包含大量指标的非线性模型中,个股的交易信息仍然在预测月度收益率方面起到最重要的作用,但是基本面指标也体现出了不小的重要性。从变量重要性的定义来看,如果同时去掉了盈利增长期数、季度盈利或者价值变量三个基本面指标,对收益率预测结果的影响不亚于单独去掉了市值变量。 从宏观变量重要性特征排序结果看,新增市值(ntis)排在第一,权重35%,其次是账面市值比(bmr),权重20%,然后是市场波动率(svar),15%,第四和第五分别是国债期限利差(tms)和无风险收益率(tbl),权重均超过10%。新增市值指标主要反映了市场对资金的需求,当新增市值很高,即大量新发行股份时,会有许多资金被用于申购新股,这对市场上存量交易资金的影响较大。这个指标跟公司基本面没有直接关系,然而重要性权重排在第一,且领先排在第二的基本面指标账面市值比15%。对宏观变量重要性的分析仍然表明,对月度收益率预测影响最大的是反映市场资金情况的新增市值指标,但体现基本面信息的账面市值比指标也有20%的权重,不可或缺。 五、结论 以上结果表明,尽管在多因子线性框架下,基本面信息尤其是盈利能力和投资在中国股市的显著性较弱,但在非线性的随机森林集成学习模型框架下,基本面信息在中国股市中体现出了不可替代的作用。虽然基本面信息在两种模型框架中都不是最重要的,但也都不是可以忽略的。这个发现为我们在未来对中国股市进行分析时提供三方面的重要启示。第一,公司基本面信息对中国股市月度收益的影响不是最重要的。在看好一个公司基本面并买入后,不能保证在月度周期中就可以获得正收益。价值投资者如果希望获得月度层面更稳健的业绩表现,可以考虑结合交易指标进行月度分析。第二,仅使用技术分析的方法进行中国股市月度交易也是存在较大风险的,因为基本面信息仍然会与交易信息产生交互,并对月度收益预测产生不小的影响。可以综合考虑交易信息和基本面信息的交易策略会获得相对更稳健的表现。第三,机器学习方法在分析大量公司特征及宏观变量中可以起到重要作用,随机森林集成学习模型只是冰山一角。非线性模型在资产定价领域的应用有非常广阔的前景。 参考文献: [1] Sharpe W F . CAPITAL ASSET PRICES: A THEORY OF MARKET EQUILIBRIUM UNDER CONDITIONS OF RISK*[J]. Journal of Finance, 1964, 19(3):425-442. [2] Fama E F , French K R . The Cross-Section of Expected Stock Returns[J]. The Journal of Finance, 1992. [3] Fama E F , French K R . Common risk factors in the returns on stocks and bonds[J]. Journal of Financial Economics, 1993, 33(1):3-56. [4] Carhart M M . On Persistence in Mutual Fund Performance[J]. Social Science Electronic Publishing, 1997, 52(1):57-82. [5]Hou, Kewei, Xue, et al. Digesting Anomalies: An Investment Approach.[J]. Review of Financial Studies, 2015. [6] Fama E F , French K R . A Five-factor Asset Pricing Model[J]. Journal of Financial Economics, 2014, 116(1). [7] Gu S , Kelly B T , Xiu D . Empirical Asset Pricing via Machine Learning[J]. Social Science Electronic Publishing, 2018. [8] Liu J , Stambaugh R F , Yu Y . Size and Value in China[J]. Yu Yuan, 2018. [9] Malcolm, Baker, and, et al. Market liquidity as a sentiment indicator[J]. Journal of Financial Markets, 2004. [10] Individual Stock Investor Sentiment, Stock Issuance, and Financial Market Anomalies. University of Pennsylvania. 2013. [11] Cochrane J H . Asset pricing -rev/E[J]. 2005. [12] Fama E F , French K R . Comparing Cross-Section and Time-Series Factor Models[J]. The Review of Financial Studies, 2019(5):5. [13] Green J , Hand J , Zhang F . The Characteristics that Provide Independent Information about Average U.S. Monthly Stock Returns[J]. Review of Financial Studies, 2017. [14] Welch I , Goyal A . A Comprehensive Look at The Empirical Performance of Equity Premium Prediction[J]. Social Science Electronic Publishing, 2008, 21(4):1455-1508. [15] Kelly B T , Pruitt S , Y Su. Characteristics are covariances: A unified model of risk and return[J]. Journal of Financial Economics, 2019, 134. [16] Breiman L . RANDOM FORESTS--RANDOM FEATURES[J].machine learning, 1999. |