在构建多因子模型分析之前,如何对单因子效果进行检验

多因子系列之一 :多因子模型梳理探索 证券研究报告 金融工程专题报告 金融工程 爱建证券有限责任公司 发布日期 2016年10月31日 星期一 研究所 多因子系列之一:多因子模型梳理探索 分析师 :侯佳林 报告摘要 : 执业编号 :S2 TEL:021-08 ? 积极性投资组合管理 ,关注点在于共同性因子而非个股 E-mail:houjialin@ 联系人 :方时 积极型定量投资组合管理主要是从统计学的角度出发,研究股票共同因 执业编号 :S0 子收益率的变化规律,同时以组合为标的分析管理各因子的暴露度,以期配 TEL:021-85 制出能够超越大盘的证券组合。 E-mail:fangshi@ ? 多因子模型的表现形式 模型假定存在K个因子使得超额收益率可以被表达为如下公式: k r ?X ?b ?? n n,k k n k 1 其中X 表示的是股票n在因子k上的暴露程度。b 表示因子k 的因子 数据来源 :WIND ,爱建证券研究整理 N,K k 收益率,μ表示股票n 的特异性收益率。多因子模型的本质是将多只股票n 的风险收益率转变成因子的风险收益率,从而大大减少了计算的复杂程度。 ? 因子效用检测 1传统的IC检测方法 传统的因子有效性检验是使用因子的IC序列 (因子截面暴露值序列和 截面超额收益率序列的相关系数)均值来判定因子有效程度 2 Barra检测法 Barra 通过对因子的稳定、因子对收益率的影响、因子之间的相关性等 方面的进行检验,给出了一套因子检验的方法。 3 分层打分回测法 根据一个或多个因子对个股票进行打分,并按照得分情况把股票分成N 等分,以此进行回测。并使用年化收益率,夏普比率,年化波动率,最大回 测等进行评测。 4权重优化-剔除额外因子回测法 结合模型结构,通过优化个股的权重,使得股票组合仅对测试的风险因 子有所暴露,而对其他因子暴露值为0或者很小。然后进行回测,并通过年 化收益率、夏普比、波动率等来进行评测。 ? 风险提示 数据回测只代表历史,并不表示来来一定会按照趋势延续

本报告探讨如何找到有逻辑意义并且能够有效的区分个股的因子,且因子值对于个股未来收益有一定的预测能力;用数学的语言描述就是如何检验单因子和收益率之间是否有相关性。

我们对因子的检验基于两个维度:

1、计算同一时刻的个股的指标值和未来一段时间(通常为一个月)收益的相关性,也就是IC值(信息系数)。

2、按照指标值大小对股票进行分组,从时间序列的角度观察各组的历史累计收益、信息比率、最大回撤以及胜率等。各组表现的优势组的胜率越高,单调性越强,说明指标的区分能力和选股能力越强。

检验方法的几点思考和改进

为了得到回归系数值,最常用的方法是采用最小二乘法(ordinary least squares,简记OLS)进行参数拟合。所谓最小二乘法,就是使残差平方和最小,残差平方和用数学公式表示就是:


传统的最小二乘法方便估计出一个线性回归系数,但其目标函数并不是一个稳健的统计量,容易受到异常样本值的影响。因为最小二乘法要求误差项相互独立、服从正态分布、以零为数学期望并有相同方差的随机变量。当实际的观测值包含异常值时,误差将不再服从正态分布,而是重尾分布(long-tailed distribution)。对这样的数据作回归分析时,回归直线将是主体数据与异常值之间的一个妥协,而与真实的回归线相差较远。

在多因子模型中,一些选股因子很可能会出现一些异常值,而这些异常值会对回归的模型参数产生较大影响。为了降低异常值的影响,我们可以使用加权最小二乘法(稳健回归)估计模型。

稳健回归的主要思路是将对异常值十分敏感的经典最小二乘回归中的目标函数进行修改;例如,剔除一些异常值,或者降低其在目标函数中的权重。

稳健回归就能够克服最小二乘回归因异常值而失真的缺陷,得出更为接近实际值的估计。

以的 stockpjcj5-60指标为例,与最小二乘法相比,稳健回归受到个别奇异值的影响较小。如果用t检验,稳健回归收到奇异值的影响较小,其回归系数显著小于0,而OLS回归系数变得不显著。


  • 整体回归 vs. 按月度回归

每个月都有一组指标数据以及对应的未来收益率数据;以往有的研究会将几年的数据放在一起,整体进行回归,但我们更建议每月进行一次回归,按月回归的好处有两个:

1、减少单次回归的样本数量。

从下图可看出,当设定好一个显著水平后(如0.05),样本量越大,拒绝原假设所需的相关系数越小,因此,样本量如果过大,指标很容易通过显著性检验,不利于对指标的优劣进行判断。


2、有利于观察指标的历史表现。

数据放在一起做总体回归虽可以得到指标整体的历史规律,但市场不会长期保持一种风格,整体IC忽略了很多重要的信息,而通过计算月度IC,我们可以了解以下信息:

因子的持续周期和反转频率

  • 指标值回归 vs. 秩相关系数

在对指标值进行稳健回归的基础上,我们还引入秩相关系数去检验指标与收益之间的相关性,这是因为指标与收益之间往往并不是线性相关的,而使用Pearson线性相关系数需要满足两个假设:

1、数据是成对地从正态分布中取得的;

2、数据至少在逻辑范畴内必须是等间距的数据。

如果这两条件不符合,一种选择就是采用Spearman秩相关系数来代替Pearson线性相关系数。

秩相关系数是一个非参数性质(与分布无关)的秩统计参数,由Spearman在1904年提出,用来度量两个变量之间联系的强弱。秩相关系数又称顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。

不管变量之间的关系是不是线性的,只要变量之间具有严格的单调增加的函数关系,变量之间的秩相关系数就是1(下图),相同情况下,Pearson相关性在变量不是线性函数关系时,并不是完全相关的。

当秩相关系数显著时,可以结合组合的历史超额收益、信息比率等信息,综合判断指标对于股票收益的区分度。

  • 按照指标排序全市场分组vs. 行业内分组

有一些基本面因子,如PB、资产周转率、市值等,不同行业间有着天然的差异,可能不具有可比性,而且如果全市场分组,可能存在行业的显著偏离,因此全市场分组有效与指标在行业中性的情况下有效不是等同的概念。

我们在对因子的考察中,同时采用了行业内(申万1级)分组和全市场分组两种方式进行对比,发现有的指标在行业内分组的效果更好,而有的指标更适合于直接在全市场进行排序。

  • 同向显著比例 vs. 状态切换比例

指标值每个月都可以与次月收益率之间算出一个回归系数,当回归系数显著的比例较高时,我们就认为该因子对与股票走势有一定的解释度。

一般而言,市场的风格不是一层不变的,而是轮动的。换言之,因子与收益率的回归系数会在正负之间之间切换。我们在运用因子时,有两个选择,一是计算历史正相关和负相关的比例,选取相关比例较高的一个方向作为对未来的预测;另一个方法是跟随最近的市场风格,例如采用该因子最近一次显著相关的方向作为对未来的预测,但这种方法要求因子有较强的延续性。

我们在检验结果中,同时列出正相关比例、负相关比例、同向显著比例以及状态切换比例。回归系数同向显著比例大,代表风格延续性强,越有可能在多因子模型中通过动态调整因子权重,提高胜率;而对于风格频繁切换的因子,使用静态权重可能是更好的方式。

我们以32个常用选股因子为例,用改进后的方法做单因子检验并对因子进行了综合排序。总体而言,表现较好的因子有市值因子、反转因子、换手率指标、各类业绩增速指标和估值指标。另外、资产负债率、周转天数、ROE、ROA以及销售利润率等指标也对股价有着一定的预测性。

综合考虑因子的正负显著比例之差以及强势组收益情况,我们对因子进行评分排序如下:排序越小说明因子作为单因子选股效果越好(我们将因子排序前10名以及不同类型表现较好的因子用红色标出)。

更多详细内容请参考东方证券金融工程团队报告《单因子有效性检验--多因子选股模型的基石》。

报告中选股指标的收益基于历史数据进行统计,未来市场可能发生较大的风格转换。

量化选股的胜率不为百分之百,需进行严格的风险控制。(东方金融工程研究)


这里,汇聚了当前国内一线才华横溢的对冲基金精英,我们坚信,他们中间,必将会诞生出中国未来对冲基金界的领袖翘楚。有欲望,就有江湖。这,注定是一个英雄辈出的传奇时代。今天我们走进广州康腾投资管理有限公司,与其领军人物邓文杰面对面...欲知详情,请点击页面左下角的“阅读原文”

我要回帖

更多关于 多因子模型分析 的文章

 

随机推荐