侠盾研报网,专业研报大数据平台,收录各类研报、行业研报、券商研报、股票分析报告、行业研究报告等,已收录投研文档共计 32168134 份!
您当前的位置:首页 > 研报 > 金融工程 > 研报详情

东方证券-《因子选股系列研究之八十六》:研报文本情感倾向因子-221206

上传日期:2022-12-07 16:03:00  研报作者:王星星  分享者:544077192   收藏研报

【研究报告内容】


  研究结论
  分析师研报数据是相对独立的信息源,本报告基于朝阳永续的研报标题和摘要文本、盈利预测,用多种NLP模型提取文本特征,判断研报的情感倾向。
  文本的处理有多种多样的方式,文本特征具有稀疏的特性,本文通过正则匹配、同义映射、词向量映射三种方法对文本特征进行降维,在同样的特征维度中可以囊括更多的信息,提升因子表现的同时,增加了模型的可解释性。对降维后的特征用XGB和RNN模型对研报盈利预测调整幅度进行回归训练。
  本文用多种处理方法和模型构建了如下5个因子:
  1.词频因子RPTF:统计训练窗口内的高频词,形成log词频矩阵,用XGB进行回归预测,全样本RankIC3.4%,ICIR1.3,年化收益率20%。缺点是单词特征并不能体现出情感倾向,如果“利润”“成本”“增加”三个词同时出现的话,逻辑上模型并不能知道是利润在增加还是成本在增加,于是衍生出RPRF因子。
  2.正则表达式因子RPRF:人工提取研报中常见、并且具有情感倾向的表达,类似于((产能)|(规模)|(如期)).?((达产)|(投放)),形成regex的One-Hot矩阵,用XGB进行回归预测,全样本RankIC3.5%,ICIR1.7,年化收益率19%。缺点是人工提取regex费时费力且不全面,需要不断更新表达式以适应新的表达,于是衍生出RPBF因子。
  3.同义映射词组因子RPBF:将分词用同义词进行映射降维,相邻两词组成一个词组,统计高频词组,形成词组频矩阵,用XGB进行回归预测,全样本RankIC3.5%,ICIR1.5,年化收益率19%。缺点是只包括了文本的离散特征而遗漏了文本的时序特征,于是衍生出RPNN因子。
  4.循环神经网络因子RPNN:将分词序列用词向量进行映射,形成词向量序列,用单层GRU进行训练预测,全样本RankIC3.0%,ICIR1.2,年化收益率16%。缺点是比较消耗算力,只能对标题进行训练,且模型比较黑箱。
  5.合成因子RPST:由前面四个因子等权合成,全样本RankIC3.8%,ICIR1.4,年化收益率20%,中性化之后全样本RankIC3.9%,ICIR2.4,年化收益率19%,各项回测指标都超过WFR,符合预期。
  本文分开使用标题文本和摘要文本提取体征,因为经过测试发现摘要文本中蕴含着大量增量信息,在RPTF模型中摘要信息的加入能够提升一倍的多头年化收益率,从5%提升到11%。
  前四个因子使用相同的文本数据和训练标签,但是彼此之间的因子相关性在0.57-0.67,相关性并不算高,说明对于文本的不同特征抓取方式其实包含了不同的信息。将训练标签——盈利调整,按照同样的方式构建成因子,可以发现四因子和盈利调整均值的相关性在0.42-0.55,说明模型从文本中学习到了额外的信息。
  RPST在各个样本空间进行行业市值中性化之后,选股能力RankIC在中证1000中提升到了4.5%,而在沪深300中下降到了2.4%,这种现象在WFR因子中也同样存在,而在全样本中,中性化之后ICIR和Sharpe都有明显提升,MaxDD在各样本空间都显著下降,说明选股能力和盈利能力在剔除了行业市值的影响之后都变得更加稳定。
  风险提示量化模型失效风险;市场极端环境冲击
 报告详细内容请查阅原报告附件
侠盾智库研报网为您提供《东方证券-《因子选股系列研究之八十六》:研报文本情感倾向因子-221206.pdf》及东方证券相关金融工程研究报告,作者王星星研报及上市公司个股研报和股票分析报告。
本网站用于投资学习与研究用途,如果您的文章和报告不愿意在我们平台展示,请联系我们,谢谢!