机器学习系列-数据治理专题(四):基于蒸馏大模型的金融文本信息挖掘应用探索

本报告聚焦语义大模型对金融文本的标签提取和信息挖掘,基于自主微调后的版本,对常规金融文本进行挖掘分析,实现市场关注度、投资情绪以及市场分歧等分析指标落地。从投资效果看,基于开源的GLM 微调后去构建情绪指标,并构建月频Top50 选股策略,相对于沪深300 指数的年化超额收益率达到24.2%(2018-01 至2023-03)。随着大模型开源生态,面向泛金融文本的大模型搭建、微调与应用投资创新值得持续关注。对于大模型落地,我们可提供数据与算法的专业技术赋能,对于投资应用,文本蒸馏大有可为。


(资料图片仅供参考)

大模型助力NLP 迈向NLU,金融文本大数据挖掘及其衍生策略值得持续关注。

随着AIGC 的高速发展,预训练大模型的参数量持续增加已经达到万亿级别,同时在大量NLP 任务中均取得领先效果。借助大模型更强的文本理解和文本处理能力,本文以财经新闻、分析师研报和公司公告为例,开展文本挖掘探索。

金融文本提供市场消息面信息,开展文本挖掘分析有助于掌握投资先机。随着信息化发展,很多影响市场的信息最先以文本方式进行传播,大量文本包含对上市公司经营状况的正面或负面描述。例如分析师研报一方面可以抽取形成分析师因子,另一方面对于公司的观点和描述同样具有隐含的增量信息和挖掘价值。我们基于蒸馏大模型标注的情绪指标构建月频Top50 选股策略,相对于沪深300 年化超额收益达到24.2%(回测区间为2018-01-01 至2023-03-31)。

面向金融文本信息挖掘的大模型微调流程:1)考虑数据安全和可及性,选择百度文心ERNIE 3.0 Tiny 预训练模型并下载;2)使用雪球和Wind 有情感标注的金融舆情文本微调模型;3)将微调后的模型在无标注的财经新闻、分析师研报摘要以及公司公告上提取信息并预测情感。

使用微调后的大模型完成文本分析并构建应用指标:

(1)关注度指标:监控市场热点变化。使用微调后的大模型提取新闻中相关上市公司,并构建上市公司关注度指标。结果显示,2022 年以来,行业龙头关注度高,关注度排名前十的个股中九成超百亿市值;从行业来看,2023 年3 月关注度最高的三个行业分别为计算机、通信和建筑。

(2)情绪指标:对收益率有一定的预测能力。2017 年以来,分析师情绪指标在沪深300、中证500 以及全A 中的覆盖率分别为98%、90%和59%,且覆盖率随时间推移逐渐上升。经过我们统计,指标与基本面、收益率相关联,情绪取值越高的股票质地较为优良,未来短期内获得超额收益的概率也越高。

(3)分歧指标:与股票振幅走势较为一致。基于情绪方差构建行业分歧度,回测结果显示,2022-01 至2023-03,行业分歧指标与价格振幅的相关系数为0.62。

基于大模型文本情感指标构建策略:

(1)选股策略:基于分析师研报的情绪指标具有较强超额收益能力。相比于传统分析师因子,大模型能够挖掘文本中情绪信息。2018-01 至2023-03,基于情绪指标的Top50 选股策略相比基于评级的Top50 选股策略年化超额收益达到13.3%,胜率达到64.5%。

(2)关键指数分层:分层效果较明显,在全A 股中表现最好。在沪深300、中证500 和全A 股中,Top 分层组合年化超额收益率分别为3.15%、4.83%和6.14%。

风险因素:大模型技术发展与应用不及预期;科技领域与数据确权监管趋严;文本数据覆盖度可能不足;计算资源降本不及预期。

关键词:

推荐DIY文章
主机存在磨损或划痕风险 PICO4便携包宣布召回
穿越湖海!特斯拉Cybertruck电动皮卡可以当“船”用
vivoXFold+折叠旗舰开售 配备蔡司全焦段旗舰四摄
飞凡R7正式上市 全系标配换电架构
中兴Axon30S开售 拥有黑色蓝色两款配色
荣耀MagicBookV14 2022正式开售 搭载TOF传感器
it