数据科技｜大模型应用：迈入投研数智化时代，重估Prompt与数据资产价值

2023-08-31 08:05:25 - 市场资讯

头部厂商与开源社区共同致力于可及性提升，垂类模型加速开源，将全面助力海量金融文本的基本面逻辑挖掘与投研信息蒸馏。基于开源模型的赋能与专业的Prompt，我们构建了LLM+Datalet投研数据产品：面向主观投资，对于A股市场公司相关的全量文本信息，形成多维度数据指标的高频追踪，更精准地感知市场与基本面变化；面向量化投资，我们重构了研报等文本情绪因子，同时发挥模型智能标注的优势，尝试构建行业基本面逻辑挖掘的通用范式，优化基本面量化落地形态。

▍大模型应用效果持续迭代，金融投研应用门槛不断降低。

海量数据预训练为千亿参数模型带来涌现能力，使其具备语言理解与知识蒸馏双重属性。国内头部厂商与开源社区均致力于模型可及性提升，据我们统计国内大模型发布已超过79个。低价的API和应用效果超预期的小模型不断降低金融垂直场景应用大模型的门槛。算力层面，单块A100显卡级别算力已经能够支持百亿参数模型的运行，本地小型算力集群赋能业务成为可能。

▍提升“高精度”投研宽度：聚焦专业文本数据资产，蒸馏基本面信息。

研报信息蒸馏：借助开源模型，通过标准Prompt与低代码开发，以T+0时间频率面向全A个股实现研报情绪变化与分歧度跟踪、卖方新增覆盖跟踪、主题推荐观点提炼与比较。

定向公告蒸馏：通过对公告的预标签，对通用行业和垂直行业，实现对资本开支、高管变动、产业资本增减持的结构化梳理与数据追踪。

私域数据结构化：大模型简化NLP流程，Prompt优化数据解析形式可实现数据流高质量结构化，面向私域数据流，实现投研观点汇总、投研活动汇总与定向议题的统计。

▍夯实量化因子基本面逻辑体系：提升量化研究的行业逻辑深度。

因子逻辑重构：大模型具备更强大的文本分析能力，面向文本类量化因子，在平衡数据量与运行速度后，可以对相关因子实现优化重构。

因子数据来源扩容：基于开源模型，对于公开产业政策文本，通过设计从投资视角解析政策的Prompt，可自动化标注中信证券一、二级行业与所有政策的个股影响标签，实现大量非结构化另类数据的因子化。

基本面量化赋能：基于GPT3.5的API接口，面向中信证券109个二级行业，基于宏观、中观+微观三层结构化Prompt，自动完成景气度研究的逻辑框架与量化因子的构建工作。基于GPT3.5设计解析指标因子的Prompt，实现因子权重的自动化生成。

▍融合LLM+Datalet，扩容主观投资信息宽度，挖掘量化投资逻辑深度。

模型智能将催生丰富的金融投研场景赋能与创新，借助技术红利可以向主观投资提供更专业的数据支持，并推动量化因子挖掘与基本面量化创新。基于开源模型的算力赋能与专业的Prompt交互，我们构建了LLM+Datalet投研数据产品。面向主观投资，对于市场全量的公司相关文本信息，可形成多维度数据指标的高频追踪，更精准地感知市场与基本面变化。面向量化投资，我们重构了研报等文本情绪因子，同时发挥模型智能标注的优势，尝试构建行业基本面逻辑挖掘通用范式，优化基本面量化落地形态。

▍风险因素：

国际技术封锁加剧；国内大模型技术与生态发展不及预期；科技领域政策监管大幅收紧。

数据科技｜大模型应用：迈入投研数智化时代，重估Prompt与数据资产价值