多模态AI炒股

Ai炒股2024-09-27 14:34:35289

随着国内量化投资的发展，量化机构除了从相同的常规数据源中挖掘不同的alpha来源之外，另类数据也是主要来源，随着常规数据源的拥挤，另类数据变得愈发重要。另类数据主要是指非常规的数值型数据，如视频、新闻、文本和产业链等数据。

而图像识别、文本分析和音频分析的快速发展，为多模态的发展构建了基础，多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。例如，对视频进行建模时，同时考虑视频中的文本、音频及图像信息，更准确得获取视频中的情绪及观点分析下一时刻股票股价的涨跌。

关于多模态

12月6日，谷歌CEO宣布Gemini1.0正式上线，Gemini大模型是原生多模态大模型，使用离散图像令牌进行图像生成，并集成通用语音模型中的音频功能以实现细致入微的音频理解。它能够将视频数据作为顺序图像处理，并与文本或音频输入交织在一起，体现了其多模态能力。

虽然在发布之初Gemini号称在多项指标上高于GPT-4，但最近其陷入了造假风波，不过总体来看，大模型对于多种数据源的信息获取及处理已经得到了更新的发展。

多模态学习，简单来讲，就是在深度学习的框架下，将各种不同类型的数据整合在一个模型中进行建模。这是我们在过去的几年里在机器学习和深度学习领域看到的主流方法。与此相对的，就是单模态学习。

在单模态学习中，我们通常在单一模态的数据上进行建模，比如文本。例如，在文本数据上进行情感分析、分类、生成摘要或者翻译等等，这些任务基本上只会用到单一模态的文本数据。我们通过这种方式构建模型，然后将模型应用到相应的任务或应用中。图像处理也是类似的。

多模态学习期望在任务执行上，不仅能比原来的单模态数据训练出的模型效果更好，同时还要具备跨模态的能力，这是其价值所在。具体来说，现在的多模态模型的基本思路就是把不同模态的数据通过模型映射到一个共享的空间中。

投资中的多模态

对于投资信息的获取，有时我们会受到各种文章所谈论的观点或者情绪的影响使得我们改变投资标的，有时因为看了一些财经博主关于经济形式或者股票分析的视频受到一些启发等等，而在观看文章或视频的过程中，我们需要同时对视频中的音频、图像和文字同时进行分析，才能得到视频的完整的情绪和观点。

以视频数据为例，如果投资中我们希望构建一个模型分析视频，得到视频所表达的信息进行投资的话，为了更准确的获取视频表达的情绪和观点，模型就需要具有同时分析文本、图像和音频的能力，也就是前文我们所谈论的多模态模型。

何勇,李琪琪等（2023）通过构建基于因子增广回归与深度神经网络的预测模型,实现从财经类短视频和财经新闻等另类数据学习交易信号。对于视频数据，抖音及快手作为视频数据，选取了这两个榜单交集的财经账号创作内容作为视频数据源。

最终日频调仓结果如下图所示。

作者对于视频的分析是从单模态的角度进行分析，即将视频拆分为图像和音频单独建模，从最终结果来看，视频和图片提供了较少超额，而对于视频的多模态建模，笔者还未发现有研究者对其进行研究。

相信不远的将来，随着AI技术的愈加成熟，金融投资也将随着AI技术的迭代而迭代。

最后，不管技术如何迭代，投资总是需要不断的寻找还未被股价反应的前置信息，从股价的滞后表达中获得超额收益。而如何使用最新的技术应用在投资领域，笔者将持续探索。

参考文献

何勇, 李琪琪 , 焦丽 , 黄文萱. 另类数据在中国股票市场投资中有用吗?——基于财经短视频、图像、文本数据的探究[J]. 计量经济学报, 2023, 3(4): 1008-1031 https://doi.org/10.12012/CJoE2023-0061

ai穿戴股票