背景乾象投资 Metabit Trading 成立于2018年,是一家以人工智能为核心的科技型量化投资公司 。核心成员毕业于 Stanford、CMU、清北等高校 。目前,管理规模已突破 30 亿元人民币 。
Metabit 非常重视基础平台的建设,有一支强大的 Research Infrastructure 团队 。团队试图打破在单机上进行研发的壁垒,利用云计算进行更高效、安全的工具链研发 。
01 量化的研究都在做什么作为一家成立时间不久的量化投资机构,我们在对基础存储平台进行选型时,会受到这样两方面的因素的影响:公司成立的时间比较短,没有太多技术上的历史负担,在做技术选择时 , 更偏向于使用更现代的技术栈;同时,量化投资中使用到的机器学习场景中的特性也会影响到技术的选择 。

文章插图
上图是我们研究场景中和机器学习关联最紧密的策略研究模式的简化示意图 。首先,在模型训练之前需要对原始数据做特征提取 。金融数据的信噪比特别低,如果直接使用原始的数据进行训练,得到的模型噪音会非常大 。原始数据除了行情数据,即大家经常会看到的市场上的股价、交易量之类的数据,也包括一些非量价的数据,比如研报、财报、新闻、社交媒体等之类的非结构化数据,研究人员会通过一系列的变换提取出特征,再进行 AI 模型训练 。
模型训练会产出模型以及信号,信号是对未来价格趋势的判断;信号的强度意味着策略导向性的强度 。量化研究员会根据这些信息去优化投资组合,从而形成交易的实时仓位 。这个过程中会考虑横向维度(股票)的信息来进行风险控制,例如某一行业的股票不要过度持仓 。当仓位策略形成之后,量化研究员会去模拟下单,而后得到实时仓位对应的盈亏信息,从而了解到这个策略的收益表现,以上就是一个量化研究的完整流程 。
量化研究业务特点研究需求产生大量突发任务:高弹性
在策略研究的过程中,量化研究员会产生策略想法,他们会通过实验去验证自己的想法 。伴随着研究人员新想法的出现,计算平台就会产生大量的突发任务,因此我们对计算的弹性伸缩能力的要求很高 。
研究任务多样化:灵活性
从上面的例子可以看到 , 整个流程涵盖了非常多不同的计算任务 , 例如:
- 特征提取 , 时序数据上的计算;
- 模型训练 , 经典的机器学习的模型训练场景;
- 投资组合优化 , 会涉及到最优化问题的任务;
- 策略回测,读入行情的数据,再对策略的表现去做模拟撮合,得到仓位对应的表现 。
研究内容需要保护:模块化,隔离
研究员的投研内容是公司的重要 IP(知识产权) 。为了保护这些知识产权 , 公司的研究平台会将每个策略研究环节抽象成包含标准输入输出和评价方式的模块 。例如对模型的研究,输入标准的特征值,输出预测的信号和模型 。通过对模块之间进行隔离,研究平台可以有效保护 IP 的安全性 。在进行存储平台建设时,需要针对模块化这个需求做相应的设计 。
量化研究数据特点大量任务的输入来自于相同的数据,比如上文提到的回测 , 量化研究员需要对历史策略去做大量的回测,同样的仓位使用不同的参数去测试,观察它们表现;或者特征提?。?经常有一些基础特征和新特征的组合,其中大量的数据是来自于相同的数据源 。
以 A 股的股票为例:A 股市场十年的分钟 K 线历史行情,5000/2 股票 240 分钟 250 天 10 年 8 字节*20 列=240GB,整体 10 年的数据量大约是 240G 。
如果使用更细力度的数据,数据量就会更大,一般来说原始数据不会超过 100TB 的范围 。在大数据时代这算不上是特别大的数据量,但是当大量的计算任务去同时去访问这些数据,这种场景就对数据存储的有一些要求 。
另外,量化投研过程中伴随着大量的突发任务,研究团队希望能将这些任务的结果存储起来,因此会产生大量 archive 数据,但这些数据的访问频率很低 。
量化研究计算任务特点基于以上特点 , 如果以传统的机房方式,是很难去满足我们的计算需求,因此把计算搬到云计算平台对我们来讲是一个相对合适的技术选择 。
推荐阅读
- 17 基于SqlSugar的开发框架循序渐进介绍-- 基于CSRedis实现缓存的处理
- 19 基于.NetCore开发博客项目 StarBlog - Markdown渲染方案探索
- Arctic 基于 Hive 的流批一体实践
- 三 AIR32F103 Linux环境基于标准外设库的项目模板
- 用昇腾AI护航“井下安全”
- 盘它!基于CANN的辅助驾驶AI实战案例,轻松搞定车辆检测和车距计算!
- 基于PL022 SPI 控制器 海思3516系列芯片SPI速率慢问题深入分析与优化
- 基于vite3+tauri模拟QQ登录切换窗体|Tauri自定义拖拽|最小/大/关闭
- 基于tauri+vue3.x多开窗口|Tauri创建多窗体实践
- 提高工作效率的神器:基于前端表格实现Chrome Excel扩展插件