中金｜AI智道（4）：AI Lab的增长密码：一个动力学模型|秦臻|lab|大模型|ai智道

中金｜AI智道（4）：AI Lab的增长密码：一个动力学模型

2025-02-18 08:45:04　来源: 新浪财经

北京举报

分享至

来源：中金点睛

近期DeepSeek的热度上升让全球科技行业再次对AI行业的快速发展燃起信心。DeepSeek的开源发展策略更是引发了“模型平权”，让原本在大模型技术端缺少竞争优势的企业也有机会通过三方服务、算力租赁、应用落地等方式参与到本轮浪潮中来。但需要指出的是：我们认为大模型的发展并未停滞，相反迭代速度和能力提升还将越来越快，对于AI Lab类企业的判断需要建立在对其增长加速度的判断。在本文中，我们尝试搭建一个AI Lab类企业发展的动力学模型，尝试用一个思维框架指出其中的关键因子，帮助投资者更好的判断各家企业在中长期的增长动能。另外需要指出的是，我们的框架也可以推而广之，适用于一般的创新性企业。

我们认为大模型研发类公司遵循A = V x D的动力学关系，其中A（Acceleration）指代的是模型能力进化的加速度；V（Velocity）指代的是模型训练的速度，其又可以分解为计算资源、基础设施能力（Infra）和组织能力等多个维度；D（Direction）指代的是战略投入的方向，主要由核心人才、机构禀赋等决定。下面我们来分开解释每个关键因子：

V：模型训练的速度。众所周知，大模型的训练需要一定的时间，如Lamma 3.1 405B的训练时长为54天，DeepSeek V3的整体训练过程耗时接近2个月。如果能够降低单次训练模型的耗时，则在同样的时间内AI Lab可以尝试更多的方向。显然，可以通过投入更多的计算资源来提升模型训练的速度，这解释了为何领先厂商如OpenAI、Anthropic等都投入大量资本开支采购训练算力（图表1）。除此之外，考虑到大模型存在Scaling Law（缩放定律），我们可以在1.5B~14B的尺寸上尝试创新架构来验证想法。验证成功后，可以再依法训练更大的模型。这即是“Predicatable Scaling”（可预测的缩放）。正是这一思路帮助Anthropic提升了资源的利用效率，加速了模型的创新。类似的，国内优秀厂商如面壁智能内部也有“模型风洞”这类Infra产品支持，通过小参数量的模型的“风洞试验”找到高效学习的方案，提升模型收敛速度，和全球领先厂商思路一致（图表2）。实际上，我们预计大多数领先的AI Lab公司都在Infra层面有较多沉淀；最后，模型训练的速度自然也和组织力有关，一个高效、简单、自驱的组织自然可以更快的进行模型的训练和迭代。相反一个缺少决断、内部协作低效、部门墙高企、赏罚不明、人员动荡的组织则难以让研究人员专注研发。

D：模型战略投入的方向。模型训练的速度固然重要，但走向正确的方向更加重要。在大模型领域非常知名的案例可能就是OpenAI押注Decoder-only的GPT而Google主要集中在BERT架构的分歧了。在AI Lab公司，最重要的决策是计算资源的分配。虽然资源充裕、人才众多的公司可以多线尝试、不断试错（我们认为OpenAI即是如此），但计算资源始终是个约束，高效的分配不仅是一个科学问题，往往也是一个艺术问题。我们提出，AI Lab能否正确的分配资源（包括计算资源、研发时间等）取决于：

1）核心人才的技术敏锐度和技术嗅觉。除了前文Google和OpenAI在BERT和GPT架构上的知名案例之外，Minimax率先押注线性化方向，我们推测一方面和公司业务场景需求有所关联（降低成本，打开更大上下文窗口），一方面和Lightning Attention的作者秦臻、钟怡然为代表的团队和Minimax创始人闫俊杰先生在商汤的共同工作经历相关。例如，在论文《Cosformer: Rethinking Softmax in Attention》中，闫俊杰和秦臻、钟怡然即有合作，彼时他们的所属单位均为商汤科技[1]；

2）团队的禀赋，包括但不限于技术领军人物过往的研究经历、产品团队（如有）提出的产品功能需求带来的牵引等。举例来说，Deepseek在V3模型的训练中使用CUDA生态中的PTX指令集来进一步优化了通信速度，减少了对L2缓存的需求。我们推测这和团队在量化策略开发中的积累和禀赋是相关的。再举例来说，Deepseek的MLA架构降低了KV缓存、提升了推理效率，前提是在大规模云端部署、大规模用户量的场景。若用户数量、服务器数量小等条件下，MLA架构反而会有负面影响。因此我们可以说，MLA是由大集群、大用户这一需求牵引出的技术创新。

至此，我们已经拆解了决定AI Lab研发加速度的核心变量。诚然，研发永远存在失败的可能，但我们认为更高的研发加速度意味着更多的创新，而AI Lab间的差异正是在日积月累的微创新的积累下完成从量变到质变，进而逐渐拉开差距。领先者因此得以享受商业上的溢价、获得更多资源和人才的分配，进而不断加速，完成身位超越。

图表1：2023年以来海外头部云服务商Capex支出大幅增长

资料来源：腾讯网，中金公司研究部

图表2：通过一定方式，可以结合更小参数的表现精准预测参数放大后的收益

资料来源：Shengding Hu, Xin Liu, Xu Han, et al. Predicting Emergent Abilities with Infinite Resolution Evaluation[J/OL]. arXiv:2310.03262v3 [cs.CL], 2024 Available at: https://arxiv.org/abs/2310.03262v3，中金公司研究部

风险

技术发展的节奏和方向存在较大不确定性；地缘政治风险；关键人才变动风险；商业化前景不明确。

[1]Minimax是少数旗帜鲜明的押注线性化方向的头部厂商，其最新版本的模型基于Lighting Attention，作者为秦臻等人。我们认为在曾经的共同工作经历帮助Minimax在这一方向获得了更好的技术嗅觉和禀赋。

Source

本文摘自：2025年2月16日已经发布的《AI智道（4）：AI Lab的增长密码：一个动力学模型》

于钟海分析员 SAC 执证编号：S0080518070011 SFC CE Ref：BOP246

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.