来源:中金点睛
近期DeepSeek的热度上升让全球科技行业再次对AI行业的快速发展燃起信心。DeepSeek的开源发展策略更是引发了“模型平权”,让原本在大模型技术端缺少竞争优势的企业也有机会通过三方服务、算力租赁、应用落地等方式参与到本轮浪潮中来。但需要指出的是:我们认为大模型的发展并未停滞,相反迭代速度和能力提升还将越来越快,对于AI Lab类企业的判断需要建立在对其增长加速度的判断。在本文中,我们尝试搭建一个AI Lab类企业发展的动力学模型,尝试用一个思维框架指出其中的关键因子,帮助投资者更好的判断各家企业在中长期的增长动能。另外需要指出的是,我们的框架也可以推而广之,适用于一般的创新性企业。
我们认为大模型研发类公司遵循A = V x D的动力学关系,其中A(Acceleration)指代的是模型能力进化的加速度;V(Velocity)指代的是模型训练的速度,其又可以分解为计算资源、基础设施能力(Infra)和组织能力等多个维度;D(Direction)指代的是战略投入的方向,主要由核心人才、机构禀赋等决定。下面我们来分开解释每个关键因子:
V:模型训练的速度。众所周知,大模型的训练需要一定的时间,如Lamma 3.1 405B的训练时长为54天,DeepSeek V3的整体训练过程耗时接近2个月。如果能够降低单次训练模型的耗时,则在同样的时间内AI Lab可以尝试更多的方向。显然,可以通过投入更多的计算资源来提升模型训练的速度,这解释了为何领先厂商如OpenAI、Anthropic等都投入大量资本开支采购训练算力(图表1)。除此之外,考虑到大模型存在Scaling Law(缩放定律),我们可以在1.5B~14B的尺寸上尝试创新架构来验证想法。验证成功后,可以再依法训练更大的模型。这即是“Predicatable Scaling”(可预测的缩放)。正是这一思路帮助Anthropic提升了资源的利用效率,加速了模型的创新。类似的,国内优秀厂商如面壁智能内部也有“模型风洞”这类Infra产品支持,通过小参数量的模型的“风洞试验”找到高效学习的方案,提升模型收敛速度,和全球领先厂商思路一致(图表2)。实际上,我们预计大多数领先的AI Lab公司都在Infra层面有较多沉淀;最后,模型训练的速度自然也和组织力有关,一个高效、简单、自驱的组织自然可以更快的进行模型的训练和迭代。相反一个缺少决断、内部协作低效、部门墙高企、赏罚不明、人员动荡的组织则难以让研究人员专注研发。
D:模型战略投入的方向。模型训练的速度固然重要,但走向正确的方向更加重要。在大模型领域非常知名的案例可能就是OpenAI押注Decoder-only的GPT而Google主要集中在BERT架构的分歧了。在AI Lab公司,最重要的决策是计算资源的分配。虽然资源充裕、人才众多的公司可以多线尝试、不断试错(我们认为OpenAI即是如此),但计算资源始终是个约束,高效的分配不仅是一个科学问题,往往也是一个艺术问题。我们提出,AI Lab能否正确的分配资源(包括计算资源、研发时间等)取决于:
1)核心人才的技术敏锐度和技术嗅觉。除了前文Google和OpenAI在BERT和GPT架构上的知名案例之外,Minimax率先押注线性化方向,我们推测一方面和公司业务场景需求有所关联(降低成本,打开更大上下文窗口),一方面和Lightning Attention的作者秦臻、钟怡然为代表的团队和Minimax创始人闫俊杰先生在商汤的共同工作经历相关。例如,在论文《Cosformer: Rethinking Softmax in Attention》中,闫俊杰和秦臻、钟怡然即有合作,彼时他们的所属单位均为商汤科技[1];
2)团队的禀赋,包括但不限于技术领军人物过往的研究经历、产品团队(如有)提出的产品功能需求带来的牵引等。举例来说,Deepseek在V3模型的训练中使用CUDA生态中的PTX指令集来进一步优化了通信速度,减少了对L2缓存的需求。我们推测这和团队在量化策略开发中的积累和禀赋是相关的。再举例来说,Deepseek的MLA架构降低了KV缓存、提升了推理效率,前提是在大规模云端部署、大规模用户量的场景。若用户数量、服务器数量小等条件下,MLA架构反而会有负面影响。因此我们可以说,MLA是由大集群、大用户这一需求牵引出的技术创新。
至此,我们已经拆解了决定AI Lab研发加速度的核心变量。诚然,研发永远存在失败的可能,但我们认为更高的研发加速度意味着更多的创新,而AI Lab间的差异正是在日积月累的微创新的积累下完成从量变到质变,进而逐渐拉开差距。领先者因此得以享受商业上的溢价、获得更多资源和人才的分配,进而不断加速,完成身位超越。
图表1:2023年以来海外头部云服务商Capex支出大幅增长
资料来源:腾讯网,中金公司研究部
图表2:通过一定方式,可以结合更小参数的表现精准预测参数放大后的收益
资料来源:Shengding Hu, Xin Liu, Xu Han, et al. Predicting Emergent Abilities with Infinite Resolution Evaluation[J/OL]. arXiv:2310.03262v3 [cs.CL], 2024 Available at: https://arxiv.org/abs/2310.03262v3,中金公司研究部
风险
技术发展的节奏和方向存在较大不确定性;地缘政治风险;关键人才变动风险;商业化前景不明确。
[1]Minimax是少数旗帜鲜明的押注线性化方向的头部厂商,其最新版本的模型基于Lighting Attention,作者为秦臻等人。我们认为在曾经的共同工作经历帮助Minimax在这一方向获得了更好的技术嗅觉和禀赋。
Source
本文摘自:2025年2月16日已经发布的《AI智道(4):AI Lab的增长密码:一个动力学模型》
于钟海 分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.