• 海外的模型厂商有足够多的顶级 GPU,可以靠堆算力的方式来直接处理信息。国内算力受限,必须在模型的底层设计上想办法,以弥补硬件差距。 「中国的厂商,在资源有限的情况下,不得不去做这些架构优化」
• Transformer 模型在处理长文本时,有一个叫 Attention(注意力机制)的核心模块。它的作用是让模型在生成每一个字的时候「回头看」前面所有内容。文本越长,回头看的计算量越大,增长速度是平方级的。百灵把大部分 Attention 层替换成了计算量更低的线性版本,但剩下没替换的那一小部分,仍然在超长上下文处理时吃掉了总算力的六成以上。 「成本,60% 都花在这了」
• 很多的模型评测都是单项考试,并不能很好的指导模型发展,比如:搜索能力单独考,写代码能力单独考。但真实工作从来都是混着来的。程序员写代码写到一半卡住了,去搜一下,找到思路回来接着写,但很可惜,对于这种情况, 「目前没有任何一个 benchmark,能同时测好两件事」
• 模型在变小,能力在变强。目前实际的预训练实验观察就是,不到一年时间,一个不到200B总参数的模型,效果就可以超过万亿参数的模型。但对于正在做 Agent、做应用的团队来说,等不了这一年。 「一年之后 200B 模型,能打赢今天的 1T。但一年时间,很多公司已经活不了了」
以上内容,来自我和零幺的对话,他在蚂蚁负责语言基座模型的训练
本篇归属「赛博史记 · 炼丹者列传」,以对话来记录每个知名大模型背后的人,以及他们每天需要面对的问题: 中国模型,算力有限的情况下,要如何开展工作、产品和模型之间的能力应该怎么对齐,哪些技术赌注现在就要下
在这个混乱的时代里,让我们看看,这些人的有着怎样的洞察,以及正在作出怎样的判断
零幺,蚂蚁的语言基座模型的负责人
他是蚂蚁集团基础智能部技术总监,负责百灵的基座训练。但他以前从来没做过 NLP,读书到工作都在做图机器学习,2024 年初才转行,开始搞语言模型
一个从没碰过 NLP 的人,两年不到做到了国内头部模型的负责人
我以为他会说些什么关于天赋或者机缘的话,结果他说:
大家想干都可以转,这个行业,是向所有人开放的
2026 年 2 月,百灵发布了 2.5 系列,包括一个万亿参数的即时模型 Ling-2.5-1T 和一个万亿参数的思考模型 Ring-2.5-1T。全部开源,1T 总参 63B 激活,原生 256K 上下文窗口,外推支持 1M
在国内开源界,近两年中,百灵也是除 Kimi 以外唯一发布过万亿参数规模模型的厂商
我们聊了将近两小时,然后我发现:零幺说话的方式不太一样,他很少讲愿景,几乎不用形容词,大部分时间在报数字和做判断。聊到架构选择、评测盲区、产品协作这些话题时,他给出的都是具体方案
以下内容,基于我们的对谈
两条路线
国内和海外的模型厂商,在处理 Attention(注意力机制)这件事上,走了两条完全不同的路。海外靠算力硬撑,用标准的 Full Attention 让模型每次完整看一遍所有内容;国内算力受限,必须在架构创新,要用线性化、稀疏化等方式降低 Attention 的计算量
先解释一下 Attention 在做什么。大语言模型在生成每一个字的时候,需要「回头看」前面所有已经输入和生成的内容,决定哪些跟当前要生成的字最相关。这个过程就是 Attention 在做的事。文章越长,回头看的范围越大,计算量增长是平方级的:长度翻倍,计算量大约翻四倍
海外厂商用的 Full Attention 效果好,稳定,就是费算力。但 Google、OpenAI、Anthropic 有足够的顶级 GPU,撑得住
国内的情况不一样。2022 年美国芯片出口管制升级后,国内能拿到的最好 GPU 是 H800,计算能力跟英伟达旗舰 H100 一样,但芯片之间的通信带宽从 900GB/s 砍到了 400GB/s,多张 GPU 协同工作时效率直接打了折。同样的训练任务,必须用更聪明的方式完成
在这个约束下,国内厂商做了两件海外几乎不做的事
第一件:MoE 的极致稀疏化。 MoE(混合专家模型)的原理是:模型虽然有一万亿个参数,但每次只让其中一小部分参数「上场」干活。总参数大,知识储备多,但实际消耗的算力很小
国内把这个思路推到了极致。DeepSeek 和百灵做到 256 个专家激活 8 个,Kimi K2 做到 384 个专家激活 8 个,千问 3.5 最激进,512 个专家激活 10 个。但是海外的话,大多不会采用极度稀疏和细粒度的混合专家方案,稀疏度差了一个数量级
第二件:给 Attention 动手术。 Full Attention 在长文本下成本太高,国内厂商想办法降低这个成本,目前形成了三条路线:
线性化。 把 Attention 的计算量从平方级降到线性级。MiniMax 走得最早也最激进,MiniMax-Text-01 每 8 层中 7 层用 Lightning Attention(线性注意力),只留 1 层标准 Attention,训练窗口 100 万 token,推理外推到 400 万。百灵 2.5 也是 1:7 的混合比例。千问同样在 Linear Attention 方向持续投入
稀疏化。 保留标准 Attention,但让模型学会「跳着看」,只关注最重要的内容。DeepSeek V3.2 和 GLM-5 走的是这条路,两者都采用了 DSA 架构
做减法。 Kimi K2 旗舰模型没有换 Attention 机制,而是把注意力头从 128 个砍到 64 个。团队发现翻倍的注意力头在 128K 上下文时多消耗 83% 算力,性价比太低,直接砍半
不过 Kimi 后来也单独出了一个探索性质的 Kimi Linear 小模型(48B),用 3:1 混合注意力,说明线性化方向他们也在看
总结下,大概是这样 - MiniMax、百灵、千问 all-in 线性化; - DeepSeek、GLM 走稀疏化; - Kimi 靠 MoE 高稀疏加 MLA 压缩来省算力,Attention 机制本身暂时不大改 MoE 方面基本是共识,大家都在往极致稀疏推
这些路线看起来各有各的选择,但零幺认为背后只有一个驱动力:
「如果你给我 100 万张 H100,我也会做海外那个选择」
Full Attention 效果稳定,架构非常成熟,就是费算力,算力够用的话没人愿意折腾架构。线性化、稀疏化、砍注意力头,本质是同一个约束条件逼出来的
DeepSeek 训 V3 用了 2048 张 H800,278 万 GPU 小时。Meta 训 Llama 3 405B 花了 3080 万 GPU 小时,11 倍于 DeepSeek
「中国的厂商,在资源有限的情况下,你不得不去做这件事情」
而这些为了省算力做的架构改造,恰好撞上了 Agent 时代最核心的需求
60% 的计算成本
百灵 2.5 的 80 层网络里,已经把 72 层换成了线性注意力,只留了 8 层标准注意力(MLA)。对此,零幺补充到:上下文到 256K 以上时,那仅有的 8 层 MLA,占了总计算成本的 60% 以上
为什么 8 层就能吃掉 60%?因为 Agent 场景下上下文会变得非常长。人问一句、模型回一段,上下文可能就几千字。但 Agent 执行任务的时候,中间不断地搜索、读文档、写代码、看结果、再搜索,每一轮的输入输出都在堆积。一个 coding agent 连续工作几个小时,上下文轻松突破 32K,到 128K、256K
上下文越长,标准 Attention 的计算量膨胀越快(平方级增长),而线性注意力只是线性增长。所以到了长上下文场景,那 8 层标准注意力虽然数量少,成本却远远超过了 72 层线性注意力
在这一方面,百灵 2.5 用的是 1:7 混合比例(每 8 层里 1 层 MLA + 7 层 Lightning Linear Attention)。零幺说他们专门跑了一轮 Scaling Law 实验,在不同混合比例下对比效果和效率的曲线,最后收敛到 1:7。百灵下一轮架构升级要解决的,还是这 60%
「国内大部分模型,要么在稀疏化上走得远,要么在线性化上走得远。否则会被效率打掉」
在效率和效果的优先级上,零幺给了一个跟行业主流不同的判断:「大家更直观的感受上,最大的挑战在效果侧。但在我的认知里面,效果和效率是同等重要的」
行业里大部分声音,会说模型能力还不够强,要继续提升效果,但可能也需要算一笔账:当资源有限、但 Agent 需求过剩的时候,效率就会变成生死问题
效果不够强,还能用;但总是响应超时,那就没有后续了
在这里,零幺有个核心判断:架构本身不决定效果,但架构决定效率,而迭代效率最终决定模型效果。用更老的架构,你有足够算力同样能做出好模型——问题是国内没有那个算力
Benchmark 高分,手感差
模型评测分数很高,真上手用却觉得哪里不对劲
我把这个问题丢给了零幺,他则给了我一个很具体的原因:现在所有 benchmark 都是单项考试,搜索能力单独考,写代码能力单独考。但真实工作从来并非如此,几个工具要同时用、来回切换,而目前没有任何评测在测这个
大多数程序员日常工作时同时在用好几个工具,写代码卡住了去搜一下,找到思路回来接着写,写完跑测试,报错了再查文档。几个工具来回切换。但 Terminal Bench 测命令行操作,里面没有搜索;Agent Search benchmark 测搜索能力,里面没有 coding 环境。每个维度单独测分都不低
「你让模型单独搜索它会,单独写代码它也会。但你让它边搜边写,就崩了」
我自己评估模型的时候,也会看 coding 分数、math 分数、instruction following 分数。但如果一个模型搜索强、编码也强,就是没法同时调两个工具配合干活,那这些单项分数就要打折
零幺给这个方向起了个名字,叫 production research:去观察真正在生产环境里工作的人是怎么干活的,基于这些真实模式去设计评测和训练数据
我问:你觉得有哪些 Benchmark 是被低估了吗?
回答:GAIA2,相比一些其他榜单,GAIA2 可能更接近真实 Agent 场景,允许 Agent 异步执行多个有依赖关系的任务。做这个 benchmark 的团队据说已经解散了,代码有 bug 没人维护。觉得这个方向对,就让百灵团队自己把 bug 修了,拿来做内部评估
我当时叹了声牛逼...判断方向是对的,就动手补上缺的东西
聊到 Claude Code 为什么在多工具协同上表现好,零幺帮我分析了 Anthropic 的做法,认为一个重要原因是他们确实在做 production research,收集了大量真实工程师的工作模式来指导训练
「这个事,靠的说投入和耐心,不单单是聪明」,以及...被严重低估的,是「多工具协同」这整个能力维度
松耦合
蚂蚁内部,产品团队和基模团队的关系是:松耦合
产品团队提前半年给出未来想要什么能力,基模团队从中选择能做且应该做的,两边在一个「池子」里找交集,各自保留各自的判断
我问:如果两年后蚂蚁的模型大获成功,它能占据的心智可能是什么?
回答到:专业服务业
这也是蚂蚁的固有心智:从支付延伸到金融、医疗、生活服务,都是专业服务业,行业门槛高,专业从业者稀缺
普通人享受不到好的金融服务,社区医生水平有限所以大家都去三甲,搜索引擎查个症状小毛病看着像绝症。AI 如果能降低这些服务的门槛,就是蚂蚁做基模的支点
具体是这样运作的:灵光(蚂蚁的 C 端 AI 产品)团队提前半年做一个 demo 视频,里面可能有十几个设想中的功能。百灵团队看完之后,判断哪些能做、哪些三个月能出、哪些一年后还做不出来,从中 pick 一些去推进
一个例子:2025 年 2~3 月时,国内所有模型都生成不了好看的 HTML 页面,只有 Claude 能做到。灵光团队则评估这个很重要,就放进需求池。百灵在 2.0 版本训练中就开始强化 HTML 生成。等灵光产品上线时,能力已经准备好了
零幺说:Google 内部也是类似模式,3~6 个月为周期收集产品需求
一年和一年
模型在变小,能力在变强,一年后,一个 200B 的模型,就能打赢今天的 1T
这里可能不是判断了,我们实际在训练中的模型就能看到这个趋势了。类似摩尔定律,对基模目前可能是不到一年,同等能力对应的规模就可能可以压缩一个数量级
但做 Agent、做应用的团队等不了这一年
同一个「一年」,对模型厂商是技术迭代的周期,对应用公司是生死存亡的倒计时
千问 3.5 已经在验证这个趋势,397B 总参 17B 激活,在不少维度上打赢了上一代万亿参数模型。GLM-5 用 744B 总参 40B 激活拿到了 a16z 所说的「最好的开源模型」
在模型训练中,零幺跟我讲了一个他认为被严重低估的问题:过程奖励
现在主流做法是 Agent 跑完整个任务后,看最终结果给一个奖励信号。但如果 Agent 连续跑几个小时,中间几十上百步操作,最后才给一个「对」或「错」,信号太稀疏,模型很难从中学到东西
百灵 2.5 在数学证明题上的进步,零幺认为很大程度来自逐步验证:每一步推导都检查对错,整个过程就是结果。这跟 Agent 场景的需求结构一样:长程执行,中间每一步都需要反馈
同时,他也很坦率地告诉我说,Agent 的过程奖励怎么做,目前没有成熟方案。「如果能在这个位置找到更好的想法,整个 Agent 训练的效率会提一截」。
我发现,在聊到没解决的问题时,零幺反而说得更细
关于思考模型和即时模型,零幺表示:各家现在优先卷思考模型,因为更能体现 AGI 上限,benchmark 卷得更猛。代价是即时模型被普遍忽视
「你会发现各家现在对应的非思考模型,能力就偏弱了」
长远看一定会合到一起。但现阶段分开做是也是合理的:两种模型的上限还没探清楚,合在一起反而会互相拖累
聊到最后,我们还说了件小事:这次百灵 2.5 的官方发布稿,是零幺用百灵 1T 模型写的
「以前用 xxx 模型写文档,会蹦出来一堆很科幻的词语,每次都要大改。这次用百灵写,很多直接就可以用了」
我问:觉得百灵 2.5 写出来的东西,具体好在哪
他想了想说:像一篇正常的文章,而不像一篇玄幻小说了
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.