芯片受限，意外加速了中国模型|基模|线性化|上下文|计算量|agent

分享至

• 海外的模型厂商有足够多的顶级 GPU，可以靠堆算力的方式来直接处理信息。国内算力受限，必须在模型的底层设计上想办法，以弥补硬件差距。 「中国的厂商，在资源有限的情况下，不得不去做这些架构优化」
• Transformer 模型在处理长文本时，有一个叫 Attention（注意力机制）的核心模块。它的作用是让模型在生成每一个字的时候「回头看」前面所有内容。文本越长，回头看的计算量越大，增长速度是平方级的。百灵把大部分 Attention 层替换成了计算量更低的线性版本，但剩下没替换的那一小部分，仍然在超长上下文处理时吃掉了总算力的六成以上。 「成本，60% 都花在这了」
• 很多的模型评测都是单项考试，并不能很好的指导模型发展，比如：搜索能力单独考，写代码能力单独考。但真实工作从来都是混着来的。程序员写代码写到一半卡住了，去搜一下，找到思路回来接着写，但很可惜，对于这种情况， 「目前没有任何一个 benchmark，能同时测好两件事」
• 模型在变小，能力在变强。目前实际的预训练实验观察就是，不到一年时间，一个不到200B总参数的模型，效果就可以超过万亿参数的模型。但对于正在做 Agent、做应用的团队来说，等不了这一年。 「一年之后 200B 模型，能打赢今天的 1T。但一年时间，很多公司已经活不了了」

以上内容，来自我和零幺的对话，他在蚂蚁负责语言基座模型的训练

本篇归属「赛博史记 · 炼丹者列传」，以对话来记录每个知名大模型背后的人，以及他们每天需要面对的问题：中国模型，算力有限的情况下，要如何开展工作、产品和模型之间的能力应该怎么对齐，哪些技术赌注现在就要下

在这个混乱的时代里，让我们看看，这些人的有着怎样的洞察，以及正在作出怎样的判断

零幺，蚂蚁的语言基座模型的负责人

他是蚂蚁集团基础智能部技术总监，负责百灵的基座训练。但他以前从来没做过 NLP，读书到工作都在做图机器学习，2024 年初才转行，开始搞语言模型

一个从没碰过 NLP 的人，两年不到做到了国内头部模型的负责人

我以为他会说些什么关于天赋或者机缘的话，结果他说：
大家想干都可以转，这个行业，是向所有人开放的

2026 年 2 月，百灵发布了 2.5 系列，包括一个万亿参数的即时模型 Ling-2.5-1T 和一个万亿参数的思考模型 Ring-2.5-1T。全部开源，1T 总参 63B 激活，原生 256K 上下文窗口，外推支持 1M

在国内开源界，近两年中，百灵也是除 Kimi 以外唯一发布过万亿参数规模模型的厂商

我们聊了将近两小时，然后我发现：零幺说话的方式不太一样，他很少讲愿景，几乎不用形容词，大部分时间在报数字和做判断。聊到架构选择、评测盲区、产品协作这些话题时，他给出的都是具体方案

以下内容，基于我们的对谈

两条路线

国内和海外的模型厂商，在处理 Attention（注意力机制）这件事上，走了两条完全不同的路。海外靠算力硬撑，用标准的 Full Attention 让模型每次完整看一遍所有内容；国内算力受限，必须在架构创新，要用线性化、稀疏化等方式降低 Attention 的计算量

先解释一下 Attention 在做什么。大语言模型在生成每一个字的时候，需要「回头看」前面所有已经输入和生成的内容，决定哪些跟当前要生成的字最相关。这个过程就是 Attention 在做的事。文章越长，回头看的范围越大，计算量增长是平方级的：长度翻倍，计算量大约翻四倍

海外厂商用的 Full Attention 效果好，稳定，就是费算力。但 Google、OpenAI、Anthropic 有足够的顶级 GPU，撑得住

国内的情况不一样。2022 年美国芯片出口管制升级后，国内能拿到的最好 GPU 是 H800，计算能力跟英伟达旗舰 H100 一样，但芯片之间的通信带宽从 900GB/s 砍到了 400GB/s，多张 GPU 协同工作时效率直接打了折。同样的训练任务，必须用更聪明的方式完成

在这个约束下，国内厂商做了两件海外几乎不做的事

第一件：MoE 的极致稀疏化。 MoE（混合专家模型）的原理是：模型虽然有一万亿个参数，但每次只让其中一小部分参数「上场」干活。总参数大，知识储备多，但实际消耗的算力很小

国内把这个思路推到了极致。DeepSeek 和百灵做到 256 个专家激活 8 个，Kimi K2 做到 384 个专家激活 8 个，千问 3.5 最激进，512 个专家激活 10 个。但是海外的话，大多不会采用极度稀疏和细粒度的混合专家方案，稀疏度差了一个数量级

第二件：给 Attention 动手术。 Full Attention 在长文本下成本太高，国内厂商想办法降低这个成本，目前形成了三条路线：

线性化。 把 Attention 的计算量从平方级降到线性级。MiniMax 走得最早也最激进，MiniMax-Text-01 每 8 层中 7 层用 Lightning Attention（线性注意力），只留 1 层标准 Attention，训练窗口 100 万 token，推理外推到 400 万。百灵 2.5 也是 1:7 的混合比例。千问同样在 Linear Attention 方向持续投入

稀疏化。 保留标准 Attention，但让模型学会「跳着看」，只关注最重要的内容。DeepSeek V3.2 和 GLM-5 走的是这条路，两者都采用了 DSA 架构

做减法。 Kimi K2 旗舰模型没有换 Attention 机制，而是把注意力头从 128 个砍到 64 个。团队发现翻倍的注意力头在 128K 上下文时多消耗 83% 算力，性价比太低，直接砍半

不过 Kimi 后来也单独出了一个探索性质的 Kimi Linear 小模型（48B），用 3:1 混合注意力，说明线性化方向他们也在看

总结下，大概是这样 - MiniMax、百灵、千问 all-in 线性化； - DeepSeek、GLM 走稀疏化； - Kimi 靠 MoE 高稀疏加 MLA 压缩来省算力，Attention 机制本身暂时不大改 MoE 方面基本是共识，大家都在往极致稀疏推

这些路线看起来各有各的选择，但零幺认为背后只有一个驱动力：
「如果你给我 100 万张 H100，我也会做海外那个选择」

Full Attention 效果稳定，架构非常成熟，就是费算力，算力够用的话没人愿意折腾架构。线性化、稀疏化、砍注意力头，本质是同一个约束条件逼出来的

DeepSeek 训 V3 用了 2048 张 H800，278 万 GPU 小时。Meta 训 Llama 3 405B 花了 3080 万 GPU 小时，11 倍于 DeepSeek

「中国的厂商，在资源有限的情况下，你不得不去做这件事情」

而这些为了省算力做的架构改造，恰好撞上了 Agent 时代最核心的需求

60% 的计算成本

百灵 2.5 的 80 层网络里，已经把 72 层换成了线性注意力，只留了 8 层标准注意力（MLA）。对此，零幺补充到：上下文到 256K 以上时，那仅有的 8 层 MLA，占了总计算成本的 60% 以上

为什么 8 层就能吃掉 60%？因为 Agent 场景下上下文会变得非常长。人问一句、模型回一段，上下文可能就几千字。但 Agent 执行任务的时候，中间不断地搜索、读文档、写代码、看结果、再搜索，每一轮的输入输出都在堆积。一个 coding agent 连续工作几个小时，上下文轻松突破 32K，到 128K、256K

上下文越长，标准 Attention 的计算量膨胀越快（平方级增长），而线性注意力只是线性增长。所以到了长上下文场景，那 8 层标准注意力虽然数量少，成本却远远超过了 72 层线性注意力

在这一方面，百灵 2.5 用的是 1:7 混合比例（每 8 层里 1 层 MLA + 7 层 Lightning Linear Attention）。零幺说他们专门跑了一轮 Scaling Law 实验，在不同混合比例下对比效果和效率的曲线，最后收敛到 1:7。百灵下一轮架构升级要解决的，还是这 60%

「国内大部分模型，要么在稀疏化上走得远，要么在线性化上走得远。否则会被效率打掉」

在效率和效果的优先级上，零幺给了一个跟行业主流不同的判断：「大家更直观的感受上，最大的挑战在效果侧。但在我的认知里面，效果和效率是同等重要的」

行业里大部分声音，会说模型能力还不够强，要继续提升效果，但可能也需要算一笔账：当资源有限、但 Agent 需求过剩的时候，效率就会变成生死问题

效果不够强，还能用；但总是响应超时，那就没有后续了

在这里，零幺有个核心判断：架构本身不决定效果，但架构决定效率，而迭代效率最终决定模型效果。用更老的架构，你有足够算力同样能做出好模型——问题是国内没有那个算力

Benchmark 高分，手感差

模型评测分数很高，真上手用却觉得哪里不对劲

我把这个问题丢给了零幺，他则给了我一个很具体的原因：现在所有 benchmark 都是单项考试，搜索能力单独考，写代码能力单独考。但真实工作从来并非如此，几个工具要同时用、来回切换，而目前没有任何评测在测这个

大多数程序员日常工作时同时在用好几个工具，写代码卡住了去搜一下，找到思路回来接着写，写完跑测试，报错了再查文档。几个工具来回切换。但 Terminal Bench 测命令行操作，里面没有搜索；Agent Search benchmark 测搜索能力，里面没有 coding 环境。每个维度单独测分都不低

「你让模型单独搜索它会，单独写代码它也会。但你让它边搜边写，就崩了」

我自己评估模型的时候，也会看 coding 分数、math 分数、instruction following 分数。但如果一个模型搜索强、编码也强，就是没法同时调两个工具配合干活，那这些单项分数就要打折

零幺给这个方向起了个名字，叫 production research：去观察真正在生产环境里工作的人是怎么干活的，基于这些真实模式去设计评测和训练数据

我问：你觉得有哪些 Benchmark 是被低估了吗？
回答：GAIA2，相比一些其他榜单，GAIA2 可能更接近真实 Agent 场景，允许 Agent 异步执行多个有依赖关系的任务。做这个 benchmark 的团队据说已经解散了，代码有 bug 没人维护。觉得这个方向对，就让百灵团队自己把 bug 修了，拿来做内部评估

我当时叹了声牛逼...判断方向是对的，就动手补上缺的东西

聊到 Claude Code 为什么在多工具协同上表现好，零幺帮我分析了 Anthropic 的做法，认为一个重要原因是他们确实在做 production research，收集了大量真实工程师的工作模式来指导训练

「这个事，靠的说投入和耐心，不单单是聪明」，以及...被严重低估的，是「多工具协同」这整个能力维度

松耦合

蚂蚁内部，产品团队和基模团队的关系是：松耦合

产品团队提前半年给出未来想要什么能力，基模团队从中选择能做且应该做的，两边在一个「池子」里找交集，各自保留各自的判断

我问：如果两年后蚂蚁的模型大获成功，它能占据的心智可能是什么？
回答到：专业服务业

这也是蚂蚁的固有心智：从支付延伸到金融、医疗、生活服务，都是专业服务业，行业门槛高，专业从业者稀缺

普通人享受不到好的金融服务，社区医生水平有限所以大家都去三甲，搜索引擎查个症状小毛病看着像绝症。AI 如果能降低这些服务的门槛，就是蚂蚁做基模的支点

具体是这样运作的：灵光（蚂蚁的 C 端 AI 产品）团队提前半年做一个 demo 视频，里面可能有十几个设想中的功能。百灵团队看完之后，判断哪些能做、哪些三个月能出、哪些一年后还做不出来，从中 pick 一些去推进

一个例子：2025 年 2～3 月时，国内所有模型都生成不了好看的 HTML 页面，只有 Claude 能做到。灵光团队则评估这个很重要，就放进需求池。百灵在 2.0 版本训练中就开始强化 HTML 生成。等灵光产品上线时，能力已经准备好了

零幺说：Google 内部也是类似模式，3～6 个月为周期收集产品需求

一年和一年

模型在变小，能力在变强，一年后，一个 200B 的模型，就能打赢今天的 1T

这里可能不是判断了，我们实际在训练中的模型就能看到这个趋势了。类似摩尔定律，对基模目前可能是不到一年，同等能力对应的规模就可能可以压缩一个数量级

但做 Agent、做应用的团队等不了这一年

同一个「一年」，对模型厂商是技术迭代的周期，对应用公司是生死存亡的倒计时

千问 3.5 已经在验证这个趋势，397B 总参 17B 激活，在不少维度上打赢了上一代万亿参数模型。GLM-5 用 744B 总参 40B 激活拿到了 a16z 所说的「最好的开源模型」

在模型训练中，零幺跟我讲了一个他认为被严重低估的问题：过程奖励

现在主流做法是 Agent 跑完整个任务后，看最终结果给一个奖励信号。但如果 Agent 连续跑几个小时，中间几十上百步操作，最后才给一个「对」或「错」，信号太稀疏，模型很难从中学到东西

百灵 2.5 在数学证明题上的进步，零幺认为很大程度来自逐步验证：每一步推导都检查对错，整个过程就是结果。这跟 Agent 场景的需求结构一样：长程执行，中间每一步都需要反馈

同时，他也很坦率地告诉我说，Agent 的过程奖励怎么做，目前没有成熟方案。「如果能在这个位置找到更好的想法，整个 Agent 训练的效率会提一截」。

我发现，在聊到没解决的问题时，零幺反而说得更细

关于思考模型和即时模型，零幺表示：各家现在优先卷思考模型，因为更能体现 AGI 上限，benchmark 卷得更猛。代价是即时模型被普遍忽视

「你会发现各家现在对应的非思考模型，能力就偏弱了」

长远看一定会合到一起。但现阶段分开做是也是合理的：两种模型的上限还没探清楚，合在一起反而会互相拖累

聊到最后，我们还说了件小事：这次百灵 2.5 的官方发布稿，是零幺用百灵 1T 模型写的

「以前用 xxx 模型写文档，会蹦出来一堆很科幻的词语，每次都要大改。这次用百灵写，很多直接就可以用了」

我问：觉得百灵 2.5 写出来的东西，具体好在哪
他想了想说：像一篇正常的文章，而不像一篇玄幻小说了

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.