35B模型追上1T级前沿模型？AI开始拼谁更会做事|轨迹|调用|编程|工作流|agent

35B模型追上1T级前沿模型？AI开始拼谁更会做事

2026-07-02 19:38:35　来源: 网易智能

北京举报

分享至

出品 | 网易智能

作者 | 小爪

编辑 | 王凤枝

AI模型竞赛里，过去最容易被记住的数字是参数。

几百亿、几千亿、上万亿。模型越大，似乎越容易被理解成能力越强。

上海AI Lab相关团队新开源的Agents-A1，换了一个问题：如果不继续把模型做得更大，而是让它把任务做得更长，会发生什么？

GitHub README显示，团队在6月26日开源了Agents-A1 35B-A3B模型、部分评估代码和技术报告。简单说，这不是万亿级底座模型，而是一个总参数约35B（350亿）、推理时激活参数更少的MoE（混合专家）Agent模型。

6月29日，一篇题为《扩展任务边界，而非参数规模》（Scaling the Horizon, Not the Parameters）的论文提交至arXiv。按论文、项目页和开源仓库披露的结果，Agents-A1在多项长任务Agent基准测试上达到或接近论文所列"1T-level"（万亿参数级）前沿模型表现。

虽然后续还要看第三方复现，但这组结果表明，在需要搜索、调用工具、观察反馈、修正路线的长链条任务里，小得多的模型也可能通过更好的Agent训练方式缩小差距。AI能力评价正在从"答题"走向"做事"。

模型会答题，不等于会做事

普通聊天模型面对的是一个相对短的回合：用户问一句，模型答一句。即便问题很复杂，输出仍主要发生在一个文本窗口里。

智能体面对的任务不一样。

论文把这种能力称为智能体任务边界（agent horizon）。直白说，就是AI能连续把一件事往前推进多远。

它要先理解目标，再拆步骤；要查外部资料，调用工具，运行代码，观察结果；如果中间失败，还要换路线继续推进。对Agent来说，难点不只是一瞬间答对，还在于很长的过程里不忘目标、不丢约束、不把前面的错误一路带下去。

这个词比"参数"更接近真实使用体验。

一个模型知道很多，并不等于它能把复杂任务做好。

它可能第一步查对了资料，第二步选错工具；也可能前面判断都对，最后整理结果时忘了用户最初的要求。很多人使用AI时遇到的挫败感，就来自这种断裂：单步看起来都在推进，串起来却交付不了结果。

摘要、翻译这类短任务很容易判断好坏；但调研、分析、改表格、写结论这些多步骤任务，中间任何一步走偏，最后都会坏掉。 到了Agent场景，模型强不强，不只看它知识多不多，还要看它能不能稳定把任务做完。

Agents-A1想训练的是长链条能力

Agents-A1的做法，是把训练重点放在更长的任务轨迹上。

论文称，团队构建了一套长任务知识-行动基础设施，把外部知识、动作、观察结果和验证器反馈连接起来，生成平均长度约4.5万个token的Agent轨迹。

具体到训练材料，团队不只给模型看"题目和标准答案"，还把一个任务从开始到结束的过程喂进去。

论文里更具体的抓手，是知识-行动图（Knowledge-Action Graph，KAG）。它不是普通知识图谱，不只是记录实体和关系，而是把一次任务推进中的连续状态保存下来：模型查到了什么、用了什么工具、工具返回了什么、结果是否通过验证，以及失败后怎样调整下一步。Agents-A1训练的不是单次回答，而是这种带反馈的行动过程。模型学到的不只是"最后答案是什么"，还有"答案是怎么被查到、执行、验证和修正的"。

论文中的训练流程分为三步：

第一步，用全领域监督微调，让基础模型先对搜索、工程、科研、工具调用、指令遵循等Agent行为形成基本对齐。
第二步，训练不同领域的教师模型，让它们分别捕捉专业领域里的经验。
第三步，再把多个教师模型的能力蒸馏到一个可部署的学生模型里，让一个35B模型同时覆盖多类Agent任务。

三步流程的共同目的，是让模型在训练阶段就反复经历完整的任务过程，而不只是看到孤立的问答对。它们背后对应的是同一个方向：把"会不会答"转成"会不会持续行动"。

这也解释了为什么论文标题强调"扩展任务边界（Scaling the Horizon）"。它不是说把参数规模这条路扔掉，而是把扩展对象从模型本身，挪到模型能够处理的任务过程上。

过去的scaling（扩展）更像扩大一颗大脑：更多参数、更多数据、更大算力。Agents-A1讨论的scaling更像拉长一个人的工作半径：它能查多少轮资料，能处理多少次反馈，能在多长的上下文里不迷路，能不能把工具调用和最终答案连成一个闭环。

35B为什么能接近更大的模型

根据论文报告，Agents-A1的评测覆盖长任务搜索、工程、科学研究、指令遵循和工具调用等方向。它取得较强表现的地方，主要集中在那些需要模型连续处理信息、调用工具并推进任务的Agent基准测试上。

这些基准测试考的不是一次性答题，而是模型能不能在长流程里稳定推进任务。

一篇35B模型论文之所以会拿来和论文所列1T-level前沿模型比较，原因也在这里。

如果任务只是比知识储备和瞬时推理，大模型通常有天然优势；但如果任务需要连续行动，训练数据里有没有足够长的过程、模型会不会调用工具、能不能看懂中间状态，就会变得更重要。

更细地看，Agents-A1的优势并不平均分布。论文表格显示，它在长任务搜索、部分科学和指令遵循类评测上表现突出；但在浏览理解、科学编程、机器学习工程基准、材料工具等任务上，前沿大模型仍有明显优势。论文作者也承认，MLE-Bench-Lite这类完整工程流程对稳定目标、记忆历史决策、避免重复试错要求很高，Agents-A1仍弱于1T-level模型。

但Agents-A1给出的信号是：参数之外，还有一条扩展路线。把模型做得更大是一种scaling；把它能处理的任务链条拉长，也是一种scaling。

这条路线对大模型行业很有吸引力。继续把模型做大，意味着更高的训练成本、更贵的推理成本，也意味着部署门槛越来越高。如果一个较小模型能通过更好的Agent训练，在某些长任务场景里接近更大模型，它就给行业提供了另一种效率想象：不是每个问题都必须靠更大的底座解决，有些问题可以靠更好的任务过程解决。

这条路线并不排斥更大的模型。长任务能力本身仍依赖基础模型的语言理解、推理、代码和工具调用能力。更合理的理解是，Agent时代的能力竞争不只发生在底座模型大小上，也发生在训练轨迹、工具环境、反馈机制和验证器设计上。

这对普通用户意味着什么

这类论文离普通用户并不远。

现在很多人使用AI，仍停留在"问答工具"的阶段：写一段文案、翻译一段话、总结一份材料。未来更有价值的场景，是把AI放进完整工作流里。

例如，一次行业调研不只是列观点，而是查资料、筛来源、标注证据、整理表格、写初稿、检查不确定项；一个编程任务也不只是回答问题，而是读问题单、查代码、改文件、跑测试、提交修复；一个办公任务则可能跨邮件、日历、文档和表格，把待办追踪到可以发给同事的结论。

现在很多AI产品已经在往这个方向走。浏览器里的Agent想替用户订票、购物、查资料；编程工具里的Agent想从issue读到代码，再改文件、跑测试；办公软件里的Agent想把邮件、日历、文档和表格连起来。它们共同考验的不是一句话答得漂不漂亮，而是AI能不能在长时间里保持目标一致，记住前面做过什么，知道什么时候该查资料，什么时候该调用工具，什么时候该承认不确定。

长任务能力最先改变的，可能就是产品体验：用户未必关心底层模型有多大，但会明显感受到AI能不能把任务一路跟到底。

对普通用户来说，这种变化可能不会以"你正在使用一个35B Agent模型"的方式出现。它更可能藏在产品体验里：AI不再频繁反问你下一步做什么，不再做完一半就忘记上下文，也不再把工具调用结果和最终结论割裂开来。

当这种能力成熟，用户对AI的期待也会改变。过去我们容忍它像一个聪明但健忘的聊天对象；以后我们会更希望它像一个靠谱的执行者，知道目标、记得过程、能交付结果。

参数竞赛没有结束，但赛道变宽了

Agents-A1不意味着参数规模不重要。