出品 | 网易智能
作者 | 小爪
编辑 | 王凤枝
AI模型竞赛里,过去最容易被记住的数字是参数。
几百亿、几千亿、上万亿。模型越大,似乎越容易被理解成能力越强。
上海AI Lab相关团队新开源的Agents-A1,换了一个问题:如果不继续把模型做得更大,而是让它把任务做得更长,会发生什么?
GitHub README显示,团队在6月26日开源了Agents-A1 35B-A3B模型、部分评估代码和技术报告。简单说,这不是万亿级底座模型,而是一个总参数约35B(350亿)、推理时激活参数更少的MoE(混合专家)Agent模型。
![]()
6月29日,一篇题为《扩展任务边界,而非参数规模》(Scaling the Horizon, Not the Parameters)的论文提交至arXiv。按论文、项目页和开源仓库披露的结果,Agents-A1在多项长任务Agent基准测试上达到或接近论文所列"1T-level"(万亿参数级)前沿模型表现。
![]()
虽然后续还要看第三方复现,但这组结果表明,在需要搜索、调用工具、观察反馈、修正路线的长链条任务里,小得多的模型也可能通过更好的Agent训练方式缩小差距。AI能力评价正在从"答题"走向"做事"。
模型会答题,不等于会做事
普通聊天模型面对的是一个相对短的回合:用户问一句,模型答一句。即便问题很复杂,输出仍主要发生在一个文本窗口里。
智能体面对的任务不一样。
论文把这种能力称为智能体任务边界(agent horizon)。直白说,就是AI能连续把一件事往前推进多远。
它要先理解目标,再拆步骤;要查外部资料,调用工具,运行代码,观察结果;如果中间失败,还要换路线继续推进。对Agent来说,难点不只是一瞬间答对,还在于很长的过程里不忘目标、不丢约束、不把前面的错误一路带下去。
这个词比"参数"更接近真实使用体验。
一个模型知道很多,并不等于它能把复杂任务做好。
它可能第一步查对了资料,第二步选错工具;也可能前面判断都对,最后整理结果时忘了用户最初的要求。很多人使用AI时遇到的挫败感,就来自这种断裂:单步看起来都在推进,串起来却交付不了结果。
摘要、翻译这类短任务很容易判断好坏;但调研、分析、改表格、写结论这些多步骤任务,中间任何一步走偏,最后都会坏掉。 到了Agent场景,模型强不强,不只看它知识多不多,还要看它能不能稳定把任务做完。
Agents-A1想训练的是长链条能力
Agents-A1的做法,是把训练重点放在更长的任务轨迹上。
论文称,团队构建了一套长任务知识-行动基础设施,把外部知识、动作、观察结果和验证器反馈连接起来,生成平均长度约4.5万个token的Agent轨迹。
![]()
具体到训练材料,团队不只给模型看"题目和标准答案",还把一个任务从开始到结束的过程喂进去。
论文里更具体的抓手,是知识-行动图(Knowledge-Action Graph,KAG)。它不是普通知识图谱,不只是记录实体和关系,而是把一次任务推进中的连续状态保存下来:模型查到了什么、用了什么工具、工具返回了什么、结果是否通过验证,以及失败后怎样调整下一步。Agents-A1训练的不是单次回答,而是这种带反馈的行动过程。模型学到的不只是"最后答案是什么",还有"答案是怎么被查到、执行、验证和修正的"。
![]()
论文中的训练流程分为三步:
- 第一步,用全领域监督微调,让基础模型先对搜索、工程、科研、工具调用、指令遵循等Agent行为形成基本对齐。
- 第二步,训练不同领域的教师模型,让它们分别捕捉专业领域里的经验。
- 第三步,再把多个教师模型的能力蒸馏到一个可部署的学生模型里,让一个35B模型同时覆盖多类Agent任务。
三步流程的共同目的,是让模型在训练阶段就反复经历完整的任务过程,而不只是看到孤立的问答对。它们背后对应的是同一个方向:把"会不会答"转成"会不会持续行动"。
这也解释了为什么论文标题强调"扩展任务边界(Scaling the Horizon)"。它不是说把参数规模这条路扔掉,而是把扩展对象从模型本身,挪到模型能够处理的任务过程上。
过去的scaling(扩展)更像扩大一颗大脑:更多参数、更多数据、更大算力。Agents-A1讨论的scaling更像拉长一个人的工作半径:它能查多少轮资料,能处理多少次反馈,能在多长的上下文里不迷路,能不能把工具调用和最终答案连成一个闭环。
35B为什么能接近更大的模型
根据论文报告,Agents-A1的评测覆盖长任务搜索、工程、科学研究、指令遵循和工具调用等方向。它取得较强表现的地方,主要集中在那些需要模型连续处理信息、调用工具并推进任务的Agent基准测试上。
这些基准测试考的不是一次性答题,而是模型能不能在长流程里稳定推进任务。
一篇35B模型论文之所以会拿来和论文所列1T-level前沿模型比较,原因也在这里。
如果任务只是比知识储备和瞬时推理,大模型通常有天然优势;但如果任务需要连续行动,训练数据里有没有足够长的过程、模型会不会调用工具、能不能看懂中间状态,就会变得更重要。
![]()
更细地看,Agents-A1的优势并不平均分布。论文表格显示,它在长任务搜索、部分科学和指令遵循类评测上表现突出;但在浏览理解、科学编程、机器学习工程基准、材料工具等任务上,前沿大模型仍有明显优势。论文作者也承认,MLE-Bench-Lite这类完整工程流程对稳定目标、记忆历史决策、避免重复试错要求很高,Agents-A1仍弱于1T-level模型。
但Agents-A1给出的信号是:参数之外,还有一条扩展路线。把模型做得更大是一种scaling;把它能处理的任务链条拉长,也是一种scaling。
这条路线对大模型行业很有吸引力。继续把模型做大,意味着更高的训练成本、更贵的推理成本,也意味着部署门槛越来越高。如果一个较小模型能通过更好的Agent训练,在某些长任务场景里接近更大模型,它就给行业提供了另一种效率想象:不是每个问题都必须靠更大的底座解决,有些问题可以靠更好的任务过程解决。
这条路线并不排斥更大的模型。长任务能力本身仍依赖基础模型的语言理解、推理、代码和工具调用能力。更合理的理解是,Agent时代的能力竞争不只发生在底座模型大小上,也发生在训练轨迹、工具环境、反馈机制和验证器设计上。
这对普通用户意味着什么
这类论文离普通用户并不远。
现在很多人使用AI,仍停留在"问答工具"的阶段:写一段文案、翻译一段话、总结一份材料。未来更有价值的场景,是把AI放进完整工作流里。
例如,一次行业调研不只是列观点,而是查资料、筛来源、标注证据、整理表格、写初稿、检查不确定项;一个编程任务也不只是回答问题,而是读问题单、查代码、改文件、跑测试、提交修复;一个办公任务则可能跨邮件、日历、文档和表格,把待办追踪到可以发给同事的结论。
现在很多AI产品已经在往这个方向走。浏览器里的Agent想替用户订票、购物、查资料;编程工具里的Agent想从issue读到代码,再改文件、跑测试;办公软件里的Agent想把邮件、日历、文档和表格连起来。它们共同考验的不是一句话答得漂不漂亮,而是AI能不能在长时间里保持目标一致,记住前面做过什么,知道什么时候该查资料,什么时候该调用工具,什么时候该承认不确定。
长任务能力最先改变的,可能就是产品体验:用户未必关心底层模型有多大,但会明显感受到AI能不能把任务一路跟到底。
对普通用户来说,这种变化可能不会以"你正在使用一个35B Agent模型"的方式出现。它更可能藏在产品体验里:AI不再频繁反问你下一步做什么,不再做完一半就忘记上下文,也不再把工具调用结果和最终结论割裂开来。
当这种能力成熟,用户对AI的期待也会改变。过去我们容忍它像一个聪明但健忘的聊天对象;以后我们会更希望它像一个靠谱的执行者,知道目标、记得过程、能交付结果。
参数竞赛没有结束,但赛道变宽了
Agents-A1不意味着参数规模不重要。
![]()
论文里的结论仍然限定在特定Agent基准测试和作者报告的评测范围内。更大的模型在通用知识、复杂推理、代码、科学任务等许多场景里,仍有优势。
但它提醒了一个变化:AI能力的竞争不再只有模型大小这一条轴。
过去,大家问一个模型强不强,常看它有多少参数、用了多少训练数据、跑分排第几。到了Agent场景,还要看它能不能长时间执行任务,能不能使用工具,能不能处理外部反馈,能不能把多个领域能力合在一个模型里。
如果把普通聊天模型比作一个会答题的人,Agent更像一个会做项目的人。
会做项目的人,不能只靠脑子大。它还要有步骤感、工具感、反馈感和持续推进能力。
Agents-A1的价值就在这里。它没有简单加入"谁的模型更大"的竞赛,而是把问题推向另一个方向:当模型已经足够聪明时,下一步要训练的是把事情做到底的能力。
今天很多Agent论文开始有传播价值,不再只是因为它们能在模型榜单上换一个名次,而是因为它们正在讨论AI产品下一步怎样进入工作流。谁能让AI更稳定地完成长任务,谁就更接近普通用户真正愿意付费的场景。
