上海AI实验室的35B小模型，凭什么能打赢万亿参数的"巨无霸"？|调用|算法|时序|智能体|人工智能模型

分享至

来源：市场资讯

（来源：科技行者）

这项由上海人工智能实验室主导的研究成果以预印本形式发布于2026年6月29日，论文编号为arXiv:2606.30616，有兴趣深入了解的读者可通过该编号查询完整原文。研究团队推出了一个名为Agents-A1的智能体模型，它的参数规模只有350亿，却在多项任务上的表现追平甚至超越了参数量超过万亿的顶级商业大模型。这个结果乍听起来有些不可思议——毕竟在AI领域，"大力出奇迹"几乎是公认的定律，参数越多、算力越猛，模型就越厉害。但Agents-A1用实验数据证明，除了"堆参数"这条路，还存在另一条同样行之有效的路：让AI学会处理更长、更复杂的任务流程。

为了理解这件事的意义，可以用一个厨房里的比喻来贯穿始终。烹饪界有两类厨师：一类靠的是天赋和经验积累（相当于模型参数），脑子里装着无数菜谱和技法，无论什么食材拿来就能做；另一类则胜在工作流程的精妙设计——他们懂得按照正确顺序处理食材、在恰当时机使用对的工具、能及时发现中途出了什么问题并加以纠正，最终把一顿复杂的多道菜宴席从头到尾完美执行下来。Agents-A1走的正是第二条路：它不靠"脑容量"大取胜，而是靠掌握了一套完整的"烹饪流程管理术"，让整个任务执行过程更有条理、更能自我纠错、更善于利用外部工具。

这套方法论在论文中被称为"扩展智能体视野"（scaling the agent horizon），核心思路是：与其把所有知识硬塞进模型的参数里，不如训练模型学会在完成任务的漫长过程中，主动去搜索信息、调用工具、验证中间结果、从错误中恢复。这个过程产生的训练数据平均长度达到4.5万个词语（token），远超普通模型的训练样本，相当于教厨师练习的不是"做一道菜"，而是"完整经营一场复杂宴席"。

一、把知识和行动编织成一张大网——知识行动图的构建

在厨房比喻里，一个优秀的宴席总厨首先需要一本非常详细的"操作手册"——不只是菜谱，还包括每一步的操作记录、中途出了什么问题、怎么解决的、最终菜品是否达标。Agents-A1的训练同样需要这样一套精细的"操作手册"，研究团队将其称为"知识行动图"（Knowledge-Action Graph，简称KAG）。

KAG的设计思路是把AI完成任务的全过程拆解成四个维度来记录：首先是"素材库"（论文中称为C），包含所有可能用到的原始知识、证据、事实和约束条件；其次是"操作集"（A），记录模型可以执行的每一类动作，比如在网上搜索信息、调用代码工具、查询学术文献等；第三是"观察结果"（O），记录每次执行动作后得到的回馈——搜索结果返回了什么、代码运行的输出是什么、工具报错了还是成功了；第四是"验证器"（V），负责检查每一步的结果是否正确、是否达到了预期目标。

这四个维度组合在一起，形成一条完整的"行动记录链"：模型处于某个状态（s）、采取了某个行动（a）、得到了某个观察（o）、被验证器打了个分（v），然后进入下一步。整个链条既保留了成功的路径，也保留了走弯路、犯错误的记录——这正是KAG最独特的地方。普通的知识库只存"正确答案"，而KAG把错误的尝试和从错误中恢复的过程也完整保存下来，这样训练出来的模型才能真正学会"如何在现实的复杂任务中纠错和调整"，就像一个能从失败菜品中吸取教训的厨师，而不只是死记硬背成功菜谱的新手。

为了让这张"操作手册"不断丰富和自我升级，研究团队设计了一个三方博弈游戏：一个"出题者"负责从知识图中选取区域、提出有难度的任务；一个"解题者"配合搜索工具和代码工具去尝试解决这些任务；一个"裁判"则严格审核解题者的答案，只有满足五个条件的任务才会被保留进训练集——可以被验证、答案确实正确、过程中有有意义的中间决策（不能一步到位抄近路）、使用了所需的证据、没有歧义。这套博弈机制让训练数据能够持续自我扩充，就像厨师团队不断在内部举办"盲测比赛"，用挑战和复盘来磨砺技艺。

二、把任务分成六个专项——多领域数据流水线

研究团队没有试图用一个通用数据集包打天下，而是把不同类型的任务分别建立了对应的KAG和数据管道，最终涵盖六个专项领域。

第一个专项是"长程搜索"，对应的场景是需要通过多个网页跳转才能找到答案的复杂问题。研究团队从大型维基百科数据库出发，把词条之间的超链接关系构建成一张有向图，然后通过受控的随机游走生成"关系链"——例如从"法国"出发，跳到"巴黎公社"，再跳到"卡尔·马克思"，再跳到"共产党宣言"，最终以链条末端的实体作为谜底来出题。这些题目要求模型沿着间接线索一步步追查，而不能靠直接匹配关键词作弊。实际收集训练轨迹时，研究团队让强模型在真实互联网环境中执行深度研究任务，允许它们调用搜索工具、阅读网页、执行Python代码，每个任务最多允许300次工具调用，上下文窗口限制在25.6万词语。

第二个专项是"机器学习工程"，对应的场景类似于Kaggle数据科学竞赛——模型需要从零开始写代码、训练机器学习模型、调整参数、提交结果，并且在有限时间内不断迭代优化。这里的KAG核心在于"解决方案树"：每写一个完整脚本就开一个新的"根节点"，每次在现有代码上打补丁就生成一个"子节点"，执行代码后的日志、报错、评分结果全部挂在对应节点上，形成一棵记录了所有尝试路径的树形结构。失败的节点不会被删除，它们作为"反面案例"为后续决策提供参考，就像厨师把翻车的菜品也拍照留档，下次避免重蹈覆辙。

第三个专项是"科学推理与研究"，对应的是数学、物理、化学等学科的复杂问题求解。研究团队首先收集了大量基础科学题目，然后通过自我博弈游戏将它们分两个方向升级：一方面制造"更难推理的版本"，增加需要的领域知识深度、引入复杂符号结构、延长多步推导链条；另一方面制造"更需要工具交互的版本"，注入跨学科知识、加入需要外部检索的概念、增加代码数值计算的需求。这个过程最终产生了约1.5万道经过增强的科学问题。训练轨迹分为两类：纯推理轨迹只包含逐步推导，而工具增强轨迹则记录了搜索、访问网页、执行代码、查阅文献等完整交互过程，两类轨迹互为补充。

第四个专项是"指令遵循"，针对的是模型在生成回复时能否严格满足各种格式和内容约束，比如"回答必须在200字以内且不能包含感叹号"这类精细要求。数据来源有两块：一是从英伟达开源的指令遵循数据集中筛选出1.3万条高质量样本；二是自建了1万条"长文档理解"问答数据，这些题目要求模型在长达数万字的文档中定位分散的证据、处理故意设置的干扰项和临时规则，并给出正确答案。

第五个专项是"工具调用"，专门训练模型在多轮对话中正确选择并使用外部工具完成任务。这里的创新之处在于任务构建方式：研究团队先建立了一张"工具依赖图"，记录不同工具之间的前置关系和兼容约束，然后把任务合成过程定义为"在这张图上做有约束的路径搜索"——生成的任务必须保证后续工具调用依赖于前一步的输出，而不是随意拼凑。每个任务还配备了模拟用户来处理需要澄清的场景，并为同一个目标生成多条不同工具选择路径，由裁判模块打分筛选。

三、三段式训练食谱——从通才到专家再到融合

有了高质量的"操作手册"（KAG）和丰富的专项数据，接下来就是训练过程。研究团队设计了一套三段式训练流程，可以类比为培养一名顶级大厨的完整路径。

第一阶段叫"全领域监督微调"，相当于让厨师系统地学习所有基础技法和操作规范。研究团队以阿里云开源的Qwen3.5-35B-A3B作为起始模型，用约10万条覆盖全部六个专项的长程轨迹数据进行微调。这10万条数据平均每条长达4.5万词语，其中深度研究类数据平均4.4万词语、编程工程类数据平均4.8万词语、科学推理类数据平均3.7万词语，而指令遵循类数据相对简短，平均只有3千词语。训练时只在模型的回复部分计算损失，用户的提问部分被遮掉，目的是让模型专注于学习"如何回应"，而不是记住"什么问题对应什么答案"。训练使用了标准的余弦退火学习率调度，批量大小16，最大序列长度约13万词语，训练一个完整轮次。

第一阶段结束后，研究团队发现了一个有趣的现象：全领域微调确实提升了长程搜索、工程任务和科学研究的表现，但代价是在指令遵循和通用智能体任务上出现了明显下滑。原因在于不同任务之间的"思考模式"存在根本冲突——深度搜索任务需要多轮工具调用和短片段思考的快速切换，而指令遵循任务则需要单轮生成、深度推理、长篇输出。把这两种截然不同的工作方式硬塞在一起训练，就像让厨师同时练习精密的法式摆盘和大锅快炒，两种习惯互相干扰。

于是进入第二阶段："领域级教师模型训练"。研究团队为每个专项领域分别训练了一个"教师模型"，每个教师只在自己负责的领域内深耕，使用有针对性的SFT或强化学习方法来突破各自的性能上限。

搜索领域的教师训练分两步走：先用搜索轨迹数据进行SFT让模型掌握基本的工具调用模式，然后用强化学习进一步优化。强化学习使用GRPO算法，奖励信号由三部分组成：答案正确性（由LLM裁判模型评判）、搜索效率（超过K轮后每多搜一次就扣一点分，鼓励及时收手）和重复惩罚（重复搜索同一个网址会被扣分）。训练数据精心筛选了约2000道多跳推理题，这些题目对当前SFT模型既不太难也不太容易——模型在5次重试中既有成功也有失败，这种"模糊地带"的题目能为强化学习提供最有效的训练信号。实验结果显示，搜索教师在GAIA基准上从59.8分跳升到95.1分，提升幅度超过35分。

科学领域的教师同样分两步训练：第一步是"推理增强SFT"，专注于培养模型在没有外部工具情况下独立完成长链数学推导的能力；第二步是"工具增强SFT"，在第一步的强推理基础上，再叠加工具调用能力，让模型学会判断何时需要请外部帮助、如何精确描述工具调用需求、如何把工具返回的结果融入自己的推导链条。科学教师在FrontierScience-Research这个研究级科学基准上，从2.5分飙升到54.3分，涨幅超过50倍。

指令遵循领域的教师通过两段式强化学习训练：第一段先在精细格式约束数据上训练，让模型可靠地满足各种显式规则；第二段继续在长文档ICL数据上训练，让模型学会在海量上下文中定位关键证据并据此推理。为了提高训练效率，研究团队采用了"动态采样"策略——对于每道题，如果模型生成的多个答案全部正确或全部错误，这道题就被跳过，只保留有对有错的"摇摆题"来更新模型，把计算资源集中在真正有训练价值的数据上。

工具调用领域的教师则采取了一个非常节俭的策略：研究团队构建了一个只有64道题的"硬题集"，这些题目的特点是当前SFT模型经常"差一点就成功"却最终失败。通过反复复用这64道题（每道题在整个训练过程中平均被使用多次）和一种叫PAPO的改进优势计算方法，用极少量数据高效完成了工具调用能力的强化学习。工具调用教师在τ?-Bench基准上的平均分从32.53跳到82.50，航空领域子分更是从16分涨到72分。

四、把六位专家的厨艺融进一个人——多教师在线蒸馏

有了六个专项教师之后，最终目标是把他们各自的绝活融入一个可以实际部署的统一模型。这个过程如果处理不当，就会像让六个厨师同时向一个学徒下达互相矛盾的指令，结果什么都学不好。研究团队提出的解决方案叫"多教师领域路由在线蒸馏"（Multi-teacher Domain-Routed On-Policy Distillation），配合一个名为"显著词汇对齐"（Salient Vocabulary Alignment，SVA）的技术。

在线蒸馏的基本逻辑是：学生模型先用自己当前的参数生成一段回复，然后把这段回复交给对应领域的教师模型来打分——教师不是自己重新生成一段"标准答案"让学生照抄，而是对学生自己写的内容给出词语级别的改进建议。这种"老师评改学生作文"的方式比"老师示范学生临摹"效果更好，因为训练信号完全基于学生自己的输出，没有"分布差异"的问题。

SVA技术进一步优化了打分的精准度。在每个词语位置上，教师模型先选出概率最高的k个候选词，然后只在这k个词的小范围内计算学生和教师之间的分布差距。这样做的好处是把注意力集中在"真正有价值的候选词"上，避免被大量低概率词汇的细微差异干扰。为了防止样本量大的领域把其他领域的训练信号淹没，损失函数采用了"两层平均"策略：先在每个活跃领域内部计算平均损失，然后在所有活跃领域之间再计算一次平均。这样无论搜索数据有多少条、科学数据有多少条，它们对最终模型更新的贡献权重是相等的。

在具体执行层面，每个训练样本都带有明确的领域标签，确保它只从对应的教师那里接受指导，而不会出现搜索样本被科学教师评分的混乱情况。整个蒸馏过程还设置了严格的时间预算和长度预算，防止某些领域的超长轨迹独占计算资源。

五、考试成绩单——在哪些地方赢了万亿参数模型

实验结果用一张横跨多个领域的对比表格呈现，基准模型包括同等规模的35B开源模型（如Qwen3.6-35B-A3B、Nex-N2-mini）和参数量超过万亿的顶级商业模型（Kimi-K2.6、DeepSeek-V4-Pro、GPT-5.5）。

在长程搜索领域，Agents-A1在SEAL-0基准上得到56.4分，超过Kimi-K2.6的50.5分和DeepSeek-V4-Pro的55.0分；在GAIA基准上以96.0分位列所有模型最高；BrowseComp上得到75.5分，略低于几个万亿参数模型但远超同规模开源模型；XBench上得到86.0分，与两家顶级商业模型持平。

在科学研究领域，Agents-A1的表现最为亮眼。HiPhO物理奥林匹克基准上以46.4分不仅超过所有万亿参数对手，连GPT-5.5（43.3分）也被超越；FrontierScience-Olympiad基准上以79.0分超过Kimi-K2.6的73.0分和DeepSeek-V4-Pro的76.0分，与GPT-5.5的78.0分基本持平；FrontierScience-Research基准上以40.0分大幅领先所有其他模型——排名第二的GPT-5.5只有26.7分，Kimi-K2.6只有17.9分。在HLE专家级推理基准上，Agents-A1以47.6分超过DeepSeek-V4-Pro的48.2分，但略低于GPT-5.5的52.2分和Kimi-K2.6的54.0分。

在指令遵循领域，IFBench上Agents-A1以80.6分领先所有参与比较的模型，包括GPT-5.5的75.9分和Kimi-K2.6的71.8分。

在分子科学智能体任务（MolBench-Bind）上，Agents-A1以56.8分大幅超越所有对手——Kimi-K2.6只有21.6分，DeepSeek-V4-Pro只有37.8分，GPT-5.5也只有62.2分，而同规模开源基线只有48.7分。

论文同时承认了Agents-A1的明显短板：在机器学习工程（MLE-Bench-Lite）上，Agents-A1以43.9%的奖牌率领先所有35B模型，但与GPT-5.5（72.7%）和顶级商业模型（60%以上）相比仍有较大差距。研究团队分析，这是因为机器学习工程任务不是一次性解题，而是需要跨越数十次实验的持续决策——这对模型的长期目标一致性和记忆能力提出了更高要求，而这正是Agents-A1当前训练体系的薄弱环节。

六、实战案例——12小时连续优化和地球科学分析

论文用两个具体案例来展示Agents-A1在真实长程任务中的能力上限。

第一个案例是机器学习竞赛优化。研究团队让Agents-A1独立完成一道"鲸鱼叫声检测"任务，要求在12小时内通过不断迭代来提升预测准确率。模型从最简单的CNN网络基线出发，逐步完成了时序数据分析、音频数据增强（添加噪声和增益变化）、聚焦近期数据的时序训练策略、使用Mel频谱图的CNN集成架构、最终的大规模增强和微调，整个过程中验证集AUC从0.58一路攀升到0.9935，达到了金牌级别的成绩。这个案例的意义在于展示了模型的"自适应诊断能力"——它识别出训练集和测试集之间存在时序分布差异，并据此调整了训练策略，而不只是机械地调参。

第二个案例是地球科学数据分析。研究团队给Agents-A1一个任务：分析2008年强热带风暴纳尔吉斯的路径和强度演变。模型自主找到了IBTrACS国际最佳路径档案作为数据源，完成了数据提取、清洗、衍生指标计算（轨迹长度、移速、方位变化等）、可视化图表生成和科学解读报告撰写。最终输出包括五个子图：最佳路径地图、最大持续风速时间序列、经纬度位置演变、移动速度变化和方位角变化，所有图表都正确标注了关键阶段。这个案例展示了模型在科学分析任务中"闭环执行"的能力——从数据获取到最终报告形成一个完整的多阶段工作流。

归根结底，Agents-A1这项研究最值得关注的地方并不只是那张漂亮的分数表，而是它所验证的一条基本命题：在AI能力的提升上，"把模型做得更大"并不是唯一出路。当一个350亿参数的模型通过精心设计的训练流程，在多个任务上追上甚至超过了参数量多出近30倍的竞争对手，这件事本身就意味着AI研究的效率和可及性正在发生变化——更多资源有限的研究团队和机构，未来可能同样有机会开发出在关键任务上具有竞争力的智能体系统，而不必非得投入天量算力才能入场。

当然，Agents-A1的局限也很清晰。在需要跨越极长时间窗口持续规划、记住大量历史决策、并在无数实验之间保持目标一致性的任务上，它仍然落后于顶级商业模型。研究团队在论文末尾也坦诚地指出，规划前置、行动前先反思、在长上下文中提炼关键信息、识别历史重要节点——这些"元认知"能力是下一阶段重点要强化的方向。

说到底，这项研究像是一次关于AI训练哲学的公开声明：与其堆砌参数，不如打磨流程；与其让模型记住更多，不如让模型学会更好地使用已有的知识。这个理念在人类学习中早已是常识，在AI训练中，上海人工智能实验室的研究团队用一份详尽的实验报告证明了它同样行得通。感兴趣的读者可以通过arXiv编号2606.30616找到完整原文，进一步探索这套方法论背后的每一个技术细节。

Q&A

Q1：Agents-A1是什么模型，它的主要特点是什么？

A：Agents-A1是上海人工智能实验室开发的350亿参数混合专家架构智能体模型。它的核心特点是通过扩展任务处理流程（即"智能体视野"）而非增大参数量来提升性能，训练数据平均长度达4.5万词语，涵盖长程搜索、科学推理、机器学习工程等六个专项领域，在多个基准测试上能与参数量超过万亿的顶级商业模型竞争。

Q2：Agents-A1的三阶段训练方法具体是怎么运作的？

A：第一阶段用覆盖六个领域的10万条长程轨迹数据做全领域微调，让模型建立基础智能体能力。第二阶段为搜索、科学、指令遵循、工具调用等专项分别训练独立教师模型，使每个教师在自己领域达到峰值性能。第三阶段通过多教师在线蒸馏，让学生模型在自己生成的回复上接受对应领域教师的词语级指导，同时用领域归一化损失防止某个领域压过其他领域，最终将六位专家的能力整合进一个可部署模型。

Q3：Agents-A1在哪些任务上超过了万亿参数模型，哪些地方还有差距？

A：Agents-A1在HiPhO物理奥林匹克、FrontierScience-Research研究级科学推理、SEAL-0搜索推理、IFBench指令遵循、MolBench-Bind分子科学等基准上超过了Kimi-K2.6、DeepSeek-V4-Pro等万亿参数模型。但在机器学习工程（MLE-Bench-Lite）上与顶级商业模型仍有约20至30个百分点的差距，主要原因是该类任务需要跨越数十次实验的持续决策和长期记忆，而这正是当前训练体系的薄弱环节。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.