![]()
这项由新加坡国立大学余朝晨、普林斯顿大学杨凌教授等国际团队共同完成的研究发表于2025年1月,论文编号为arXiv:2510.11701v1,研究代号为"DemyAgent"。这项研究首次系统性地揭示了如何让AI智能体变得更加聪明和高效,就像教会一个学生如何正确使用工具来解决复杂问题一样。
目前的AI智能体就像一个刚学会使用计算器的学生。虽然它知道计算器能算数,但不知道什么时候该用、怎么用才最有效。有时它会在简单加法时频繁按计算器,有时又在复杂运算时忘记使用工具。这种现象在AI领域被称为"工具使用不当",严重影响了智能体的实际表现。
研究团队通过大量实验发现,让AI智能体学会正确使用工具的关键在于三个方面:给它提供真实的学习材料、采用恰当的训练方法,以及培养合适的思维模式。这就像培养一个优秀厨师需要真材实料的食谱、正确的烹饪技巧和恰当的料理节奏一样。
这项研究的突破性在于,他们开发的4B参数模型(相当于一个"轻量级"AI大脑)在数学竞赛AIME2024/2025上取得了70%以上的正确率,在科学问题测试GPQA-Diamond上达到58.5%的准确度,在编程挑战LiveCodeBench-v6中获得26.8%的成功率。更令人惊讶的是,这个"小脑袋"的表现竟然超过了许多参数量达到32B的"大脑袋"模型,证明了"聪明胜过蛮力"的道理。
一、真材实料才能培养真本事:数据质量的重要性
当我们教孩子学数学时,如果给他们看的都是拼凑起来的、不完整的解题过程,他们很难真正理解什么时候该用什么方法。AI智能体的学习也是如此。
传统的AI训练就像给学生看"拼接版"的解题过程。比如,原本是一道完整的几何题,训练材料却把中间的推理步骤删掉,直接插入"使用量角器测量"的指令。这种做法忽略了一个关键问题:学生(AI)需要知道为什么在这个时候使用量角器,而不是在那个时候。
研究团队做了一个对比实验,就像比较两种教学方法的效果。他们让两组AI学生分别使用"拼接版教材"和"完整版教材"学习。结果令人震撼:使用完整版教材的AI在AIME2025数学竞赛中的平均得分从3.65%跃升到29.79%,提升了超过8倍!更重要的是,它们的解题稳定性也大大提高,不再像以前那样忽好忽坏。
什么是"完整版教材"呢?研究团队精心制作了3000个真实完整的解题过程。每个过程都包含四个关键环节:问题分析阶段(确定哪些部分需要工具帮助)、谨慎执行阶段(使用工具时进行中间检查)、错误恢复阶段(当工具给出错误结果时如何调整)、自我反思阶段(使用工具前的再次确认)。
这就像教会学生不仅要知道如何使用计算器,还要知道什么时候用、用之前要想什么、用完后要检查什么、出错了怎么办。这种全方位的训练才能培养出真正会使用工具的智能体。
除了数据的完整性,多样性同样重要。研究团队发现,只让AI学数学题就像只让学生练习加法一样,会导致思维僵化。他们构建了一个包含数学、科学、编程等多领域问题的30000个样本的训练集。实验结果显示,使用多样化数据训练的AI在学习过程中保持了更高的"探索欲"——用专业术语叫"策略熵",就像一个好奇心旺盛的学生总是愿意尝试不同的解题方法。
更有趣的是,研究团队还发现了"因材施教"的重要性。不同能力的AI需要不同难度的训练材料。就像给初学者安排过难的题目会让他们失去信心一样,给基础较弱的AI安排太难的问题会让它的学习效果变差。研究团队开发了一套"智能匹配系统",根据每个AI的当前能力水平,为它量身定制训练材料的难度分布。
通过这种个性化匹配,原本学习困难的AI模型也开始稳步进步。实验数据显示,使用匹配后的训练材料,AI的平均得分显著提升,更重要的是,它开始获得更多的"正反馈"——也就是说,它做对题目的次数增加了,这为后续的强化学习提供了更好的基础。
二、训练有方才能事半功倍:算法优化的艺术
即使有了优质的学习材料,如果训练方法不当,AI智能体仍然可能学不好。这就像即使有了优秀的食谱,如果火候掌握不好,仍然做不出美味佳肴。
研究团队重点研究了一种叫做GRPO(Group Relative Policy Optimization)的训练算法。这个算法就像一个经验丰富的教练,知道什么时候该严格要求学生,什么时候该给学生更多自由发挥的空间。
他们发现了几个关键的训练技巧。第一个叫"放宽上限",就像给学生更大的试错空间。传统方法害怕AI"走偏",总是严格限制它的行为范围。但研究团队发现,在AI学会基础技能后,适当放宽限制反而能让它发现更好的解题方法。具体来说,他们把限制参数从0.20调整到0.28,这个看似微小的改变带来了显著的性能提升。
第二个技巧是"长度惩罚"。有些AI会写出特别冗长的解题过程,就像学生为了凑字数而废话连篇。研究团队设计了一套巧妙的奖惩机制:当AI的回答长度在合理范围内时不扣分,但当回答过长时,会逐渐扣分,如果严重超长就给予重罚。这样既不会抑制AI的表达,又能避免无意义的冗长。
第三个技巧涉及到"颗粒度控制"。这就像选择以单词为单位还是以句子为单位来评判学生的作文。研究团队发现,对于能力较强的AI,以单词为单位进行精细调整效果更好;而对于基础较弱的AI,以句子为单位的粗调方式更适合。
更深层的发现涉及"探索与利用的平衡"。在传统的AI训练中,随着学习的深入,AI往往会变得越来越"保守",只使用它最熟悉的方法,不再尝试新的可能性。但在智能体训练中,研究团队发现了一个有趣现象:当AI学会使用工具后,它的探索能力不但没有下降,反而有所提升。
这是因为工具使用为AI打开了新的可能性空间。就像学会使用计算器的学生不仅能算得更准,还敢于尝试更复杂的数学问题一样。实验数据显示,表现优异的AI模型在训练过程中同时提升了"尝试成功率"(pass@k)和"平均表现"(average@k),这在传统AI训练中是很难同时实现的。
研究团队还发现了"策略熵"(可以理解为AI的"好奇心"或"创新意愿")的重要作用。他们通过调节训练参数来观察AI的行为变化。结果发现,保持适度的策略熵对AI的学习效果至关重要。策略熵过低的AI会变得过于保守,只会机械地重复已知方法;策略熵过高的AI则会变得过于随意,缺乏稳定性。
最有趣的是,不同能力水平的AI需要不同的策略熵水平。基础较弱的AI需要更高的策略熵来帮助它跳出困境,而能力较强的AI则需要适度收敛策略熵以保持稳定性。这就像初学者需要多尝试不同方法来积累经验,而专家则需要专注于精进已掌握的技能。
三、思维模式决定最终高度:推理方式的选择
即使掌握了优质数据和高效算法,AI智能体最终的表现还取决于它采用什么样的思维模式来解决问题。研究团队发现,这个选择比想象中更加关键。
他们观察到AI智能体主要有两种工作模式。第一种是"频繁互动模式",就像一个过度依赖工具的学生,遇到任何问题都立刻求助于工具,思考时间很短,但工具调用很频繁。第二种是"深思熟虑模式",像一个成熟的问题解决者,会先仔细分析问题,制定解决策略,然后有针对性地使用工具。
通过大量实验,研究团队发现第二种模式明显更优。采用深思熟虑模式的AI不仅最终表现更好,而且工具使用效率更高。具体数据显示,这类AI的工具使用成功率超过70%,而频繁互动模式的AI成功率往往低于50%。
为什么会出现这种差异?研究团队的分析很有启发性。频繁互动模式的AI就像一个慌张的学生,遇到问题就急于寻求帮助,但由于缺乏深入思考,往往不知道该问什么问题或该用什么工具。结果就是频繁地调用工具,但得到的帮助有限,甚至有时会被错误的工具输出误导。
相比之下,深思熟虑模式的AI会花更多时间来理解问题的本质,识别哪些部分真正需要工具协助,然后制定清晰的工具使用计划。当它确实调用工具时,目标明确,问题精准,自然能获得更有价值的帮助。
这个发现挑战了一个常见误解:更多地使用工具并不一定带来更好的结果。质量胜过数量,智慧胜过勤奋。一个会思考的AI调用工具5次的效果,往往超过一个不会思考的AI调用工具20次的效果。
研究团队还探索了一个前沿话题:长链条推理模型(类似GPT-4的深度思考模式)在工具使用场景下的表现。他们使用了Qwen3-4B-Thinking-2507这样的长推理模型进行实验。
结果令人意外:这些原本在纯思维任务上表现优异的模型,在需要使用工具的场景下表现并不理想。它们倾向于过度依赖内部推理,很少主动使用外部工具。就像一个博学的学者,习惯了独立思考解决所有问题,反而不太愿意借助外部资源。
为了解决这个问题,研究团队尝试了一种"习惯重塑"的方法。他们先用包含工具使用的训练数据对这些长推理模型进行调整,教会它们在什么情况下应该使用工具。经过这种调整后,模型的表现有了明显改善,但仍然不如从一开始就平衡内部推理和工具使用的模型。
这个发现很有实践意义:在设计AI系统时,应该从一开始就考虑工具使用的需求,而不是在一个已经成熟的纯思维系统上"加装"工具使用功能。这就像学习一门语言,从小就接触双语环境的孩子往往比后来学第二语言的成人更加自然流畅。
研究团队通过对比不同推理模式发现,最有效的智能体会在问题分析、策略制定、工具选择、结果验证等环节之间找到最佳平衡。它们不会在每个小步骤都依赖工具,也不会完全忽视工具的价值,而是会根据问题的具体需求智能地选择何时独立思考、何时寻求工具帮助。
四、实战验证:小模型也能有大作为
为了验证这些发现的实际价值,研究团队开发了一个名为"DemyAgent-4B"的智能体模型。这个模型就像一个经过精心培训的学生,体现了所有研究成果的精髓。
DemyAgent-4B只有40亿个参数,在AI模型中算是"轻量级选手"。但它在多个高难度测试中的表现让人刮目相看。在AIME数学竞赛中,它在2024年的题目上取得了72.6%的正确率,在2025年题目上取得了70.0%的正确率。要知道,AIME是美国数学邀请赛,题目难度相当高,能达到这个水平已经超过了很多人类参赛者。
更令人惊讶的是,DemyAgent-4B的表现超过了许多参数量比它大得多的模型。比如,320亿参数的ReTool-32B在AIME2024上的得分是72.5%,几乎和DemyAgent-4B持平。这就像一个小学六年级的学生在数学竞赛中战胜了很多高中生,证明了"聪明的方法胜过蛮力堆砌"这一道理。
在科学问题测试GPQA-Diamond中,DemyAgent-4B获得了58.5%的准确率。这个测试包含研究生水平的物理、化学、生物问题,对AI的综合推理能力要求很高。能达到这个水平,说明AI不仅会使用工具,还能将工具使用与深度推理有机结合。
在编程挑战LiveCodeBench-v6中,DemyAgent-4B的pass@1得分为26.8%。虽然这个数字看起来不高,但要知道这是一次性成功率,也就是AI第一次尝试就能写出正确程序的概率。考虑到编程问题的复杂性和多样性,这个成绩已经相当不错了。
更重要的是,研究团队通过详细分析发现,DemyAgent-4B的成功不是靠运气,而是因为它真正学会了如何智能地使用工具。在解题过程中,它会合理分配时间在思考和工具使用之间,平均每个问题只调用几次工具,但每次调用都很有针对性,成功率很高。
研究团队还做了一个有趣的对比实验。他们让同样的模型分别在"有工具"和"无工具"两种模式下解题。结果发现,在有工具的情况下,模型不仅正确率更高,而且在处理复杂问题时表现更加稳定。这进一步证明了合理的工具使用确实能够增强AI的问题解决能力。
通过分析成功案例,研究团队发现DemyAgent-4B有几个显著特点。首先,它会在开始解题前进行充分的问题分析,识别哪些部分最适合使用工具;其次,它使用工具时目标明确,很少进行无意义的尝试;最后,它会对工具输出进行验证和整合,不会盲目依赖工具结果。
这些特点让DemyAgent-4B在各种测试中都表现出色,证明了研究团队提出的训练方法和设计理念的有效性。更重要的是,由于模型规模相对较小,它的部署和使用成本也比大型模型低得多,这为实际应用提供了很好的可行性。
说到底,这项研究告诉我们一个朴素而深刻的道理:在AI发展的道路上,巧妙的方法往往比蛮力更有效。通过精心设计的数据、恰当的训练方法和合理的推理模式,即使是相对小型的AI模型也能展现出令人惊叹的能力。
这就像武侠小说中的"四两拨千斤",关键不在于力量的大小,而在于技巧的精妙。DemyAgent-4B的成功为AI智能体的发展指出了一条新的道路:与其一味追求更大的模型规模,不如专注于提升模型的"智慧程度",让AI真正学会像人类一样灵活而高效地使用各种工具来解决复杂问题。
这项研究不仅在学术上具有重要价值,对实际应用也有很强的指导意义。随着这些技术的进一步完善和普及,我们有理由相信,未来的AI助手将变得更加智能、更加实用,真正成为人类工作和学习中的得力伙伴。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2510.1701v1查阅完整的研究报告。
Q&A
Q1:DemyAgent-4B相比其他AI模型有什么特别之处?
A:DemyAgent-4B只有40亿参数,属于轻量级AI模型,但它的表现却能媲美甚至超越320亿参数的大型模型。它的特别之处在于学会了如何智能地使用工具——不是频繁地调用工具,而是在深入分析问题后有针对性地使用工具,每次使用都很精准,成功率超过70%。这就像一个聪明的学生,不需要死记硬背就能考出好成绩。
Q2:什么是真实端到端轨迹数据,为什么比合成数据更重要?
A:真实端到端轨迹数据就像完整的解题过程录像,记录了从问题分析、工具选择、使用过程到结果验证的全部步骤。而传统的合成数据就像拼接的视频片段,缺少关键的决策过程。研究发现,使用真实数据训练的AI在数学竞赛中的得分能从3.65%提升到29.79%,提升了8倍多,因为它学会了何时、为何、如何使用工具,而不只是机械地模仿工具使用动作。
Q3:为什么说"深思熟虑模式"比"频繁互动模式"更好?
A:深思熟虑模式的AI会先仔细分析问题、制定策略,然后有选择地使用工具,就像经验丰富的医生会先详细了解病情再开药。而频繁互动模式就像慌张的新手,遇到问题就立刻求助,但往往不知道该问什么。实验显示,深思熟虑模式的工具使用成功率超过70%,而频繁互动模式只有不到50%,关键在于质量胜过数量,精准胜过盲目。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.