网易首页 > 网易号 > 正文 申请入驻

中科大与科大讯飞突破:AI实现思考与工具使用融合

0
分享至

这项由中国科学技术大学的张奇凯、胡鹏飞、潘奕诚等研究者,以及科大讯飞研究院的张振荣、马杰峰、张建舒等学者共同完成的突破性研究,发表于2025年1月。完整论文可通过arXiv:2509.13761v1访问。这项研究首次真正解决了大语言模型在精确计算上的根本性弱点,就像给一个聪明但计算能力有限的学生配备了计算器和各种工具。

回到最基本的问题:现在的AI语言模型虽然能进行复杂的对话和推理,但在需要精确计算的数学问题上经常出错。这就好比一个博学的教授,能够滔滔不绝地讲述数学理论,但在计算具体的数值时却会犯低级错误。这种现象的根本原因在于,语言模型本质上是通过预测下一个词来工作的,它们更擅长处理语言和概念,而不是精确的数值运算。

研究团队将这种困境比作让一个文科生去解高难度的数学物理题。虽然这个文科生可能理解题目的含义,甚至知道解题的大致思路,但在具体的计算步骤上却频频出错。为了解决这个问题,最自然的想法就是让这个文科生学会使用计算器、函数表和其他数学工具。同样道理,研究团队开发了THOR系统,教会AI模型在推理过程中调用外部工具来完成精确计算。

THOR的名字来自"Tool-Integrated Hierarchical Optimization via RL"(基于强化学习的工具集成分层优化),这个系统的核心创新在于三个方面的突破。

**一、革命性的数据构建方法:让AI学会"什么时候该用工具"**

传统的方法就像让学生死记硬背什么时候用计算器,效果很差且不够灵活。THOR采用了一种更加智能的方法,叫做TIRGen(工具集成推理数据生成管道)。这个系统就像一个智能的数学老师和助教的组合。

在这个系统中,"演员"(Actor)负责进行数学推理,就像一个学生在解题时的思考过程。而"评论家"(Critic)则像一个经验丰富的助教,能够识别哪些推理步骤可以用代码工具来精确执行。当演员写出"接下来我需要计算这个复杂的积分"时,评论家会说:"等等,这个计算步骤我们可以用Python代码来精确完成。"

这种方法的巧妙之处在于,它不是简单地告诉AI"遇到计算就用工具",而是让AI学会判断:"这个问题的哪个部分真的需要工具辅助,哪个部分我自己的推理就足够了。"就像一个熟练的木工,知道什么时候用手工,什么时候用电动工具。

通过这种方法,研究团队成功生成了高质量的训练数据。对于非推理模型,他们生成了29,217个短推理样本;对于推理模型,则生成了57,598个长推理样本。这些数据的质量远超传统方法,因为它们完全贴合模型的实际能力和思考方式。

**二、分层优化策略:既看全局又抓细节**

THOR的第二个重大创新是采用了分层的强化学习策略。传统的方法就像只看整道题的最终答案对不对,但THOR同时关注整个解题过程和每个具体计算步骤的正确性。

研究团队发现了一个重要规律:如果AI在解题过程中某个工具调用成功了(比如一段代码正确执行并给出了结果),那么这道题最终答对的可能性会大大增加。这个发现就像发现了"如果一个学生的计算步骤都是正确的,那么最终答案正确的概率就很高"一样直观但重要。

基于这个发现,THOR设计了双重奖励机制。在宏观层面,系统会根据最终答案的正确性给出奖励,就像期末考试的总分。在微观层面,系统还会根据每个工具调用是否成功给出即时反馈,就像平时作业的每道小题都有分数。

这种分层优化就像训练一个篮球运动员:既要看他整场比赛的表现,也要分析他每次投篮、每次传球的技术动作。通过这种细致的训练,AI不仅学会了解决复杂问题的整体策略,还掌握了每个具体计算步骤的技巧。

**三、智能自我纠错:从错误中实时学习**

THOR的第三个突破是引入了自我纠错机制。当AI在推理过程中调用工具失败时(比如代码出错),系统不会简单地放弃,而是会智能地回退并尝试其他方法。

这个过程就像一个学生在考试中发现计算错误后的反应。聪明的学生不会整道题重做,而是回到出错的地方,重新思考这一步该怎么算。THOR也是如此:当一段代码执行失败时,它会回到生成这段代码之前的推理步骤,重新思考这个问题,然后生成新的解决方案。

这种机制的巧妙之处在于,它让AI能够从每次错误中学习,而且这种学习是实时的。传统方法中,AI只能从训练数据中学习,但THOR让AI在实际解题过程中也能不断改进自己的方法。

研究团队在多个数学竞赛数据集上测试了THOR的效果,结果令人惊叹。在AIME 2024竞赛中,经过THOR训练的7B参数模型达到了50.0%的正确率,而同等规模的基准模型只有26.7%。在AIME 2025中,THOR达到了33.3%,基准模型只有13.3%。更令人印象深刻的是,在AMC 2023竞赛中,THOR的正确率达到了81.3%,远超基准模型的57.4%。

这些数字背后的意义非常深远。AIME和AMC都是美国高中数学竞赛,题目难度很高,能够在这些竞赛中取得好成绩的学生通常都是数学天才。THOR能够在这些竞赛中达到如此高的正确率,意味着它已经具备了接近顶尖高中生的数学解题能力。

更有趣的是,THOR的提升不仅限于数学领域。研究团队发现,经过THOR训练的模型在代码生成任务上也有显著提升。在HumanEval+编程竞赛中,THOR相比基准模型提升了2.2%;在MBPP+中提升了3.5%;在LiveCodeBench中更是提升了2.4%。这说明学会使用工具的能力是可以迁移的,就像学会使用计算器的学生往往在其他需要精确计算的科目上也会表现更好。

研究团队还进行了详细的分析,发现THOR的成功有几个关键因素。通过统计分析,他们证实了"工具调用成功是最终答案正确的强预测因子"这一假设。具体来说,如果AI在解题过程中的代码都能正确执行,那么最终答案正确的概率会显著增加。这个发现为分层优化策略提供了强有力的理论支撑。

同时,研究团队发现自我纠错机制对性能提升也很关键。当允许AI进行最多4次纠错尝试时,性能会有显著提升。这就像给学生提供了检查和修正错误的机会,最终的答题质量自然会更高。

从技术实现角度看,THOR的设计非常巧妙。它不需要额外的大型外部模型来评估结果质量,而是直接利用工具执行的反馈作为奖励信号。这就像直接用计算器的结果来判断计算是否正确,简单直接且准确可靠。

这种设计还有一个重要优势:它大大降低了推理时的计算成本。传统的方法往往需要生成多个候选答案,然后用复杂的评估模型来选择最佳答案。而THOR通过实时的工具反馈,能够在生成过程中就及时纠正错误,避免了大量无效计算。

研究团队测试发现,THOR在推理过程中的token消耗量实际上比基准模型更少。对于非推理模型,THOR减少了6%的token消耗;对于推理模型,更是减少了13%。这意味着THOR不仅解题更准确,效率也更高。

THOR的成功还体现在它的通用性上。研究团队在多种不同规模的模型上都验证了THOR的有效性,从1.5B参数的轻量级模型到8B参数的大型模型,THOR都能带来显著提升。这说明THOR的方法不是针对特定模型的技巧,而是一种通用的能力提升方案。

特别值得注意的是,THOR在推理模型上的表现尤其出色。推理模型是最新一代的AI模型,它们在内部有一个"思考"过程,然后再给出最终答案。THOR成功地将工具使用能力集成到了这种思考过程中,让AI能够在思考过程中就调用工具来验证和计算。

这种集成就像教会一个学生在做题时边思考边使用工具,而不是思考完了再去用工具。这种方式更加自然和高效,也更接近人类专家解决复杂问题的方式。

从更广阔的视角来看,THOR的成功代表了AI发展的一个重要趋势:从纯粹的语言模型向能够与外部世界交互的智能体发展。传统的语言模型就像一个博学但与世隔绝的学者,只能依靠自己的知识来回答问题。而THOR展示了一种新的可能性:AI可以像人类专家一样,在需要时主动寻求工具的帮助,从而解决更加复杂和精确的问题。

这种能力的重要性不仅体现在数学领域。在科学研究、工程设计、金融分析等需要精确计算的领域,能够智能调用工具的AI将会发挥越来越重要的作用。THOR开创的这种方法,可能会成为未来AI发展的一个重要方向。

说到底,THOR的突破在于它解决了AI领域的一个根本性矛盾:如何让擅长语言理解的AI也能进行精确计算。通过巧妙的训练方法和智能的工具集成,THOR让AI既保持了强大的推理能力,又获得了精确计算的技能。这就像培养出了一个既有文科生的思辨能力,又有理科生计算技能的全才学生。

对于普通人来说,THOR的成功意味着未来的AI助手将能够更好地帮助解决日常生活中的数学问题。无论是帮孩子检查作业,还是协助进行复杂的财务计算,这样的AI将会变得更加可靠和实用。而对于教育工作者来说,THOR提供了一个很好的启示:最好的学习方式不是死记硬背,而是学会在适当的时候使用适当的工具,这种元认知能力可能比具体的知识技能更加重要。

Q&A

Q1:THOR是什么?它能解决什么问题?

A:THOR是中科大和科大讯飞联合开发的AI系统,全名叫"基于强化学习的工具集成分层优化"。它主要解决大语言模型在数学推理中计算不准确的问题,让AI学会在解题时智能地调用计算器、编程工具等外部工具,就像给学生配备了计算工具一样。

Q2:THOR在数学竞赛中表现如何?

A:THOR的表现非常出色。在美国高中数学竞赛AIME 2024中,THOR达到了50.0%的正确率,而同等规模的普通模型只有26.7%。在AMC 2023竞赛中更是达到了81.3%的正确率,远超普通模型的57.4%,基本达到了优秀高中生的水平。

Q3:THOR的技术创新主要体现在哪些方面?

A:THOR有三大创新:首先是TIRGen数据生成方法,让AI学会判断什么时候该用工具;其次是分层优化策略,既关注整体解题效果又重视每个计算步骤的准确性;最后是自我纠错机制,当工具调用失败时能够智能回退并尝试新方法,就像学生发现错误后重新思考一样。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西北地区首家苹果直营店终于要来了!

西北地区首家苹果直营店终于要来了!

XCiOS俱乐部
2026-04-12 12:35:02
最新战报!安洗莹救3局点惜败,王祉怡21-17创纪录,决赛1-1追平

最新战报!安洗莹救3局点惜败,王祉怡21-17创纪录,决赛1-1追平

刘姚尧的文字城堡
2026-04-12 15:26:01
4月10日起购车补贴落地!新能源、燃油车都能领,最高省3.7万

4月10日起购车补贴落地!新能源、燃油车都能领,最高省3.7万

蓝色海边
2026-04-11 02:38:51
豪门悲喜夜:AC米兰爆大冷0-3,利物浦2-0,拜仁5-0,巴塞罗那4-1

豪门悲喜夜:AC米兰爆大冷0-3,利物浦2-0,拜仁5-0,巴塞罗那4-1

侧身凌空斩
2026-04-12 03:02:23
骗走50亿被央视曝光!用小鲜肉的血抗衰,“捞金女王”这次真栽了

骗走50亿被央视曝光!用小鲜肉的血抗衰,“捞金女王”这次真栽了

梦录的西方史话
2026-04-11 15:35:02
湖人掘金杠上了,疑似轮休老詹打爵士,推严父进坑和恩怨无关

湖人掘金杠上了,疑似轮休老詹打爵士,推严父进坑和恩怨无关

兵哥篮球故事
2026-04-12 15:20:08
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
行程结束,郑丽文访陆画上句号,从北京临走之前,终于看到了答案

行程结束,郑丽文访陆画上句号,从北京临走之前,终于看到了答案

娱乐圈的笔娱君
2026-04-12 18:08:22
梵蒂冈教皇谴责美以:够了,别再炫耀武力!上帝不会祝福任何战争

梵蒂冈教皇谴责美以:够了,别再炫耀武力!上帝不会祝福任何战争

猪小艳吖
2026-04-12 18:42:31
陈丽华追悼会刚过,获赠百万豪礼的郭德纲,凭一个举动口碑上涨

陈丽华追悼会刚过,获赠百万豪礼的郭德纲,凭一个举动口碑上涨

萧壛记录风土人情
2026-04-11 14:40:57
这一次,“宠女无度”的贾平凹被扒了个底朝天,王朔的评价是对的

这一次,“宠女无度”的贾平凹被扒了个底朝天,王朔的评价是对的

揽星河的笔记
2026-04-10 20:02:37
曾保卫毛主席进京,1958年却连降十级,毛主席怒道:我要亲自过问

曾保卫毛主席进京,1958年却连降十级,毛主席怒道:我要亲自过问

历史龙元阁
2026-04-12 08:40:21
张雪峰被吐槽!一电力院校毕业生抱怨每月七八千元,收入未达预期

张雪峰被吐槽!一电力院校毕业生抱怨每月七八千元,收入未达预期

火山詩话
2026-04-12 11:39:13
郑丽文返台,大陆公布10项对台新政,台陆委会叫板,国民党回应

郑丽文返台,大陆公布10项对台新政,台陆委会叫板,国民党回应

DS北风
2026-04-12 16:32:28
争议?王大雷开球听到裁判哨声后顺势倒地 万名河南球迷一起国骂

争议?王大雷开球听到裁判哨声后顺势倒地 万名河南球迷一起国骂

风过乡
2026-04-12 12:23:41
向太劝醒年轻人:没200万存款别买车!自己只开二手车钱全投房产

向太劝醒年轻人:没200万存款别买车!自己只开二手车钱全投房产

观鱼听雨
2026-04-11 20:38:34
抵达北京!乒协出手,邓亚萍正式上任,新岗位曝光,孙颖莎发声

抵达北京!乒协出手,邓亚萍正式上任,新岗位曝光,孙颖莎发声

萌兰聊个球
2026-04-12 13:00:43
近100家A股上市公司发布2026年一季度业绩预告 13家净利同比预增上限超500%

近100家A股上市公司发布2026年一季度业绩预告 13家净利同比预增上限超500%

财联社
2026-04-12 18:50:16
“赌王”女儿何超蕸去世享年60岁,曾被父亲赞为最能帮忙的女儿,信德集团官网已变黑白;“赌王”17名子女已有3人离世

“赌王”女儿何超蕸去世享年60岁,曾被父亲赞为最能帮忙的女儿,信德集团官网已变黑白;“赌王”17名子女已有3人离世

极目新闻
2026-04-12 16:25:42
美军48架F-35距边境700公里,解放军强硬表态:敢来就轰

美军48架F-35距边境700公里,解放军强硬表态:敢来就轰

照亮你的前行之路
2026-04-11 15:51:05
2026-04-12 19:20:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7949文章数 560关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

女子将闺蜜6.8万紫貂大衣粘上粘鼠板 硬扯下来还撒谎

头条要闻

女子将闺蜜6.8万紫貂大衣粘上粘鼠板 硬扯下来还撒谎

体育要闻

五大联赛首冠出炉?拜仁或提前4轮卫冕德甲

娱乐要闻

46岁赵达官宣结婚!曾与殷桃谈婚论嫁

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
游戏
数码
时尚
房产

教育要闻

Q开头的单词!

突发!知名舅舅党爆料:Xbox游戏发布会将在下周举办

数码要闻

破壁机哪个牌子好?安全无毒材质是重点,揭秘TOP10家用哪种好

伊姐周六热推:电视剧《八千里路云和月》;综艺《乘风2026》......

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

无障碍浏览 进入关怀版