网易首页 > 网易号 > 正文 申请入驻

清华突破:AI实现高效精准推理

0
分享至


这项由清华大学计算机科学与技术系的文浩明、白宇昱等研究人员完成的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.25176v1),为大型推理模型的训练带来了全新思路。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能飞速发展的今天,大型语言模型已经能够处理复杂的数学题、编程任务和逻辑推理。然而,这些模型在"思考"过程中往往显得异常啰嗦,就像一个话痨学生,明明几步就能解决的问题,却要絮絮叨叨写上几千个字。这种现象不仅浪费计算资源,还增加了使用成本。更令人困惑的是,当研究人员试图让这些模型"闭嘴",限制它们的输出长度时,模型的准确率往往会大幅下降,仿佛话说得少了就不会思考了。

清华大学的研究团队想出了一个巧妙的解决方案,他们称之为SIRI(Scaling Iterative Reinforcement Learning with Interleaved Compression)。这个方法的核心思想就像教导一个学生学会"张弛有度"——有时候要求学生简明扼要地回答问题,锻炼其精准表达能力;有时候又允许学生充分发挥,展开详细论述。通过这种"收缩-扩张"的交替训练,模型最终学会了在保持高准确率的同时大幅减少废话。

实验结果令人惊喜。在数学竞赛题AIME24的测试中,使用SIRI方法训练的1.5B参数模型,不仅准确率提升了43.2%,同时还将输出的文字数量减少了46.9%。这就像一个学生不仅考试成绩提高了,答题时间还缩短了一半,真正做到了事半功倍。

一、模型"话痨"问题的根源与挑战

当前的大型推理模型在解决问题时,就像一个思维活跃但表达冗余的学生。它们会进行大量的"内心独白"——反复验证答案、探索不同路径、甚至重复已经得出的结论。这种现象被称为"测试时扩展",虽然有助于提高准确率,但也带来了严重的效率问题。

举个简单的例子,当我们要求模型计算2+3=?时,一个正常的模型可能会直接回答5。但是经过强化学习训练的推理模型可能会这样回答:"让我来计算2+3。首先,我知道2是一个正整数,3也是一个正整数。加法是一种基本的算术运算。2+3意味着我需要将2和3结合起来。我可以从2开始,然后加上3。2+1=3,3+1=4,4+1=5。所以2+3=5。让我验证一下这个答案:5-3=2,这是正确的。因此,2+3=5。"

这种冗长的推理过程在简单问题上显得多余,但在复杂的数学证明或编程任务中,这种详细的思考过程确实有助于避免错误。问题在于,模型往往无法自己判断什么时候该详细思考,什么时候该简洁回答。

之前的研究人员尝试过多种方法来解决这个问题。有些研究采用"长度惩罚"的方式,在训练时对过长的回答进行惩罚,就像老师告诉学生"答案要简洁"。还有些研究直接设置输出长度上限,强制模型在指定字数内完成回答,就像限时考试一样。然而,这些方法都面临一个共同的困境:模型的准确率会显著下降。看起来,要么接受模型的啰嗦,要么接受其准确率的降低,似乎没有两全其美的办法。

这种困境的根本原因在于,传统的训练方法是"一刀切"的。它们要么始终鼓励模型详细思考,要么始终要求模型简洁回答,缺乏灵活性。就像一个老师要么总是要求学生写详细的论文,要么总是要求学生只写一句话总结,这样的教学方式显然不够合理。

二、SIRI方法的核心创新:动态的"张弛有度"

清华研究团队提出的SIRI方法,最大的创新在于引入了"动态长度调度"的概念。这就像一个智慧的老师,会根据学习进度动态调整对学生的要求。

SIRI方法的训练过程可以比作培养一个优秀辩手的过程。在训练的某个阶段,教练会严格限制辩手的发言时间,迫使其学会在有限时间内抓住要点、精准表达。这个阶段被称为"压缩阶段"。在另一个阶段,教练会放宽时间限制,允许辩手充分展开论述、探索各种论证路径。这个阶段被称为"扩张阶段"。

更巧妙的是,SIRI方法将这两个阶段有机地交替进行。在压缩阶段,模型被迫在较短的输出长度内完成推理任务,这迫使它学会识别和保留最关键的推理步骤,剔除冗余的思考过程。在扩张阶段,模型又获得了充分的"思考空间",可以基于之前学到的精简推理模式进一步探索和优化。

这种交替训练的效果是渐进式的改善。每经过一轮"压缩-扩张"循环,模型的表现都会有所提升。就像一个学生先学会了简洁表达,然后在此基础上学会了深度思考,再回过头来进一步精炼表达,如此循环往复,逐步达到既简洁又准确的理想状态。

研究团队设计了三种不同的长度调度策略。第一种是"阶梯式调度",就像开关灯一样,突然从允许长输出切换到要求短输出,再突然切换回来。第二种是"余弦式调度",长度限制的变化是平滑的,就像一天中阳光强度的自然变化。第三种是"阶梯-余弦混合调度",结合了前两种的优点,既有平滑的过渡,又有稳定的高低长度平台期。

实验结果显示,640步长的余弦调度效果最好。这个周期长度确保了模型在压缩阶段有足够时间适应短输出要求,在扩张阶段又有足够空间探索新的推理模式。就像一个完整的学期,既有紧张的期中考试阶段,也有相对宽松的期末复习阶段。

三、训练过程的精妙设计:如何实现"事半功倍"

SIRI方法的训练过程设计得如同一场精心编排的学习马拉松。整个过程分为多个迭代周期,每个周期都包含压缩和扩张两个阶段,就像呼吸一样自然而有节奏。

在压缩阶段,模型面临的挑战类似于"电报式写作"的训练。就像过去发电报要按字收费,迫使人们用最少的字表达最多的信息一样,模型在这个阶段被严格限制输出长度。研究团队将最大输出长度从16384个token(大约相当于一万多个汉字)压缩到8192个token(大约五千多个汉字)。

这种压缩并不是简单的截断,而是通过强化学习的奖励机制来实现。模型只有在指定长度内给出正确答案才能获得奖励,如果超出长度限制,即使答案正确也得不到奖励。这就像一个严格的考试,不仅要答对,还要在规定时间内完成,培养了模型的"时间观念"和效率意识。

在扩张阶段,限制被放宽,模型重新获得了充足的"思考空间"。但这时的模型已经不是之前那个啰嗦的模型了,它在压缩阶段学会了精准定位关键信息,因此即使有了更多空间,也能更有效地利用这些空间进行深度思考,而不是无意义的重复。

研究团队观察到一个有趣的现象:模型的输出长度变化总是滞后于调度器的设定。当调度器要求模型缩短输出时,模型并不会立即响应,而是需要100-200个训练步骤才能适应新的长度要求。这就像一个人改变说话习惯需要时间一样,模型也需要时间来调整其内在的推理模式。

这种滞后效应实际上是有益的,它给了模型充分的适应时间,避免了因为突然的要求变化而导致的性能急剧下降。就像一个好的健身教练不会突然大幅增加训练强度,而是循序渐进地调整训练计划。

四、实验验证:数据说话的说服力

研究团队在多个权威数学竞赛数据集上验证了SIRI方法的效果,结果令人印象深刻。他们使用的基础模型是DeepSeek-R1-Distill-Qwen,分别测试了1.5B和7B两个不同规模的版本。

在最具挑战性的AIME24数学竞赛题上,SIRI方法训练的1.5B模型表现惊人。与原始模型相比,SIRI-low版本(经过三次迭代压缩训练的版本)的准确率从28.2%提升到40.4%,提升幅度达到43.2%。更令人惊喜的是,模型的平均输出长度从12333个token降低到7093个token,减少了42.4%。这就像一个学生不仅考试成绩从28分提高到40分,答题时间还从原来的2小时缩短到1.5小时。

SIRI-high版本(经过扩张阶段优化的版本)的表现更加出色,准确率达到43.6%,同时平均输出长度控制在10049个token。虽然比SIRI-low版本稍长,但仍然比原始模型短了18.5%,而准确率提升幅度达到54.6%。

在其他测试集上,SIRI方法同样表现优异。在AIME25数据集上,SIRI-high版本的准确率达到32.2%,比原始模型的21.5%提升了近50%。在相对简单的AMC数学竞赛题上,准确率从61.8%提升到75.9%,在MATH500数据集上从82.4%提升到88.4%。

更重要的是,研究团队引入了一个新的评估指标:准确率-压缩比(Accuracy-CR ratio),用来综合评估模型在准确性和效率方面的整体改进。SIRI方法在这个指标上表现最优,达到0.47,远超其他比较方法。这个数字意味着SIRI方法在提升准确率和减少输出长度方面取得了最佳的平衡。

五、深入机制分析:为什么SIRI如此有效

为了理解SIRI方法成功的内在机制,研究团队进行了深入的行为分析。他们发现,SIRI训练主要影响了模型的"回溯验证"行为,这是一个关键发现。

通过分析模型在不同训练阶段使用特定词汇的频率,研究团队发现了有趣的规律。代表回溯和验证的词汇(如"等等"、"再检查一下")在压缩阶段使用频率显著降低,而在扩张阶段又会增加。相比之下,代表一般推理的词汇(如"因此"、"计算")的使用频率基本保持稳定。

这表明SIRI方法主要优化的是模型的"质疑和验证"行为,而不是基础的推理能力。在压缩阶段,模型学会了减少不必要的反复验证和回溯,更加直接地进行推理。在扩张阶段,模型又恢复了适度的验证行为,但这种验证变得更加有针对性和高效。

从信息论的角度来看,研究团队还分析了模型输出的熵值变化。他们发现,在压缩阶段,模型的输出熵值会下降,表明模型的回答变得更加确定和集中。在扩张阶段,熵值又会适度上升,表明模型重新获得了探索多种可能性的能力。但整个过程中,熵值始终保持在一个稳定的范围内,没有出现崩塌现象,这说明模型的多样性得到了很好的保持。

这种熵值的周期性变化类似于一个人在思考问题时的心理状态变化。当面临严格的时间限制时,人会快速收敛到最可能正确的答案;当时间充裕时,人又会重新考虑各种可能性。SIRI方法成功地在模型中复现了这种自然的认知模式。

六、方法的普适性:不同规模模型的表现

SIRI方法的另一个重要优势是其良好的普适性。研究团队在不同规模的模型上都验证了方法的有效性,从1.5B参数的小型模型到7B参数的中型模型,SIRI都能带来显著的改进。

在7B模型上,SIRI方法的改进幅度虽然相对较小(因为大模型本身的基础性能已经很好),但仍然非常明显。原始7B模型在AIME24上的准确率为53.5%,经过SIRI训练后提升到57.1%,同时输出长度从10306个token减少到8585个token。这种改进对于大模型来说已经相当不错,因为大模型的性能提升通常比小模型更加困难。

更重要的是,SIRI方法在不同难度的任务上都表现稳定。在相对简单的AMC和MATH500数据集上,方法能够保持高准确率的同时大幅减少输出长度。在困难的AIME24和AIME25数据集上,方法能够显著提升准确率,同时实现适度的长度压缩。这种一致性表明SIRI方法捕捉到了推理过程中的一般性规律,而不是针对特定任务的偶然优化。

研究团队还比较了SIRI方法与其他长度压缩方法的效果。传统的长度惩罚方法(如DAST)和"思考/不思考"切换方法(如AdaptThink)在某些指标上可能表现不错,但往往会在其他指标上有所牺牲。只有SIRI方法能够在准确率和效率两个维度上都取得显著改进,真正实现了"鱼与熊掌兼得"。

七、技术细节与实现挑战

SIRI方法虽然概念简单,但在实际实现中涉及许多技术细节。研究团队采用了改进的强化学习算法GRPO(Group Relative Policy Optimization),这是一种比传统PPO算法更适合大型语言模型训练的方法。

在奖励函数设计上,研究团队采用了"长度截断奖励"机制。具体来说,只有当模型在指定长度内给出正确答案时才能获得奖励。如果模型的输出超过了长度限制,即使最终答案正确,也会被截断并被视为错误答案。这种严格的奖励机制迫使模型学会在有限空间内完成推理。

长度调度器的设计也经过了精心优化。研究团队发现,调度周期的长度对训练效果有重要影响。太短的周期(如320步)会导致模型在压缩阶段性能急剧下降,来不及恢复就又进入下一轮压缩。太长的周期虽然避免了性能下降,但训练效率较低。640步的周期长度经过实验验证是最优的选择。

在实际训练中,研究团队使用了分布式训练系统,1.5B模型使用8块H100 GPU,7B模型使用16块H100 GPU。整个训练过程需要大约2000个训练步骤,相当于3-4天的连续训练时间。这种训练成本相比传统方法并没有显著增加,但效果提升明显。

八、实际应用价值与影响

SIRI方法的成功不仅仅是学术研究的突破,更有着重要的实际应用价值。在当前AI服务商业化的背景下,计算成本是一个关键考量因素。API调用通常按照输入和输出的token数量收费,SIRI方法能够在提升准确率的同时减少输出长度,这直接意味着使用成本的降低。

对于企业用户来说,SIRI训练的模型能够提供更高质量的服务。在数学教育、代码生成、逻辑推理等需要精确答案的场景中,更高的准确率意味着更少的错误和返工。同时,更简洁的输出也提升了用户体验,减少了阅读和理解的负担。

从环境保护的角度来看,SIRI方法也具有积极意义。AI模型的能耗主要来自于计算量,而输出长度的减少直接对应于计算量的降低。大规模部署SIRI训练的模型,可以显著减少数据中心的能耗,这对于实现绿色AI具有重要意义。

对于AI研究社区来说,SIRI方法提供了一个新的研究范式。它表明,通过巧妙的训练策略设计,可以同时优化多个看似冲突的目标。这种思路可能被推广到其他AI任务中,如图像生成、语音合成等,为整个AI领域的发展提供新的启发。

研究团队已经将训练好的模型公开发布,使得其他研究者和开发者可以直接使用或在此基础上进一步改进。这种开放的研究态度有助于加速整个领域的进步,让更多人能够受益于这项技术突破。

说到底,SIRI方法解决的是AI系统中一个看似矛盾的问题:如何让模型既聪明又简洁。这个问题的解决不仅提升了AI系统的实用性,也为我们理解智能本身提供了新的视角。真正的智能也许不在于能够产生多么复杂的思考过程,而在于能够在恰当的时候选择恰当的思考深度。SIRI方法让我们看到,通过合理的学习策略,AI系统确实可以学会这种"智慧的简洁"。

这项研究的意义远不止于技术层面的改进。它告诉我们,在AI迅速发展的今天,我们不应该只追求模型的规模和复杂度,更应该关注如何让AI系统变得更加高效和实用。正如古人所说,"大道至简",最高明的技术往往体现在看似简单却深刻有效的解决方案中。SIRI方法正是这样一个例子,它用相对简单的训练策略解决了困扰AI社区已久的复杂问题,这本身就是一种令人钦佩的智慧。

Q&A

Q1:SIRI方法是什么?它是如何工作的?

A:SIRI是清华大学开发的一种AI模型训练方法,全称是"交替压缩的迭代强化学习"。它的核心思想是在训练过程中交替进行"压缩"和"扩张"两个阶段。压缩阶段限制模型的输出长度,迫使其学会精准表达;扩张阶段放宽限制,让模型充分思考。通过这种循环训练,模型最终学会了在保持高准确率的同时大幅减少冗余内容。

Q2:SIRI方法的训练效果有多好?

A:实验结果非常显著。在数学竞赛AIME24测试中,使用SIRI方法训练的1.5B参数模型准确率提升了43.2%,同时输出文字减少了46.9%。在其他测试集上也有类似的改进,真正实现了"又快又准"的效果。更重要的是,这种改进在不同规模的模型上都得到了验证。

Q3:SIRI方法对普通用户有什么实际好处?

A:对普通用户来说,SIRI训练的模型意味着更好的使用体验和更低的成本。首先,模型回答更加简洁明了,减少了阅读负担;其次,更高的准确率意味着更少的错误答案;最后,由于输出长度减少,API调用成本也会降低。这对于需要大量使用AI服务的企业和个人用户都是实实在在的好处。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝乌克兰地面部队攻击莫斯科!摧毁俄军防空阵地

曝乌克兰地面部队攻击莫斯科!摧毁俄军防空阵地

项鹏飞
2026-01-12 21:45:02
恭喜接财!1月16日起这3个生肖被财神盯上,横财滚滚富到过年

恭喜接财!1月16日起这3个生肖被财神盯上,横财滚滚富到过年

毅谈生肖
2026-01-15 11:54:09
钱再多有什么用?44岁演唱会上站不起来的周渝民,给所有人提了醒

钱再多有什么用?44岁演唱会上站不起来的周渝民,给所有人提了醒

动物奇奇怪怪
2026-01-15 10:58:36
54岁黎姿太平山跑步被偶遇!穿塑身裤遛狗,身材线条惊艳全网

54岁黎姿太平山跑步被偶遇!穿塑身裤遛狗,身材线条惊艳全网

行者聊官
2026-01-15 09:03:50
一位资深班主任发现,那些悄悄变好的孩子,父母都在做这4件事

一位资深班主任发现,那些悄悄变好的孩子,父母都在做这4件事

新东方家庭教育
2026-01-06 10:06:36
杨本芬:60年婚姻有性无爱,丈夫不出轨无家暴,却被精神凌虐

杨本芬:60年婚姻有性无爱,丈夫不出轨无家暴,却被精神凌虐

跳跳历史
2026-01-10 11:36:59
国务院国资委披露80多家央企负责人2024年度薪酬信息

国务院国资委披露80多家央企负责人2024年度薪酬信息

新京报
2026-01-14 19:52:03
董路,孙继海一较高下的方式,面向全国青训教练直播训练示范课

董路,孙继海一较高下的方式,面向全国青训教练直播训练示范课

足球分析员
2026-01-15 11:05:03
伊朗宣布暂时关闭领空,外媒预警:美军或24小时内采取军事行动

伊朗宣布暂时关闭领空,外媒预警:美军或24小时内采取军事行动

凤凰卫视
2026-01-15 10:15:06
广州放开摩托加油,就离解禁不远了?

广州放开摩托加油,就离解禁不远了?

楼市前线
2026-01-14 21:01:16
米亚托维奇:皇马最大的症结不在于教练,而是球队缺少主心骨

米亚托维奇:皇马最大的症结不在于教练,而是球队缺少主心骨

懂球帝
2026-01-15 07:41:06
最新民调出炉,江启臣大胜杨琼璎;张亚中刚被重用,就炮轰郑丽文

最新民调出炉,江启臣大胜杨琼璎;张亚中刚被重用,就炮轰郑丽文

临云史策
2026-01-14 18:04:47
泰国铁路工地事故已致32人死亡 当地公司表态担责

泰国铁路工地事故已致32人死亡 当地公司表态担责

新京报
2026-01-15 08:11:13
火箭4连败,杜兰特11中4低迷,申京13+4+5难挽败局

火箭4连败,杜兰特11中4低迷,申京13+4+5难挽败局

小犙拍客在北漂
2026-01-14 11:08:09
姚振华实名举报常熟市相关人员及单位,80亿资产被“骨折价”拍卖!

姚振华实名举报常熟市相关人员及单位,80亿资产被“骨折价”拍卖!

A活着
2026-01-14 16:22:02
美国政府批准 向中国出口 英伟达H200芯片

美国政府批准 向中国出口 英伟达H200芯片

每日经济新闻
2026-01-14 08:12:01
51票对50票!美国参议院否决限制特朗普战争权议案

51票对50票!美国参议院否决限制特朗普战争权议案

新京报
2026-01-15 08:28:04
开拓者官宣,再次下放杨瀚森!后脑勺已无大碍,迫切想证明自己!

开拓者官宣,再次下放杨瀚森!后脑勺已无大碍,迫切想证明自己!

篮球看比赛
2026-01-15 11:46:37
你老公“免死金牌”怎么来的?网友:跟婆婆吵多凶 都感恩一辈子

你老公“免死金牌”怎么来的?网友:跟婆婆吵多凶 都感恩一辈子

夜深爱杂谈
2025-12-24 16:45:13
杨勇儿子披露:父亲晚年经常梦到毛主席,梦中高呼‘毛主席万岁’

杨勇儿子披露:父亲晚年经常梦到毛主席,梦中高呼‘毛主席万岁’

大运河时空
2026-01-14 12:25:02
2026-01-15 12:51:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6880文章数 546关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

时尚
教育
数码
家居
公开课

最时髦的单品,难道不是背肌吗?

教育要闻

航海类专业赢麻了!交通运输部2025拟录697人,多名专科生上岸

数码要闻

曜越钢炼S370 WS机箱上架:木纹装饰前面板,299元

家居要闻

自在自宅 个性自由

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版