网易首页 > 网易号 > 正文 申请入驻

中文大学团队用"免问"方法让AI推理更聪明更省钱

0
分享至

这项由中国科学技术大学、中文大学(深圳)以及华为诺亚方舟实验室的刘万龙、徐俊晓、余飞、林雨康等研究人员联合完成的研究发表于2025年6月15日,论文编号为arXiv:2506.12860v1,有兴趣深入了解的读者可以通过GitHub链接https://github.com/LWL-cpu/Question-Free-Fine-Tuning访问完整研究资料。

想象一个这样的场景:你的朋友总是对任何问题都给出冗长复杂的回答,即使你只是问"今天几点了",他也要从时间的物理概念开始解释起。虽然这种详细回答在复杂问题上很有帮助,但对于简单问题来说实在太浪费时间了。现在的人工智能推理模型就面临着同样的问题。

当前最先进的人工智能推理模型,比如OpenAI的o1和DeepSeek-R1,采用了所谓的"长思维链"推理方式。这就像是让AI进行深度思考,通过自我反思、错误纠正和多种解决策略探索来解决复杂问题。这种方法在处理困难的数学题或编程问题时表现出色,但问题在于,即使面对简单问题,这些模型也会产生不必要的复杂推理过程,就像用大炮打蚊子一样。

研究团队发现了一个有趣的现象:传统的"短思维链"推理模式在简单问题上既高效又准确,而"长思维链"推理模式虽然在困难问题上表现更好,但会产生大量冗余的推理步骤。具体来说,对于那些短推理就能解决的简单问题,长推理模式会产生高达74.8%的冗余内容;而对于困难问题,短推理模式的准确率会下降75.1%。

面对这种情况,研究团队提出了一个巧妙的解决方案,他们称之为"问题自由微调"方法。这个方法的核心思想非常简单却很聪明:在训练AI模型时,不给它看问题,只让它学习推理过程本身。

这种做法就像教一个学生掌握解题技巧,但不告诉他具体要解什么题。当学生遇到新问题时,他会本能地先尝试简单直接的方法,只有当遇到困难或发现错误时,才会启动更复杂的深度思考模式。

传统的训练方法是让AI学习"问题→长推理过程"的固定搭配,结果导致AI对任何问题都使用长推理,造成了所谓的"推理模式覆盖"现象。而新方法避免了这种固定搭配的学习,保留了AI原有的简洁推理能力,同时又让它掌握了深度反思的技巧。

研究团队设计了一个巧妙的评估指标来衡量AI的"自适应推理能力"。他们引入了"推理适应性科恩卡帕系数",这个指标衡量的是AI选择的推理模式与问题难度之间的匹配度。简单来说,就是看AI是否足够聪明,能在简单问题上用简单方法,在困难问题上用复杂方法。

为了验证这个假设,研究团队进行了一个很有意思的实验。他们在训练过程中逐渐增加包含问题的样本比例,观察AI的推理模式变化。结果发现,即使只有0.1%的样本包含问题,AI使用短推理的比例就从40.95%急剧下降到13.24%。这就像是一滴墨水落入清水中,很快就把整杯水染黑了。

新方法的工作原理可以从两个角度来理解。从训练角度看,它相当于一种特殊的"空问题监督学习"。由于问题是空的,模型不会学习任何具体的问题到长推理的映射关系,因此保留了原有的短推理能力。从另一个角度看,它也可以看作是一种专门的"持续预训练",专门增强模型的长推理能力,包括反思推理能力。

在推理阶段,这种方法让AI默认使用短推理模式。但是,由于模型已经学会了在长推理情境下的反思行为,当它在短推理过程中遇到不确定性或错误时,这种反思能力会自然迁移过来,促使模型转向更仔细的长推理模式。

为了验证方法的有效性,研究团队在多个数学数据集上进行了全面测试。他们使用了三个高质量的蒸馏数据集:S1.1包含1000个精心策划的问题,LIMO包含817个高质量训练样本,Bespoke-Stratos-17k包含17000个推理例子。所有这些数据集的回答都是从DeepSeek-R1模型中蒸馏而来,确保了训练数据的高质量。

实验结果令人振奋。在保持与传统方法相当性能的同时,新方法将平均回答长度减少了超过50%。更重要的是,推理适应性科恩卡帕系数从传统方法的1.8-8.8大幅提升到28.0-47.7,这意味着AI的自适应推理能力得到了显著改善。

研究团队还发现,新方法在不同难度的数据集上表现出了不同程度的效率提升。在相对简单的GSM8K和MATH数据集上,模型能够更多地保留短推理模式,因此实现了更显著的计算节省。而在更具挑战性的AIME25数据集上,模型需要更多地依赖长推理模式,因此计算节省相对较少,但这正好证明了方法的自适应性。

为了更深入地理解这种自适应推理的工作机制,研究团队进行了详细的案例分析。他们发现,新方法训练的模型在推理过程中展现出了四种主要的长推理行为模式。

第一种是"验证行为",模型会系统性地检查中间结果。比如模型会说"让我再次检查一下",然后重新验证之前的计算步骤。第二种是"回溯行为",当模型检测到错误时,会明确地修改之前的步骤。第三种是"子目标设定行为",模型会将复杂问题分解成多个可管理的子步骤。第四种是"反向链接行为",模型会从期望的结果出发,反向推导解决方案。

特别值得注意的是,验证行为在所有难度级别上都是最常见的,平均占长推理行为的53%。这表明模型主要是在对之前的步骤感到不确定时才触发长推理模式。回溯行为占26%,而且随着问题难度的增加,回溯行为的比例也逐渐增加,这说明模型在更困难的问题上更频繁地反思和更新自己的步骤。

研究团队还测试了新方法在几个特殊场景下的表现。首先是"噪声场景",模拟真实世界中训练数据质量参差不齐的情况。他们设计了四个递进的噪声级别:正常数据、错误结论、不完整推理和完全不相关的答案。结果显示,当噪声级别从第一级增加到第四级时,传统方法的性能从76.5%急剧下降到0.4%,几乎完全失去了推理能力。而新方法即使在最严重的噪声条件下仍能保持78.6%的性能,展现出了惊人的鲁棒性。

在"域外场景"测试中,研究团队在GPQA和MMLU-Pro等非数学数据集上评估了模型的泛化能力。结果表明,新方法在这些完全不同的领域中都表现出了比传统方法更好的性能。更有趣的是,在专门用于检测模型幻觉的LLM-AggreFact基准测试中,传统方法训练的模型出现了明显的性能下降,特别是7B规模的模型,而新方法训练的模型甚至略微提升了基准性能,说明它不会加剧幻觉风险。

在"低资源场景"中,研究团队模拟了高质量数据稀缺的情况。他们从S1.1数据集中随机选择了10个数据点,每个数据点用DeepSeek-R1蒸馏出10个回答,总共100个训练实例。在这种极端稀缺的数据条件下,新方法始终优于传统方法。传统方法主要依赖长推理模式,但由于训练数据不足,这些模式没有得到充分内化,导致整体性能有限。而新方法不仅保留了原有的短推理模式,还能在需要时适应性地使用长推理,因此在低资源场景下表现更好。

研究团队还将新方法与其他"长变短"方法进行了比较。这些方法包括SFT-Shortest(直接在最短正确回答上进行监督微调)、DPO-Shortest和SimPO-Shortest(使用偏好优化选择短回答)、以及O1-Pruner(使用强化学习减少推理长度)。比较结果显示,虽然一些方法能实现更大的长度减少,但往往以显著的性能下降为代价。新方法在效率和性能之间实现了更好的平衡,在Accuracy-Efficiency Score这个综合指标上表现最佳。

为了验证方法的通用性,研究团队还在不同的模型架构上进行了测试。除了Qwen架构,他们还在Phi4-mini-Instruct上验证了方法的有效性。结果表明,新方法在不同架构上都能显著提升推理适应性,同时保持相当的整体性能,说明这种方法不受特定模型架构的限制。

从更深层次来看,这项研究揭示了一个重要的训练原理:新方法的独特优势在于它能够在不覆盖模型默认模式的前提下注入新的推理模式。传统的监督微调通常会覆盖默认模式,而新方法能够实现多种模式的无缝集成和自适应触发。

研究团队认为,这种方法的应用前景非常广阔。未来他们计划探索注入更多专门化的推理模式,比如面向工具的模式(如API调用模式、代码模式)或者为特定任务定制的模式。这将进一步增强模型的灵活性和适应性,为高级模式集成和利用开辟新的途径。

当然,这项研究也有一些局限性。新方法虽然能够有效地平衡短推理和长推理,但并不能有效优化长推理本身的效率。因此,在一些极具挑战性的问题上,比如AIME24和AIME25这样的高难度数学竞赛题目,过度思考的问题仍然存在。为了解决这个问题,研究团队进一步探索了将新方法与各种"长变短"方法相结合的可能性,初步结果显示这种组合能够进一步提升长推理的效率。

说到底,这项研究为我们提供了一个全新的思路来训练更智能的AI系统。与其让AI对所有问题都用同一种方法,不如教会它根据问题的难易程度自动选择最合适的推理策略。这不仅能大大提高计算效率,还能让AI的行为更接近人类的思维方式——简单问题快速解决,复杂问题深入思考。

归根结底,这种"问题自由微调"方法就像是给AI装上了一个智能的"思维开关",让它知道什么时候该快速行动,什么时候该慢慢思考。在AI技术日益普及的今天,这种既保证效果又节省资源的方法显然具有重要的实用价值。对于普通用户来说,这意味着未来的AI助手将变得更加智能和高效,既能快速回答简单问题,又能深入分析复杂问题,而且还不会浪费不必要的计算资源。

Q&A

Q1:什么是"问题自由微调"方法?它是如何工作的? A:问题自由微调是一种新的AI训练方法,在训练时不给AI看具体问题,只让它学习推理过程。这样AI就能保持原有的简洁推理能力,同时学会在遇到困难时启动深度思考模式,就像教学生掌握解题技巧但不限定具体题目类型。

Q2:这种方法会不会降低AI的准确性? A:不会。实验结果显示,新方法在保持与传统方法相当准确性的同时,将平均回答长度减少了超过50%。更重要的是,它让AI变得更加智能,能够根据问题难度自动选择合适的推理策略。

Q3:普通用户能否体验到这种技术带来的改进? A:目前这项研究已经开源,研究代码可在GitHub上获取。虽然还需要时间才能广泛应用到消费级产品中,但它为未来开发更智能、更高效的AI助手奠定了基础,最终用户将体验到更快速、更节能的AI服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
手握全球10万亿矿产,年进账7227亿!力压华为的中国“隐形首富”

手握全球10万亿矿产,年进账7227亿!力压华为的中国“隐形首富”

文史道
2024-08-05 17:10:46
不是危言耸听!假如中美开战,中国输了,全世界都得回到石器时代

不是危言耸听!假如中美开战,中国输了,全世界都得回到石器时代

我心纵横天地间
2026-02-01 13:13:56
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
1985年许世友病逝,遗体肿胀装不进棺材,尤太忠急调两棵百年楠木,南京城为此惊动了派出所

1985年许世友病逝,遗体肿胀装不进棺材,尤太忠急调两棵百年楠木,南京城为此惊动了派出所

寄史言志
2025-12-12 21:42:05
善恶有报,宋小宝整容成瘾、抛妻娶粉,谁都救不了得意忘形的他

善恶有报,宋小宝整容成瘾、抛妻娶粉,谁都救不了得意忘形的他

孤酒老巷QA
2026-02-02 18:14:30
申花前锋官宣留洋,加入西乙队,曾入选国足,战非洲杯

申花前锋官宣留洋,加入西乙队,曾入选国足,战非洲杯

桃叶渡春
2026-02-01 13:30:42
相亲吃饭后男方失联,女方花8000元独自买单,律师:男子行为或构成不当得利

相亲吃饭后男方失联,女方花8000元独自买单,律师:男子行为或构成不当得利

环球网资讯
2026-02-01 13:52:32
江西18岁男孩被母亲宠坏,面对青春期困扰,母亲的做法让人意外

江西18岁男孩被母亲宠坏,面对青春期困扰,母亲的做法让人意外

夜阑故事集
2025-05-15 16:40:38
气运之子!38岁成豪门主帅,2年带队西部第二,如今成全明星主帅

气运之子!38岁成豪门主帅,2年带队西部第二,如今成全明星主帅

大卫的篮球故事
2026-02-02 20:29:33
台湾命理师:徐熙媛活不过50岁,只因她被迫做了一件不该做的事

台湾命理师:徐熙媛活不过50岁,只因她被迫做了一件不该做的事

吴学华看天下
2025-02-06 14:34:05
为啥老人炒菜都放葱姜蒜等调料,而年轻人却觉得这些调料可有可无

为啥老人炒菜都放葱姜蒜等调料,而年轻人却觉得这些调料可有可无

向航说
2026-01-29 00:55:03
28岁川大博士在意大利失联十余天,室友发声:他平时非常刻苦,每天早上出门学习到深夜10点,节假日也不休息

28岁川大博士在意大利失联十余天,室友发声:他平时非常刻苦,每天早上出门学习到深夜10点,节假日也不休息

极目新闻
2026-02-02 22:50:31
一场雨下了1000万年,冥古宙时期的地球上,究竟发生了什么?

一场雨下了1000万年,冥古宙时期的地球上,究竟发生了什么?

观察宇宙
2026-01-30 22:38:57
2026年春节红包大变!别再给200和500,聪明人都改包这3数

2026年春节红包大变!别再给200和500,聪明人都改包这3数

牛锅巴小钒
2026-02-01 19:55:50
刘晓庆哽咽致谢:张纪中当年帮过我,我与王晓玉曾经领了结婚证

刘晓庆哽咽致谢:张纪中当年帮过我,我与王晓玉曾经领了结婚证

银河史记
2026-02-02 12:29:49
重磅!加州将开征“里程税”,两车家庭每年或缴4200美元

重磅!加州将开征“里程税”,两车家庭每年或缴4200美元

大洛杉矶LA
2026-02-02 06:45:18
辽宁营商环境焕新三记

辽宁营商环境焕新三记

人民网
2026-01-27 09:02:38
拿600万,被姜伟泽打爆!关键时刻不敢投,国手后卫原形毕露

拿600万,被姜伟泽打爆!关键时刻不敢投,国手后卫原形毕露

弄月公子
2026-02-02 22:22:23
上海纪梵希酒会上:30岁章若楠大浓妆亮相,网红挨个合照险被艳压

上海纪梵希酒会上:30岁章若楠大浓妆亮相,网红挨个合照险被艳压

嫹笔牂牂
2026-01-31 07:07:41
股民站稳扶好!两部委发声,信号很强烈,A股或将重现惊人历史行情了

股民站稳扶好!两部委发声,信号很强烈,A股或将重现惊人历史行情了

股市皆大事
2026-02-02 07:50:06
2026-02-03 01:56:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15836文章数 49688关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

家居
本地
旅游
房产
艺术

家居要闻

现代几何彩拼 智焕童梦居

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

解锁勐泐 4 大玩法,读懂真正的傣家风情!

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

艺术要闻

2026年,中国最值得期待的20个新建筑

无障碍浏览 进入关怀版