网易首页 > 网易号 > 正文 申请入驻

腾讯团队破解AI推理"探索枯竭"难题:低概率"推理火花"原来是关键

0
分享至


当你和朋友聊天时想要换个话题,可能会突然冒出"等等"、"不过"这样的词汇,这些看似随意的表达其实在悄悄引导着对话的方向。令人惊讶的是,人工智能在进行数学推理时也有类似的现象。腾讯LLM部门的研究团队最近发现,那些在AI生成过程中出现概率很低的特定词汇,竟然是维持AI持续思考和探索新思路的关键所在。

这项由腾讯LLM部门的黄冠华、徐廷强等研究人员领导的研究发表于2025年10月,论文编号为arXiv:2510.03222v1。研究团队包括来自清华大学、北京大学和香港中文大学的学者,有兴趣深入了解的读者可以通过该编号查询完整论文。他们的发现不仅解决了一个困扰AI训练领域已久的技术难题,更为我们理解AI如何进行创造性思维提供了全新视角。

**一、AI推理训练遭遇的"思维枯竭"困境**

想象你正在教一个学生解数学题。起初学生很有创造力,会尝试各种不同的解题思路,但随着练习的进行,学生逐渐变得墨守成规,只会用最安全、最常见的方法,再也不愿意尝试新的解题路径。这就是目前AI推理训练中面临的核心问题。

在强化学习与可验证奖励(RLVR)的训练过程中,AI模型会像学生一样逐渐失去探索精神。具体表现为"策略熵"的快速衰减,说人话就是AI的创造性和多样性急剧下降,最终导致性能停滞甚至崩溃。这种现象就像一个原本思维活跃的学生,慢慢变成了只会照本宣科的机器人。

以往的研究团队试图通过各种方法来维持AI的"思维活跃度",比如强制增加输出的随机性,或者限制某些更新操作。然而这些方法就像是给一个已经失去创造力的学生喝咖啡提神,治标不治本,甚至可能让情况变得更糟。

**二、"推理火花"的惊人发现**

腾讯研究团队通过深入分析发现,问题的根源在于一类被他们称为"推理火花"的特殊词汇正在被系统性地消除。这些推理火花包括"等等"、"不过"、"也许"等看似不起眼但实际上具有重要作用的词汇。

这些词汇的特点是出现概率很低,但功能非常重要。它们就像思维的转折点,能够引导AI从一种思路转向另一种思路,开启全新的推理路径。比如当AI在解数学题时遇到困难,出现"等等"这个词往往意味着它要重新审视问题,尝试不同的解题角度。

研究团队通过大量数据分析发现了一个惊人的规律:在未经训练的原始模型中,这些推理火花词汇丰富多样,但在RLVR训练过程中,它们会被逐步"熄灭"。原因是训练算法倾向于惩罚那些导致错误答案的路径,而推理火花词汇因为引导AI探索未知领域,经常与错误答案相关联,因此被过度惩罚。

更有趣的是,研究团队发现,简单地增加输出随机性不仅无法解决问题,反而会放大无关噪声。这就像是为了让学生更有创造力而让他们随机说话,结果只会产生更多无意义的内容,而真正有价值的创新思路依然被埋没。

**三、巧妙的"低概率正则化"解决方案**

面对这个复杂问题,研究团队开发了一种名为"低概率正则化"(Lp-Reg)的创新方法。这种方法的核心思想非常巧妙:既要保护有价值的推理火花,又要避免放大无关噪声。

他们的策略可以比作一个精明的园丁。传统方法就像是为了保护花朵而给整个花园浇水,结果花朵没保住,杂草却疯长。而Lp-Reg方法则像是一个会识别的园丁,能够区分哪些是珍贵的花朵(推理火花),哪些是无用的杂草(噪声),然后精准地保护花朵,清除杂草。

具体来说,Lp-Reg首先构建一个"过滤器",通过概率阈值筛选掉那些被认为是噪声的低概率词汇。这个过滤器基于一个重要观察:在低概率范围内,有意义的探索性词汇(如"等等")的平均概率始终高于无关噪声词汇(如"成本")。

接下来,系统会重新分配被过滤词汇的概率质量给剩余的候选词汇,创建一个"去噪代理分布"。在这个新分布中,有价值的推理火花词汇的相对概率被放大,而噪声被抑制。

最后,通过前向KL散度,系统对偏离这个代理分布的行为进行惩罚,从而有选择地保护那些在去噪分布中被保留的低概率词汇。这种方法既保护了推理火花,又避免了强制模型严格模仿启发式目标分布的问题。

**四、突破性的实验结果**

实验结果令人振奋。研究团队在五个广泛使用的数学基准测试中验证了Lp-Reg的效果,包括AIME24、AIME25、MATH-500、OlympiadBench和Minerva Math等。

在Qwen3-14B-Base模型上,Lp-Reg实现了60.17%的平均准确率,比之前最好的方法提高了2.66%。更重要的是,该方法能够支持稳定的在线策略训练长达约1000步,而在这个训练阶段,许多基于熵控制的方法已经崩溃。

实验还揭示了一个有趣现象:Lp-Reg呈现出一种动态的、多阶段的熵轨迹。训练初期,熵会下降,因为模型在学习核心推理模式;随着性能改善,熵逐渐增加以促进探索;最终在健康范围内稳定下来。这种适应性行为源自置信度感知的正则化,它有选择地保护推理火花,而不放大低概率的无关噪声。

研究团队还进行了详细的对比分析,发现传统的高熵正则化方法往往导致人工的、持续的熵增加,而Lp-Reg则实现了更自然、更有效的探索-利用平衡。

**五、深层机制的科学洞察**

为了理解Lp-Reg成功的深层原因,研究团队进行了细致的机制分析。他们发现,低概率词汇和高熵词汇之间存在根本性差异。

通过词云统计分析,研究人员发现低概率词汇中频繁包含有意义的探索性标记,如"但是"、"等等"、"也许"、"或者"等,这些词汇经常标志着推理轨迹的转变。相比之下,高熵词汇主要由常见的功能性术语(如"sqrt"、"times")或格式化符号(如换行符)组成,它们几乎没有探索性意图。

更深入的分析显示,在标准GRPO训练下,推理火花词汇被限制在低熵、高概率区域,这意味着它们只在模型已经非常确信时才出现,失去了引导不确定性探索的功能。而添加熵损失虽然改变了这种行为,但方式不受控制,导致一些推理火花词汇出现在极高熵水平,产生的多样性缺乏有用的探索信号。

Lp-Reg方法则实现了更平衡的动态效果。推理火花词汇在从高概率到低概率的广泛熵值范围内被采样,这种平衡防止了它们在负反馈下的概率崩溃,同时保持了它们对推理的信息性贡献。

**六、对AI发展的重要意义**

这项研究的意义远超技术层面的改进。它揭示了AI系统中一个previously overlooked但极其重要的现象:看似微不足道的低概率词汇实际上承载着维持AI创造性思维的重要功能。

这一发现挑战了传统上关于AI训练的一些假设。以往人们认为提高整体熵(增加随机性)就能改善探索能力,但这项研究证明,关键不在于增加整体的随机性,而在于精准地保护那些具有特殊功能的低概率元素。

从更广泛的角度来看,这项研究为我们理解复杂AI系统的内在机制提供了新的视角。它表明,AI的"思维过程"比我们想象的更加精妙,那些看似不重要的细节可能恰恰是整个系统正常运转的关键。

此外,该研究还为未来的AI训练方法指明了方向。传统的训练方法往往采用"一刀切"的策略,而这项研究展示了精细化、有针对性的训练策略的重要性。未来的AI训练可能需要更多地考虑不同类型tokens的特殊功能,而不是简单地追求整体性能指标。

说到底,这项研究告诉我们,AI的智能不仅体现在它能生成正确答案,更体现在它能保持探索未知的能力。那些低概率的"推理火花"就像人类思维中的灵感闪现,虽然罕见,但正是它们让AI能够突破固有思维模式,产生真正的创新。腾讯团队的这一发现,不仅解决了一个具体的技术问题,更为我们理解和改进AI的创造性思维能力开辟了新的道路。对于那些关心AI如何变得更聪明、更有创造力的人来说,这无疑是一个重要的里程碑。

Q&A

Q1:什么是推理火花?它们在AI思考中起什么作用?

A:推理火花是指AI在推理过程中出现概率很低但功能重要的词汇,如"等等"、"不过"、"也许"等。这些词汇就像思维的转折点,能够引导AI从一种思路转向另一种思路,开启全新的推理路径,是维持AI探索精神和创造性的关键要素。

Q2:低概率正则化方法是如何保护推理火花的?

A:低概率正则化方法通过构建智能过滤器,首先识别并过滤掉无意义的噪声词汇,然后重新分配概率质量给有价值的推理火花词汇,最后通过KL散度惩罚来保护这些重要的低概率词汇不被训练过程消除。这就像一个精明的园丁,能够区分珍贵花朵和无用杂草,精准保护有价值的内容。

Q3:这项研究对AI发展有什么重要意义?

A:这项研究揭示了AI创造性思维的重要机制,表明维持AI探索能力的关键不是增加整体随机性,而是精准保护具有特殊功能的低概率元素。它挑战了传统AI训练的假设,为开发更智能、更有创造力的AI系统指明了新方向,特别是在需要复杂推理的任务中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一条狗引发的命案后续:案发当晚视频曝光,律师透露一审重大进展

一条狗引发的命案后续:案发当晚视频曝光,律师透露一审重大进展

吭哧有力
2025-11-13 15:13:22
随着葡萄牙0-2,法国4-0,意大利2-0,世预赛积分榜:欧洲2队直通

随着葡萄牙0-2,法国4-0,意大利2-0,世预赛积分榜:欧洲2队直通

侃球熊弟
2025-11-14 04:53:50
江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

奇思妙想草叶君
2025-11-13 22:05:49
提前谢幕 C罗踢完最后1场世预赛 2重击:无缘世界杯首轮+主场告别

提前谢幕 C罗踢完最后1场世预赛 2重击:无缘世界杯首轮+主场告别

风过乡
2025-11-14 06:29:29
全运会乒乓:11月14日赛程公布!马龙有望登场,刘诗雯等4人争冠

全运会乒乓:11月14日赛程公布!马龙有望登场,刘诗雯等4人争冠

全言作品
2025-11-14 00:08:55
C罗肘击染红,葡萄牙0-2爆冷!无缘提前直通世界杯,仍排小组第一

C罗肘击染红,葡萄牙0-2爆冷!无缘提前直通世界杯,仍排小组第一

侃球熊弟
2025-11-14 04:42:31
李阳痛批董宇辉英语差!每一句都有语法错误,宇辉道歉并解释原因

李阳痛批董宇辉英语差!每一句都有语法错误,宇辉道歉并解释原因

小海娱计
2025-11-13 20:45:08
木村拓哉全家福罕见曝光,和工藤静香结婚25年,终于被日本人认可

木村拓哉全家福罕见曝光,和工藤静香结婚25年,终于被日本人认可

译言
2025-11-13 10:55:28
荒诞!诈骗2.7万亿的恶魔佘智江,居然是我们媒体口里的慈善家

荒诞!诈骗2.7万亿的恶魔佘智江,居然是我们媒体口里的慈善家

公子麦少
2025-11-13 20:42:17
血腥且残酷,库尔斯克之战重演了

血腥且残酷,库尔斯克之战重演了

中国新闻周刊
2025-11-13 17:55:52
中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

易玄
2025-11-13 06:25:22
炸裂!北大科学家宣布,男性多生子女能降低死亡风险,网友炸了

炸裂!北大科学家宣布,男性多生子女能降低死亡风险,网友炸了

吃瓜盟主
2025-11-13 20:46:03
400万亿什么时候来?等待我们的是什么?

400万亿什么时候来?等待我们的是什么?

混知房产
2025-11-13 20:41:06
山东建行“取款报警”事件,央视出手了!

山东建行“取款报警”事件,央视出手了!

鸣金网
2025-11-13 11:24:28
我家狗比你家人值钱:狗咬人被摔死,狗主人带9人破门而入遭反杀

我家狗比你家人值钱:狗咬人被摔死,狗主人带9人破门而入遭反杀

汉史趣闻
2025-11-13 09:00:16
比缺芯还惨,美日锁死90%精密制造,中国仿造都难

比缺芯还惨,美日锁死90%精密制造,中国仿造都难

沧海旅行家
2025-11-13 16:39:19
反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

火山诗话
2025-11-14 07:08:14
3300亿瓦特!超上海纽约东京迪拜电量总和!美国核聚变又有突破?

3300亿瓦特!超上海纽约东京迪拜电量总和!美国核聚变又有突破?

徐德文科学频道
2025-11-13 21:41:00
耻辱!非洲雄狮无缘世界杯:0-1输鱼腩队 对手再赢1场每人奖700万

耻辱!非洲雄狮无缘世界杯:0-1输鱼腩队 对手再赢1场每人奖700万

风过乡
2025-11-14 07:46:19
全网力挺!狗主人带9人砸门被邻居反杀,律师:这就是正当防卫

全网力挺!狗主人带9人砸门被邻居反杀,律师:这就是正当防卫

吃瓜局
2025-11-13 15:07:57
2025-11-14 10:19:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
606文章数 150关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

日本驻澳大使:日本非常愿意继续与中方对话 以免误解

头条要闻

日本驻澳大使:日本非常愿意继续与中方对话 以免误解

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

10月各线城市商品住宅销售价格环比下降

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

本地
数码
亲子
家居
军事航空

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

数码要闻

AMD FSR Redstone 实装,《COD:黑色行动 7》支持 FSR 光线再生

亲子要闻

我的小小男子汉长大了~

家居要闻

莫奈时间 重构先锋概念

军事要闻

美军多海域再现“航母真空”

无障碍浏览 进入关怀版