腾讯团队破解AI推理"探索枯竭"难题：低概率"推理火花"原来是关键|数学|探索性|正则化|ai推理|知名企业

腾讯团队破解AI推理"探索枯竭"难题：低概率"推理火花"原来是关键

2025-11-12 22:38:05　来源: 至顶AI实验室

北京举报

分享至

当你和朋友聊天时想要换个话题，可能会突然冒出"等等"、"不过"这样的词汇，这些看似随意的表达其实在悄悄引导着对话的方向。令人惊讶的是，人工智能在进行数学推理时也有类似的现象。腾讯LLM部门的研究团队最近发现，那些在AI生成过程中出现概率很低的特定词汇，竟然是维持AI持续思考和探索新思路的关键所在。

这项由腾讯LLM部门的黄冠华、徐廷强等研究人员领导的研究发表于2025年10月，论文编号为arXiv:2510.03222v1。研究团队包括来自清华大学、北京大学和香港中文大学的学者，有兴趣深入了解的读者可以通过该编号查询完整论文。他们的发现不仅解决了一个困扰AI训练领域已久的技术难题，更为我们理解AI如何进行创造性思维提供了全新视角。

**一、AI推理训练遭遇的"思维枯竭"困境**

想象你正在教一个学生解数学题。起初学生很有创造力，会尝试各种不同的解题思路，但随着练习的进行，学生逐渐变得墨守成规，只会用最安全、最常见的方法，再也不愿意尝试新的解题路径。这就是目前AI推理训练中面临的核心问题。

在强化学习与可验证奖励(RLVR)的训练过程中，AI模型会像学生一样逐渐失去探索精神。具体表现为"策略熵"的快速衰减，说人话就是AI的创造性和多样性急剧下降，最终导致性能停滞甚至崩溃。这种现象就像一个原本思维活跃的学生，慢慢变成了只会照本宣科的机器人。

以往的研究团队试图通过各种方法来维持AI的"思维活跃度"，比如强制增加输出的随机性，或者限制某些更新操作。然而这些方法就像是给一个已经失去创造力的学生喝咖啡提神，治标不治本，甚至可能让情况变得更糟。

**二、"推理火花"的惊人发现**

腾讯研究团队通过深入分析发现，问题的根源在于一类被他们称为"推理火花"的特殊词汇正在被系统性地消除。这些推理火花包括"等等"、"不过"、"也许"等看似不起眼但实际上具有重要作用的词汇。

这些词汇的特点是出现概率很低，但功能非常重要。它们就像思维的转折点，能够引导AI从一种思路转向另一种思路，开启全新的推理路径。比如当AI在解数学题时遇到困难，出现"等等"这个词往往意味着它要重新审视问题，尝试不同的解题角度。

研究团队通过大量数据分析发现了一个惊人的规律：在未经训练的原始模型中，这些推理火花词汇丰富多样，但在RLVR训练过程中，它们会被逐步"熄灭"。原因是训练算法倾向于惩罚那些导致错误答案的路径，而推理火花词汇因为引导AI探索未知领域，经常与错误答案相关联，因此被过度惩罚。

更有趣的是，研究团队发现，简单地增加输出随机性不仅无法解决问题，反而会放大无关噪声。这就像是为了让学生更有创造力而让他们随机说话，结果只会产生更多无意义的内容，而真正有价值的创新思路依然被埋没。

**三、巧妙的"低概率正则化"解决方案**

面对这个复杂问题，研究团队开发了一种名为"低概率正则化"(Lp-Reg)的创新方法。这种方法的核心思想非常巧妙：既要保护有价值的推理火花，又要避免放大无关噪声。

他们的策略可以比作一个精明的园丁。传统方法就像是为了保护花朵而给整个花园浇水，结果花朵没保住，杂草却疯长。而Lp-Reg方法则像是一个会识别的园丁，能够区分哪些是珍贵的花朵(推理火花)，哪些是无用的杂草(噪声)，然后精准地保护花朵，清除杂草。

具体来说，Lp-Reg首先构建一个"过滤器"，通过概率阈值筛选掉那些被认为是噪声的低概率词汇。这个过滤器基于一个重要观察：在低概率范围内，有意义的探索性词汇（如"等等"）的平均概率始终高于无关噪声词汇（如"成本"）。

接下来，系统会重新分配被过滤词汇的概率质量给剩余的候选词汇，创建一个"去噪代理分布"。在这个新分布中，有价值的推理火花词汇的相对概率被放大，而噪声被抑制。

最后，通过前向KL散度，系统对偏离这个代理分布的行为进行惩罚，从而有选择地保护那些在去噪分布中被保留的低概率词汇。这种方法既保护了推理火花，又避免了强制模型严格模仿启发式目标分布的问题。

**四、突破性的实验结果**

实验结果令人振奋。研究团队在五个广泛使用的数学基准测试中验证了Lp-Reg的效果，包括AIME24、AIME25、MATH-500、OlympiadBench和Minerva Math等。

在Qwen3-14B-Base模型上，Lp-Reg实现了60.17%的平均准确率，比之前最好的方法提高了2.66%。更重要的是，该方法能够支持稳定的在线策略训练长达约1000步，而在这个训练阶段，许多基于熵控制的方法已经崩溃。

实验还揭示了一个有趣现象：Lp-Reg呈现出一种动态的、多阶段的熵轨迹。训练初期，熵会下降，因为模型在学习核心推理模式；随着性能改善，熵逐渐增加以促进探索；最终在健康范围内稳定下来。这种适应性行为源自置信度感知的正则化，它有选择地保护推理火花，而不放大低概率的无关噪声。

研究团队还进行了详细的对比分析，发现传统的高熵正则化方法往往导致人工的、持续的熵增加，而Lp-Reg则实现了更自然、更有效的探索-利用平衡。

**五、深层机制的科学洞察**

为了理解Lp-Reg成功的深层原因，研究团队进行了细致的机制分析。他们发现，低概率词汇和高熵词汇之间存在根本性差异。

通过词云统计分析，研究人员发现低概率词汇中频繁包含有意义的探索性标记，如"但是"、"等等"、"也许"、"或者"等，这些词汇经常标志着推理轨迹的转变。相比之下，高熵词汇主要由常见的功能性术语（如"sqrt"、"times"）或格式化符号（如换行符）组成，它们几乎没有探索性意图。

更深入的分析显示，在标准GRPO训练下，推理火花词汇被限制在低熵、高概率区域，这意味着它们只在模型已经非常确信时才出现，失去了引导不确定性探索的功能。而添加熵损失虽然改变了这种行为，但方式不受控制，导致一些推理火花词汇出现在极高熵水平，产生的多样性缺乏有用的探索信号。

Lp-Reg方法则实现了更平衡的动态效果。推理火花词汇在从高概率到低概率的广泛熵值范围内被采样，这种平衡防止了它们在负反馈下的概率崩溃，同时保持了它们对推理的信息性贡献。

**六、对AI发展的重要意义**

这项研究的意义远超技术层面的改进。它揭示了AI系统中一个previously overlooked但极其重要的现象：看似微不足道的低概率词汇实际上承载着维持AI创造性思维的重要功能。

这一发现挑战了传统上关于AI训练的一些假设。以往人们认为提高整体熵（增加随机性）就能改善探索能力，但这项研究证明，关键不在于增加整体的随机性，而在于精准地保护那些具有特殊功能的低概率元素。

从更广泛的角度来看，这项研究为我们理解复杂AI系统的内在机制提供了新的视角。它表明，AI的"思维过程"比我们想象的更加精妙，那些看似不重要的细节可能恰恰是整个系统正常运转的关键。

此外，该研究还为未来的AI训练方法指明了方向。传统的训练方法往往采用"一刀切"的策略，而这项研究展示了精细化、有针对性的训练策略的重要性。未来的AI训练可能需要更多地考虑不同类型tokens的特殊功能，而不是简单地追求整体性能指标。

说到底，这项研究告诉我们，AI的智能不仅体现在它能生成正确答案，更体现在它能保持探索未知的能力。那些低概率的"推理火花"就像人类思维中的灵感闪现，虽然罕见，但正是它们让AI能够突破固有思维模式，产生真正的创新。腾讯团队的这一发现，不仅解决了一个具体的技术问题，更为我们理解和改进AI的创造性思维能力开辟了新的道路。对于那些关心AI如何变得更聪明、更有创造力的人来说，这无疑是一个重要的里程碑。

Q&A

Q1：什么是推理火花？它们在AI思考中起什么作用？

A：推理火花是指AI在推理过程中出现概率很低但功能重要的词汇，如"等等"、"不过"、"也许"等。这些词汇就像思维的转折点，能够引导AI从一种思路转向另一种思路，开启全新的推理路径，是维持AI探索精神和创造性的关键要素。

Q2：低概率正则化方法是如何保护推理火花的？

A：低概率正则化方法通过构建智能过滤器，首先识别并过滤掉无意义的噪声词汇，然后重新分配概率质量给有价值的推理火花词汇，最后通过KL散度惩罚来保护这些重要的低概率词汇不被训练过程消除。这就像一个精明的园丁，能够区分珍贵花朵和无用杂草，精准保护有价值的内容。

Q3：这项研究对AI发展有什么重要意义？

A：这项研究揭示了AI创造性思维的重要机制，表明维持AI探索能力的关键不是增加整体随机性，而是精准保护具有特殊功能的低概率元素。它挑战了传统AI训练的假设，为开发更智能、更有创造力的AI系统指明了新方向，特别是在需要复杂推理的任务中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.