推理时扰动高熵词，增强LLM性能|实验|正确性

推理时扰动高熵词，增强LLM性能

2025-10-29 13:48:26　来源: 机器之心Pro

北京举报

分享至

本文第一作者杨震，香港科技大学（广州）博士生，研究方向是多模态理解与生成等。本文通讯作者陈颖聪，香港科技大学（广州）助理教授，主要研究课题包括生成模型、具身智能等。

随着对大语言模型的研究越来越深入，关于测试时间扩展 (test-time scaling) 的相关研究正迅速崭露头角。研究团队重新审视测试时行为，发现了一个简单但尚未得到充分探索的现象：LLM 推理时的不确定性高度局部化 —— 一小部分高熵词会显著影响输出的正确性。

正是基于这一关键观察，来自香港科技大学（广州）的研究团队提出了 Minimal Test-Time Intervention (MTI)，其主要包含了 Selective CFG intervention 与 Lightweight negative-prompt guidance 两种方法。MTI 能够在推理阶段无需额外训练，就提升大型语言模型的推理能力。

论文标题：Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
论文地址：https://arxiv.org/abs/2510.13940
Github（代码已开源）：https://github.com/EnVision-Research/MTI
Huggingface Paper：https://huggingface.co/papers/2510.13940

Selective CFG intervention：

减弱高熵词的不确定性

LLM 在多步推理中经常表现出链式不稳定性：几个步骤中的不确定性会放大并导致整个答案偏离轨道。为了找到这种不稳定性的原因，研究团队分析了 LLM 回答错误的问题，并发现错误回答的熵更高，而这主要是由回答中的高熵词导致的。为此，研究团队提出在高熵词上使用 Classifier-free Guidance (CFG) 以在降低不确定性的同时稳定推理过程，并能在保持高效率的同时提高性能。

Lightweight negative-prompt guidance：

复用 KV cache 并注入负向词，节省显存分配的同时维护更优的无条件空间

研究团队观察到，尽管 Selective CFG intervention 仅对高熵词进行操作，但是仍需为无条件预测支路分配一个新的 KV 缓存，这大大降低了现代 LLM 推理加速器的效率。比如，维护双 KV 缓存会削弱诸如 vllm 等框架的长上下文处理能力。此外，CFG 源自计算机视觉，其会在训练过程中引入无条件标签来学习全局数据分布。相比之下，LLM 中的 CFG 并未训练建模全局文本分布的能力。因此，研究团队认为无条件分支应该被视为一个负向提示通道：条件分支专注于生成正确的词，而无条件分支则被鼓励生成错误的词。为此，研究团队重用了条件分支的 KV 缓存，并附加了一条用于引出错误词的短指令，最终实现了在维护更优无条件空间的同时节省了 KV 缓存分配。此外，注入的短语非常灵活，比如研究团队发现 “OUTPUT ERROR” 就已经产生了优良的效果。

实验结果

研究团队在多个任务上进行了测试，其中包括通用任务（Winogrande，MMLU-Pro），代码任务（Humaneval，Humaneval_plus，LiveCodeBench），数学与科学任务（GPQA-Diamond，MATH500）上进行了系统测试。结果显示仅在很少的高熵词上使用 MTI，就能在多个数据集上稳定带来性能提升，验证了方法的有效性。比如在 Qwen3-14B-Reasoning 上，仅对 3.5% 的词执行 MTI，可以为所有任务平均提点 1.58。

从 AIME2024 的实验中也发现，MTI 方法具备显著的优势。比如在 Qwen3-8B-Reasoning 模型中，仅需对 1.9% 的词执行 CFG，就可以为准确性带来 4.9% 的增长，证明了 MTI 在维护高效率的同时，也改进了性能。

分析实验

研究团队发现，一些低熵词很难被 CFG 所改变，这是由于 LLM 在低熵词上对自己的输出非常确信，所以很难被 CFG 改变，而这些失败的 CFG 操作便降低了效率。CFG 所能改变的预测主要集中在高熵词部分，这是由于模型对自己的预测并不自信，因此 CFG 可以修正它。这些发现也从侧面反映并非所有的词都需要使用 CFG。

研究团队发现对于基础模型，词云中的一些低信息量占位符（例如 **）被语义上更有意义的词语所取代，从而创造了更丰富的推理分支，并最终提高了准确率。对于推理模型，研究团队观察到从单一连接词（例如 so）向更多样化的连接词（例如 however、if、perhaps、alternatively、wait）的转变。这有助于模型摒弃错误的先验推理链，并开启新的思路，最终得出正确的推理。总体而言，应用该方法可以产生更加多样化和平衡的词汇，扩展更多的假设和推理轨迹，最终获得更好的结果。

总结

总的来看，这项工作揭示了 LLM 在推理阶段的一少部分高熵词会显著影响输出正确性，并提出了 Minimal Test-Time Intervention (MTI)，其中包含 Selective CFG intervention 和 Lightweight negative-prompt guidance。该方法无需训练并即插即用，易于与现代加速框架和各种解码策略或测试时扩展方法进行结合。该方法利用对推理阶段高熵词的扰动，不仅显著提升了模型在大量任务上的表现，也为未来挖掘 LLM 推理阶段的潜力提供了全新的思路。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.