网易首页 > 网易号 > 正文 申请入驻

推理时扰动高熵词,增强LLM性能

0
分享至



本文第一作者杨震,香港科技大学(广州)博士生,研究方向是多模态理解与生成等。本文通讯作者陈颖聪,香港科技大学(广州)助理教授,主要研究课题包括生成模型、具身智能等。

随着对大语言模型的研究越来越深入,关于测试时间扩展 (test-time scaling) 的相关研究正迅速崭露头角。研究团队重新审视测试时行为,发现了一个简单但尚未得到充分探索的现象:LLM 推理时的不确定性高度局部化 —— 一小部分高熵词会显著影响输出的正确性。



正是基于这一关键观察,来自香港科技大学(广州)的研究团队提出了 Minimal Test-Time Intervention (MTI),其主要包含了 Selective CFG intervention 与 Lightweight negative-prompt guidance 两种方法。MTI 能够在推理阶段无需额外训练,就提升大型语言模型的推理能力。



  • 论文标题:Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
  • 论文地址:https://arxiv.org/abs/2510.13940
  • Github(代码已开源):https://github.com/EnVision-Research/MTI
  • Huggingface Paper:https://huggingface.co/papers/2510.13940



Selective CFG intervention:

减弱高熵词的不确定性


LLM 在多步推理中经常表现出链式不稳定性:几个步骤中的不确定性会放大并导致整个答案偏离轨道。为了找到这种不稳定性的原因,研究团队分析了 LLM 回答错误的问题,并发现错误回答的熵更高,而这主要是由回答中的高熵词导致的。为此,研究团队提出在高熵词上使用 Classifier-free Guidance (CFG) 以在降低不确定性的同时稳定推理过程,并能在保持高效率的同时提高性能。

Lightweight negative-prompt guidance:

复用 KV cache 并注入负向词,节省显存分配的同时维护更优的无条件空间


研究团队观察到,尽管 Selective CFG intervention 仅对高熵词进行操作,但是仍需为无条件预测支路分配一个新的 KV 缓存,这大大降低了现代 LLM 推理加速器的效率。比如,维护双 KV 缓存会削弱诸如 vllm 等框架的长上下文处理能力。此外,CFG 源自计算机视觉,其会在训练过程中引入无条件标签来学习全局数据分布。相比之下,LLM 中的 CFG 并未训练建模全局文本分布的能力。因此,研究团队认为无条件分支应该被视为一个负向提示通道:条件分支专注于生成正确的词,而无条件分支则被鼓励生成错误的词。为此,研究团队重用了条件分支的 KV 缓存,并附加了一条用于引出错误词的短指令,最终实现了在维护更优无条件空间的同时节省了 KV 缓存分配。此外,注入的短语非常灵活,比如研究团队发现 “OUTPUT ERROR” 就已经产生了优良的效果。

实验结果


研究团队在多个任务上进行了测试,其中包括通用任务(Winogrande,MMLU-Pro),代码任务(Humaneval,Humaneval_plus,LiveCodeBench),数学与科学任务(GPQA-Diamond,MATH500)上进行了系统测试。结果显示仅在很少的高熵词上使用 MTI,就能在多个数据集上稳定带来性能提升,验证了方法的有效性。比如在 Qwen3-14B-Reasoning 上,仅对 3.5% 的词执行 MTI,可以为所有任务平均提点 1.58。



从 AIME2024 的实验中也发现,MTI 方法具备显著的优势。比如在 Qwen3-8B-Reasoning 模型中,仅需对 1.9% 的词执行 CFG,就可以为准确性带来 4.9% 的增长,证明了 MTI 在维护高效率的同时,也改进了性能。



分析实验



研究团队发现,一些低熵词很难被 CFG 所改变,这是由于 LLM 在低熵词上对自己的输出非常确信,所以很难被 CFG 改变,而这些失败的 CFG 操作便降低了效率。CFG 所能改变的预测主要集中在高熵词部分,这是由于模型对自己的预测并不自信,因此 CFG 可以修正它。这些发现也从侧面反映并非所有的词都需要使用 CFG。



研究团队发现对于基础模型,词云中的一些低信息量占位符(例如 **)被语义上更有意义的词语所取代,从而创造了更丰富的推理分支,并最终提高了准确率。对于推理模型,研究团队观察到从单一连接词(例如 so)向更多样化的连接词(例如 however、if、perhaps、alternatively、wait)的转变。这有助于模型摒弃错误的先验推理链,并开启新的思路,最终得出正确的推理。总体而言,应用该方法可以产生更加多样化和平衡的词汇,扩展更多的假设和推理轨迹,最终获得更好的结果。

总结


总的来看,这项工作揭示了 LLM 在推理阶段的一少部分高熵词会显著影响输出正确性,并提出了 Minimal Test-Time Intervention (MTI),其中包含 Selective CFG intervention 和 Lightweight negative-prompt guidance。该方法无需训练并即插即用,易于与现代加速框架和各种解码策略或测试时扩展方法进行结合。该方法利用对推理阶段高熵词的扰动,不仅显著提升了模型在大量任务上的表现,也为未来挖掘 LLM 推理阶段的潜力提供了全新的思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨幂的身材比例真是逆天,腿好长

杨幂的身材比例真是逆天,腿好长

TVB的四小花
2026-01-30 19:17:38
满载40吨黄金的日本“阿波丸”,中国打捞上岸后,所有人都愣住了

满载40吨黄金的日本“阿波丸”,中国打捞上岸后,所有人都愣住了

鉴史录
2026-01-23 10:46:34
26岁天才股神坦言:"钓鱼线"一出,立刻清仓,不是跌停就是跌不停

26岁天才股神坦言:"钓鱼线"一出,立刻清仓,不是跌停就是跌不停

股经纵横谈
2026-01-11 18:30:38
2000 万捡漏!曼联瞄准卡塞米罗接班人,性价比完爆 1 亿标王

2000 万捡漏!曼联瞄准卡塞米罗接班人,性价比完爆 1 亿标王

奶盖熊本熊
2026-02-01 08:08:22
重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

风过乡
2026-02-02 06:38:53
岳父做客女婿家,提起埋在家乡一烈士名字,女婿道:那是我爷爷!

岳父做客女婿家,提起埋在家乡一烈士名字,女婿道:那是我爷爷!

兴趣知识
2026-02-01 08:57:04
《太平年》改编遭质疑,历史顾问胡耀飞回应

《太平年》改编遭质疑,历史顾问胡耀飞回应

澎湃新闻
2026-02-01 02:23:33
知名央企迎来最终审判!全烂透了,9个董监高无一清白,强制清退

知名央企迎来最终审判!全烂透了,9个董监高无一清白,强制清退

慕名而来只为你
2026-01-20 05:59:04
不打则已,打就打大战!美国预判最坏结局:开战被伊朗砍掉一条腿

不打则已,打就打大战!美国预判最坏结局:开战被伊朗砍掉一条腿

文雅笔墨
2026-02-01 18:25:02
讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

涵豆说娱
2026-01-31 14:30:35
张本美和成功夺冠!3:0击败世界冠军,成为日本锦标赛单届4冠王

张本美和成功夺冠!3:0击败世界冠军,成为日本锦标赛单届4冠王

国乒二三事
2026-02-01 14:41:15
起飞了!“意甲10号”即将加盟中甲:最高身价1100万欧

起飞了!“意甲10号”即将加盟中甲:最高身价1100万欧

邱泽云
2026-02-01 16:11:58
1958年,张治中对主席说:有个人借我3000元未还,他官很大

1958年,张治中对主席说:有个人借我3000元未还,他官很大

芊芊子吟
2026-01-31 12:30:06
韩国恋综嘉宾人设崩塌,女嘉宾被曝当过擦边主播,举报者却跳楼了?!

韩国恋综嘉宾人设崩塌,女嘉宾被曝当过擦边主播,举报者却跳楼了?!

英国那些事儿
2026-01-31 23:21:28
智利不再“说不”:是什么让纳粹之子赢得总统大选?|907编辑部

智利不再“说不”:是什么让纳粹之子赢得总统大选?|907编辑部

澎湃新闻
2026-02-01 07:55:08
莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

乔话
2026-01-31 22:52:04
李晨杭州狂炫67元拌川!小饭馆老板认不出

李晨杭州狂炫67元拌川!小饭馆老板认不出

情感大头说说
2026-01-30 11:32:59
今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

阿龙美食记
2026-01-29 11:03:56
珠海这一天,高圆圆确实老了,李小冉造型被嘲土气,杨幂却赢麻了

珠海这一天,高圆圆确实老了,李小冉造型被嘲土气,杨幂却赢麻了

小徐讲八卦
2026-01-30 07:50:43
火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

青烟小先生
2026-01-28 22:22:57
2026-02-02 08:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
游戏
房产
公开课
军事航空

教育要闻

民办大学出来真的很难找工作吗?

魔兽时光服:又开启造富神话,价格突破66万金,这件装备有多牛?

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版