网易首页 > 网易号 > 正文 申请入驻

人大&腾讯团队用信息论揭示:什么时候该想、什么时候别想

0
分享至

来源:市场资讯

(来源:机器之心Pro)


本文的第一作者雍希贤是来中国人民大学的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。通讯作者为中国人民大学的周骁副教授以及腾讯天衍实验室的吴贤。

当前,大模型的「推理能力」几乎成为行业最热词。o1、R1、QwQ 类强化学习(RL)推理模型,让模型会「想」、会解析复杂问题,甚至能像人一样写长长的推理过程(Chain-of-Thought,CoT),在数学、逻辑与常识等领域任务中展现出强大的多步推理能力。

看上去很强,但问题也随之出现:

如果你用过这些模型,就会感受到:

很多题模型似乎「一眼就能猜中八成」,但它还是坚持把推理写到几百、几千 token,有时甚至越写越乱、越想越错。

来自中国人民大学、腾讯 Jarvis Lab、西湖大学的研究团队,看到了这背后的核心:

于是研究团队从另一个视角切入 ——信息论

通过「熵(entropy)」与「互信息(mutual information)」等底层信息指标,重新衡量模型思考的价值。

最终,他们提出了一个极其实用的机制:Adaptive Think——让模型在「自信够了」时自动停止推理

不用训练,用现有模型就能直接部署。

这项工作已被 NeurIPS 2025 选为 Spotlight。


首先,研究团队借鉴了香农提出的通信三层模型,从技术、语义和实践三个维度观察大模型「过度思考」的本质。


图 1:基于 Shannon & Weaver 通信模型,研究发现推理过长不仅信息增益逐渐减弱,还可能带来偏差并降低最终准确率。

模型推理为什么会「越想越偏」?

为了进一步量化模型「思考效率」,研究团队从两个层面构建了一个系统评价框架。

1. 全局视角:InfoBias(信息偏差)

将模型的推理链与理想推理路径比对,使用互信息估计偏差:

偏差越大,说明模型「越想越偏」。

在 GSM8K 数据集上的实验清晰地展示了这一规律:错误答案往往伴随更长的推理链和更高的 InfoBias。越是错误的答案,模型往往输出更多的 token。


图 2:在 GSM8K 数据集上,不同模型的平均推理长度与归一化后的每个 token 信息偏差关系。

2. 局部视角:InfoGain(信息增益)

定义每个推理步骤降低答案空间熵的量:


如果某一步没降低不确定性,说明它提供的不是「有效推理」,而是「填充字数」。

实验分析表明,模型在推理过程中表现出逐步降低不确定性和提高对正确答案的信心的趋势,即有效推理可以逐步过滤不确定性并增强预测。

即使在推理开始前,模型在知识密集型任务上也显示出初始直觉偏向正确答案,而不同任务的推理动态存在差异


图 3:QwQ-32B 在不同推理基准下的不确定性动态

Adaptive Think

让模型「有必要才深思,无必要就直答」

在发现过度思考可能降低推理效率后,研究团队提出了Adaptive Think策略。其核心理念是通过熵来衡量模型在推理过程中的不确定性,并在模型达到足够置信度时主动终止推理。

在这一框架下,每完成一步推理,模型都会计算答案分布的平均熵。当熵低于预设阈值 α 时,表明模型已经具备较高的自信,此时即可停止推理并输出答案。该机制使模型能够根据任务难度灵活调整思考深度:


图 4:四种思考方式的示意图

该策略体现了模型对自身信心的动态感知能力,使其能够在不同任务类型间自适应调整推理深度,从而兼顾速度与可靠性。

实验结果

更准、更省、更快

最后,研究团队在 8 个大模型(包括 5 个非推理和 3 个推理模型)、6 个不同推理类型的 benchmark 上进行了完整评估。

在数学任务 GSM8K 与 AIME2025 上,Adaptive Think 在保持准确率的同时,将平均 Token 消耗减少了一半以上(40.01%-68.25)。例如,在 QwQ-32B 模型上,相比传统的 Vanilla Think 模式,Adaptive Think 在 AIME2025 上将 Token 使用量减少了 68.25%,而准确率还提高了 0.93%。这说明模型本身早早就「知道正确答案」,冗余的只是大量验证性推理。


表 1:在两个数学推理基准上的性能与效率对比

在知识、逻辑、常识等任务上,Adaptive Think 同样表现优异。在 MMLU-Pro、CommonsenseQA、ProntoQA、MuSR 等多个数据集上观察到:QwQ-32B 的平均准确率提升 1.23%,平均 token 减少 42.52%。

在 CommonsenseQA 这种靠直觉的任务最显著,DeepSeek-R1-32B 模型采用 Adaptive Think 后,准确率几乎不变,但 Token 消耗减少了超过 80%。这表明对于依赖常识直觉的问题,Adaptive Think 能够快速终止冗余推理,极大地提升效率


表 2:在知识、逻辑、常识推理基准上的性能与效率对比

这些实验验证了一个关键结论:大模型的长推理链并非必要,很多时候它们只需要「少想几步」

什么时候应该「多想」,

什么时候应该「少想」?

研究团队进一步分析不同任务的「推理需求」,例如:


图 5&6:Adaptive Think 输出 token 数量与题目难度的关系(左);阈值 α 对准确率和 token 数量的影响,揭示了 推理性能与计算效率之间的权衡(右)。

这意味着:

总结

这篇论文给我们带来一个很重要的理念:AI 推理的未来不在「更长」,而在「更聪明」

未来的大模型应该:1)在需要深度逻辑时能推理得足够严谨;2)在只需直觉判断时不浪费 token;3)能动态适应任务难度;4)在推理过程中实时自我评估,随时刹车。

这项工作既解释了「为什么模型会过度推理」,也告诉我们「如何简单有效地解决」。

如果说强化学习让模型学会了「怎么想」,那么 Adaptive Think 让模型学会了 「想多久」。

这是推理大模型走向成熟的关键一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辟谣:奥巴马怀里的小女孩,爱泼斯坦档案里的奥巴马游艇照真相!

辟谣:奥巴马怀里的小女孩,爱泼斯坦档案里的奥巴马游艇照真相!

阿龙聊军事
2026-02-06 09:23:43
世界大奖赛:赵心童连丢三赛点后绝杀韦克林,新科世界冠军进四强

世界大奖赛:赵心童连丢三赛点后绝杀韦克林,新科世界冠军进四强

世界体坛观察家
2026-02-06 22:39:53
常见口腔菌100%诱发肿瘤肺转移?美国发布一项反直觉研究

常见口腔菌100%诱发肿瘤肺转移?美国发布一项反直觉研究

徐德文科学频道
2026-02-05 21:49:43
林徽因为什么不能黑?抛开她建筑家身份,再看看他弟弟是谁!

林徽因为什么不能黑?抛开她建筑家身份,再看看他弟弟是谁!

混沌录
2026-02-06 22:39:02
3-0!5-0!疯狂一夜,尤文耻辱出局,马竞杀入4强,新月狂轰6球

3-0!5-0!疯狂一夜,尤文耻辱出局,马竞杀入4强,新月狂轰6球

足球狗说
2026-02-06 06:24:03
588万平方公里!沙俄抢走的中国故土,如今竟成为世界最大荒原

588万平方公里!沙俄抢走的中国故土,如今竟成为世界最大荒原

白色得季节
2025-12-30 21:08:45
爱泼斯坦为何留下这么多档案?没人私下一把火销毁吗?真相在这里

爱泼斯坦为何留下这么多档案?没人私下一把火销毁吗?真相在这里

生活新鲜市
2026-02-05 19:14:21
三只羊拿下网红“无语哥”全球运营权,部分主播陆续复播,风格已变

三只羊拿下网红“无语哥”全球运营权,部分主播陆续复播,风格已变

红星新闻
2026-02-06 19:33:10
美国逮捕2012年班加西领馆袭击嫌疑人

美国逮捕2012年班加西领馆袭击嫌疑人

桂系007
2026-02-06 23:51:42
你见过哪些因为“作死”,亲手毁掉婚姻的人?网友:结局大快人心

你见过哪些因为“作死”,亲手毁掉婚姻的人?网友:结局大快人心

夜深爱杂谈
2026-02-04 23:37:05
广东104-113上海 球员评价:萨姆纳优秀,4人及格,4人低迷

广东104-113上海 球员评价:萨姆纳优秀,4人及格,4人低迷

篮球资讯达人
2026-02-06 21:53:17
最可怕的不是张艺谋,是他家三个孩子,正在包抄整条电影产业链。

最可怕的不是张艺谋,是他家三个孩子,正在包抄整条电影产业链。

动物奇奇怪怪
2026-02-06 10:40:59
怂了?“乌将失去独立”,泽连斯基无奈宣布,并希望尽快结束战争

怂了?“乌将失去独立”,泽连斯基无奈宣布,并希望尽快结束战争

林子说事
2026-02-06 11:30:37
苹果 iPhone 17 续航时间登顶第一,今时不同往日了!

苹果 iPhone 17 续航时间登顶第一,今时不同往日了!

XCiOS俱乐部
2026-02-06 10:13:57
32+6+4+2+3!29+11+6+2+3!双状元神仙打架,文班亚马盛赞弗拉格

32+6+4+2+3!29+11+6+2+3!双状元神仙打架,文班亚马盛赞弗拉格

世界体育圈
2026-02-06 15:06:59
对华合约全部撕毁!中国又一伙伴背后捅刀,骗走20亿倒向美国

对华合约全部撕毁!中国又一伙伴背后捅刀,骗走20亿倒向美国

离离言几许
2025-12-20 19:56:40
“顺丰速孕”碰瓷“顺丰速运”,辩称是幽默表达?法院判了!

“顺丰速孕”碰瓷“顺丰速运”,辩称是幽默表达?法院判了!

新民晚报
2026-02-06 09:46:32
1967年,梁兴初厉声质问副政委:邓华你也敢动?谁给你的胆子?

1967年,梁兴初厉声质问副政委:邓华你也敢动?谁给你的胆子?

鉴史录
2026-02-05 16:28:29
又添一张硬牌,两艘万吨大驱入驻东海,美日韩海军优势彻底崩塌

又添一张硬牌,两艘万吨大驱入驻东海,美日韩海军优势彻底崩塌

聚焦光辉与阴暗
2026-02-06 23:16:06
不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
2026-02-07 01:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2139176文章数 5380关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

女生被51岁推拿技师猥亵:没等到道歉 还遭网暴

头条要闻

女生被51岁推拿技师猥亵:没等到道歉 还遭网暴

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

时尚
本地
艺术
游戏
亲子

豆瓣8.5分,人美剧甜衣品好,小韩拍恋爱剧还是有两把刷子

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

艺术要闻

这颜色太美,不看太可惜!

T2总裁回应GTA6争议:给他爱新DLC力证老作热度不减

亲子要闻

尊重孩子兴趣,做不扫兴家长

无障碍浏览 进入关怀版