网易首页 > 网易号 > 正文 申请入驻

多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

0
分享至


新智元报道

编辑:LRST

【新智元导读】多模态大推理模型的幻觉,很多时候并非「没看见」,而是在最不确定的推理阶段想偏了。最新研究发现,模型在生成because、however、wait等transition words时,往往处于高熵关键节点,更容易脱离图像证据、转向语言脑补。LEAD在高熵阶段不急于输出单一离散token,而是先在潜在语义空间保留多种候选推理方向,并通过视觉锚点持续拉回图像证据,显著缓解幻觉。

在多模态大模型的浪潮中,具备显式长链思考能力的MLRMs正在快速成为焦点。它们看起来更会「想」,也更善于在复杂任务中展开多步推理。

可问题是,想得更长,真的就更可靠吗?

来自Monash University、Georgia Tech、Cornell University等机构的研究者给出了一个很有意思的答案:未必。

模型的问题并不总是出在「看错图」,而常常出在推理链进入不确定转折点之后,开始顺着语言惯性一路想偏。


论文链接:https://arxiv.org/pdf/2603.13366

研究者进一步指出,这种偏航并不是随机噪声,而是和token级别的不确定性紧密相关。尤其当模型生成because、however、wait这类带有转折、反思和因果意味的过渡词时,往往对应着更高的token entropy,也意味着模型正在多个潜在推理路径之间摇摆。一旦此时被迫过早选定一个离散token,后续整条reasoning trajectory都可能被带歪。

幻觉不只是「看错」,而且是在转折词之后「想偏」

这篇论文首先抓住了一个非常有传播力、也很有解释力的现象:多模态幻觉经常出现在transition words之后。 论文统计发现,在MLRMs中,hallucination更容易在transition words后出现,而且这类case在全部幻觉中占了相当大比例。

换句话说,模型不是无缘无故地乱说,而是常常在「因此」「但是」「等等」这些看似高阶推理信号出现之后,开始脱离图像,进入语言主导的脑补状态。


更关键的是,论文没有停留在现象层面,而是把这个问题和token entropy 联系起来。

作者发现,这些 transition words 往往对应更高的熵值,也就是模型最不确定、最容易在多个语义分支之间摇摆的时刻。

于是,问题就不再只是「模型会不会幻觉」,而变成了:模型在最不确定的时候,为什么还要被迫立刻做出一个离散决策?

为什么高熵token 最危险?

为了验证高熵节点到底有多关键,作者做了进一步的token masking分析。结果很直接:mask掉高熵token,比mask掉其他token对最终性能的伤害更大。 这说明高熵token虽然「不确定」,却恰恰是推理过程里的关键决策点。更有意思的是,这种影响在推理链前段尤其明显——越早出现的高熵智元(token),越可能决定后续整条reasoningpath 的走向。

论文还发现,和hallucination相关的高熵token,通常拥有更低的视觉注意力比例。这意味着一旦模型进入高不确定状态,它对视觉证据的依赖反而可能下降,开始更多依赖语言上下文继续往下编。也就是说,多模态幻觉的关键,不只是模型没看图,而是它在不确定时逐渐不再看图。

LEAD怎么做

基于这一观察,作者提出了 LEAD(Latent Entropy-Aware Decoding)。

它的核心思想很直观:当模型处于高熵状态时,不再强迫它立刻从概率分布里采样出一个单独token,而是使用概率加权的连续 embedding,在潜在语义空间中同时保留多个候选推理方向;而当熵值下降后,再自然切回常规的离散token解码,实现从「探索」到「收敛」的自适应过渡。


这篇工作的另一个亮点,是它没有只做「latent decoding」,还进一步加入了 visual anchor injection。

作者观察到,高熵阶段往往也是视觉信息最容易被弱化的阶段,因此LEAD在这一阶段注入来自预训练视觉表示的 guidance vector,把模型持续往图像证据上拉,避免它在「想」的过程中越走越偏。

这个设计让 LEAD 和一般的 decoding trick 不太一样:它不只是重排token分数,而是在关键推理节点直接改变模型的表征与决策方式。

不只减少幻觉

实验部分是这篇论文很扎实的一点。

作者在多组通用理解与hallucination benchmark上测试了LEAD,结果显示它在不同backbone上都能带来稳定增益。

以R1-Onevision-7B 为例,加入LEAD后,VStar从66.5提升到71.2,RealWorldQA从62.5提升到66.4,MMEval-Pro从69.4提升到73.9,MMHalu和Bingo也分别提升到3.80和3.84。

类似增益也出现在Vision-R1、VL-Rethinker、VL-Cogito和OpenVLThinker等模型上。

在数学与科学视觉推理任务上,LEAD同样有效。比如在R1-Onevision-7B上,MathVision 从 29.9 提升到 32.4,Geometry3K 从 57.9 提升到 61.2,MMK12-Bio从40.8提升到44.8;在Vision-R1-7B上,MathVision 从 27.2 提升到 29.7,MathVerse 从 52.4 提升到54.5。也就是说,LEAD 带来的不是某个单点 benchmark 的偶然提升,而是跨通用理解、数学和科学推理的整体增益。


消融实验

这套方法不是「玄学调参」。论文显示,动态 entropy threshold 策略优于始终离散或始终潜在的极端设置;而 persistence window 也存在一个合适区间,太短会导致频繁切换,太长又会退回传统 CoT 的行为模式。视觉锚点强度也不是越大越好,适中的视觉注入最能兼顾图像grounding和语言上下文。


定性结果

论文展示了LEAD在具体样例中的视觉注意力分配与token-level概率分布:相比baseline和MemVR,LEAD 会把更多注意力放在与问题真正相关的图像区域上;同时,在 latent reasoning 阶段,token分布更分散、熵更高,而进入 discrete reasoning 阶段后,分布会逐步收敛到更确定的输出。这种「先保留多种可能,再在证据约束下收敛」的过程,正是它缓解幻觉的关键。


更有意思的是,LEAD不只是更准,还更「省」。论文在MathVision上发现,LEAD在保持最高准确率的同时,平reasoning length反而更短;在Pass@k实验中,它也能在更小的k上更快达到峰值,说明它拥有更好的 sample efficiency。换句话说,LEAD并不是靠「想得更长」取胜,而是靠在关键的不确定节点少走弯路。


最后,作者还用PPL以及GPT-5评估了输出文本的 grammar、fluency 和 naturalness。

结果显示,LEAD 在缓解幻觉的同时,并没有牺牲文本质量,反而在多个维度上保持了更优或更稳的表现。也就是说,这种方法不是靠「保守回答」换来的提升,而是在 reasoning reliability 和生成质量之间取得了更好的平衡。

总的来看,这篇工作的启发很明确:多模态模型的问题,未必是不会推理,而是在最不确定的时候,过早把自己锁死在了一个可能错误的token 上。

LEAD的价值,就在于把「高熵阶段」识别成真正的危险区,并让模型在这里先保留语义多样性、再回到确定输出,同时用视觉锚点把推理重新拽回图像证据。对多模态大推理模型来说,这可能比单纯「多想一点」更重要。

参考资料:

https://arxiv.org/pdf/2603.13366

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Kimi正脸照流出,生图下脸歪嘴斜牙齿外凸,网友:不像林志颖了

Kimi正脸照流出,生图下脸歪嘴斜牙齿外凸,网友:不像林志颖了

不似少年游
2026-04-13 16:57:07
建国前夕,解放军清除中南海淤泥16万吨,水底都挖出了什么

建国前夕,解放军清除中南海淤泥16万吨,水底都挖出了什么

掠影后有感
2026-04-12 10:08:51
巴基斯坦下单了?120亿美元购买歼35、空警500和红旗19

巴基斯坦下单了?120亿美元购买歼35、空警500和红旗19

三叔的装备空间
2026-04-14 11:15:25
宋祖儿和刘宇宁阮经天的瓜!

宋祖儿和刘宇宁阮经天的瓜!

八卦疯叔
2026-04-14 11:29:28
常规赛六大奖项预测!SGA包揽两项,DPOY最无悬念!

常规赛六大奖项预测!SGA包揽两项,DPOY最无悬念!

篮球实录
2026-04-14 01:02:27
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

潮鹿逐梦
2026-04-02 12:31:48
撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

涵豆说娱
2026-04-08 20:05:39
嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

揽星河的笔记
2026-04-10 18:42:07
东北追击战:白崇禧距全歼林彪只差一道命令,历史差点被改写!

东北追击战:白崇禧距全歼林彪只差一道命令,历史差点被改写!

心灵短笛
2026-04-13 17:43:28
合租四年的女生要辞职相亲,我开玩笑说嫁我,她的反应意外了

合租四年的女生要辞职相亲,我开玩笑说嫁我,她的反应意外了

雾岛夜话
2026-04-11 12:24:27
反向预言!12年前索尼惊人广告被挖出:从此不需要手机

反向预言!12年前索尼惊人广告被挖出:从此不需要手机

游民星空
2026-04-13 13:07:09
苹果把这价格藏了3天,用户发现后集体懵了:M5 Air 6500到手

苹果把这价格藏了3天,用户发现后集体懵了:M5 Air 6500到手

薛定谔的BUG
2026-04-13 16:35:09
桑叶是个宝,6大功效请收好

桑叶是个宝,6大功效请收好

环京快爆
2026-04-07 08:15:55
不到一周张雪机车再战WSBK!张雪:可能会输 提前泼一盆冷水

不到一周张雪机车再战WSBK!张雪:可能会输 提前泼一盆冷水

快科技
2026-04-13 11:12:10
周杰伦新MV神秘老外帅到抢镜 惊爆真实身份「是昆凌的叔叔」!

周杰伦新MV神秘老外帅到抢镜 惊爆真实身份「是昆凌的叔叔」!

ETtoday星光云
2026-04-13 17:04:11
布耶27+9卡尔森26+10 太阳客场大胜雷霆

布耶27+9卡尔森26+10 太阳客场大胜雷霆

北青网-北京青年报
2026-04-13 20:48:02
宝马炮轰比亚迪背后真相:如果闪充不伤电池,就不需要固态电池了

宝马炮轰比亚迪背后真相:如果闪充不伤电池,就不需要固态电池了

王新喜
2026-04-13 10:45:56
亨得利:赵心童不会因为输球而受伤,他打破克鲁斯堡魔咒有优势!

亨得利:赵心童不会因为输球而受伤,他打破克鲁斯堡魔咒有优势!

世界体坛观察家
2026-04-14 08:51:32
风尘女子要怎么分辨出来?行家人都能看出来

风尘女子要怎么分辨出来?行家人都能看出来

霹雳炮
2026-04-03 21:31:48
2026正式落地!3元一升汽油来了,车主有福了

2026正式落地!3元一升汽油来了,车主有福了

沙雕小琳琳
2026-04-14 12:38:34
2026-04-14 13:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14964文章数 66768关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

41岁演员文章在上海开面馆 代排队价格被炒到500元

头条要闻

41岁演员文章在上海开面馆 代排队价格被炒到500元

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

教育
时尚
亲子
数码
健康

教育要闻

“父亲的心已经死了!”10后女孩职高报到,父亲用沉默诠释了心死

今年科切拉的风吹向了谁?

亲子要闻

中日混血萌娃丨优奈的发型太酷啦!

数码要闻

雷神推出黑武士·猎刃 Pro台式机 i5-14400F+RTX 5060 国补价7999

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版