多模态幻觉的病因「高熵节点」找到了！全基准幻觉率下降|推理|锚点|上下文|新论文

多模态幻觉的病因「高熵节点」找到了！全基准幻觉率下降

2026-04-10 09:46:18　来源: 新智元

北京举报

分享至

新智元报道

编辑：LRST

【新智元导读】多模态大推理模型的幻觉，很多时候并非「没看见」，而是在最不确定的推理阶段想偏了。最新研究发现，模型在生成because、however、wait等transition words时，往往处于高熵关键节点，更容易脱离图像证据、转向语言脑补。LEAD在高熵阶段不急于输出单一离散token，而是先在潜在语义空间保留多种候选推理方向，并通过视觉锚点持续拉回图像证据，显著缓解幻觉。

在多模态大模型的浪潮中，具备显式长链思考能力的MLRMs正在快速成为焦点。它们看起来更会「想」，也更善于在复杂任务中展开多步推理。

可问题是，想得更长，真的就更可靠吗？

来自Monash University、Georgia Tech、Cornell University等机构的研究者给出了一个很有意思的答案：未必。

模型的问题并不总是出在「看错图」，而常常出在推理链进入不确定转折点之后，开始顺着语言惯性一路想偏。

论文链接：https://arxiv.org/pdf/2603.13366

研究者进一步指出，这种偏航并不是随机噪声，而是和token级别的不确定性紧密相关。尤其当模型生成because、however、wait这类带有转折、反思和因果意味的过渡词时，往往对应着更高的token entropy，也意味着模型正在多个潜在推理路径之间摇摆。一旦此时被迫过早选定一个离散token，后续整条reasoning trajectory都可能被带歪。

幻觉不只是「看错」，而且是在转折词之后「想偏」

这篇论文首先抓住了一个非常有传播力、也很有解释力的现象：多模态幻觉经常出现在transition words之后。论文统计发现，在MLRMs中，hallucination更容易在transition words后出现，而且这类case在全部幻觉中占了相当大比例。

换句话说，模型不是无缘无故地乱说，而是常常在「因此」「但是」「等等」这些看似高阶推理信号出现之后，开始脱离图像，进入语言主导的脑补状态。

更关键的是，论文没有停留在现象层面，而是把这个问题和token entropy 联系起来。

作者发现，这些 transition words 往往对应更高的熵值，也就是模型最不确定、最容易在多个语义分支之间摇摆的时刻。

于是，问题就不再只是「模型会不会幻觉」，而变成了：模型在最不确定的时候，为什么还要被迫立刻做出一个离散决策？

为什么高熵token 最危险？

为了验证高熵节点到底有多关键，作者做了进一步的token masking分析。结果很直接：mask掉高熵token，比mask掉其他token对最终性能的伤害更大。这说明高熵token虽然「不确定」，却恰恰是推理过程里的关键决策点。更有意思的是，这种影响在推理链前段尤其明显——越早出现的高熵智元（token），越可能决定后续整条reasoningpath 的走向。

论文还发现，和hallucination相关的高熵token，通常拥有更低的视觉注意力比例。这意味着一旦模型进入高不确定状态，它对视觉证据的依赖反而可能下降，开始更多依赖语言上下文继续往下编。也就是说，多模态幻觉的关键，不只是模型没看图，而是它在不确定时逐渐不再看图。

LEAD怎么做

基于这一观察，作者提出了 LEAD（Latent Entropy-Aware Decoding）。

它的核心思想很直观：当模型处于高熵状态时，不再强迫它立刻从概率分布里采样出一个单独token，而是使用概率加权的连续 embedding，在潜在语义空间中同时保留多个候选推理方向；而当熵值下降后，再自然切回常规的离散token解码，实现从「探索」到「收敛」的自适应过渡。

这篇工作的另一个亮点，是它没有只做「latent decoding」，还进一步加入了 visual anchor injection。

作者观察到，高熵阶段往往也是视觉信息最容易被弱化的阶段，因此LEAD在这一阶段注入来自预训练视觉表示的 guidance vector，把模型持续往图像证据上拉，避免它在「想」的过程中越走越偏。

这个设计让 LEAD 和一般的 decoding trick 不太一样：它不只是重排token分数，而是在关键推理节点直接改变模型的表征与决策方式。

不只减少幻觉

实验部分是这篇论文很扎实的一点。

作者在多组通用理解与hallucination benchmark上测试了LEAD，结果显示它在不同backbone上都能带来稳定增益。

以R1-Onevision-7B 为例，加入LEAD后，VStar从66.5提升到71.2，RealWorldQA从62.5提升到66.4，MMEval-Pro从69.4提升到73.9，MMHalu和Bingo也分别提升到3.80和3.84。

类似增益也出现在Vision-R1、VL-Rethinker、VL-Cogito和OpenVLThinker等模型上。

在数学与科学视觉推理任务上，LEAD同样有效。比如在R1-Onevision-7B上，MathVision 从 29.9 提升到 32.4，Geometry3K 从 57.9 提升到 61.2，MMK12-Bio从40.8提升到44.8；在Vision-R1-7B上，MathVision 从 27.2 提升到 29.7，MathVerse 从 52.4 提升到54.5。也就是说，LEAD 带来的不是某个单点 benchmark 的偶然提升，而是跨通用理解、数学和科学推理的整体增益。

消融实验

这套方法不是「玄学调参」。论文显示，动态 entropy threshold 策略优于始终离散或始终潜在的极端设置；而 persistence window 也存在一个合适区间，太短会导致频繁切换，太长又会退回传统 CoT 的行为模式。视觉锚点强度也不是越大越好，适中的视觉注入最能兼顾图像grounding和语言上下文。

定性结果

论文展示了LEAD在具体样例中的视觉注意力分配与token-level概率分布：相比baseline和MemVR，LEAD 会把更多注意力放在与问题真正相关的图像区域上；同时，在 latent reasoning 阶段，token分布更分散、熵更高，而进入 discrete reasoning 阶段后，分布会逐步收敛到更确定的输出。这种「先保留多种可能，再在证据约束下收敛」的过程，正是它缓解幻觉的关键。

更有意思的是，LEAD不只是更准，还更「省」。论文在MathVision上发现，LEAD在保持最高准确率的同时，平reasoning length反而更短；在Pass@k实验中，它也能在更小的k上更快达到峰值，说明它拥有更好的 sample efficiency。换句话说，LEAD并不是靠「想得更长」取胜，而是靠在关键的不确定节点少走弯路。

最后，作者还用PPL以及GPT-5评估了输出文本的 grammar、fluency 和 naturalness。

结果显示，LEAD 在缓解幻觉的同时，并没有牺牲文本质量，反而在多个维度上保持了更优或更稳的表现。也就是说，这种方法不是靠「保守回答」换来的提升，而是在 reasoning reliability 和生成质量之间取得了更好的平衡。

总的来看，这篇工作的启发很明确：多模态模型的问题，未必是不会推理，而是在最不确定的时候，过早把自己锁死在了一个可能错误的token 上。

LEAD的价值，就在于把「高熵阶段」识别成真正的危险区，并让模型在这里先保留语义多样性、再回到确定输出，同时用视觉锚点把推理重新拽回图像证据。对多模态大推理模型来说，这可能比单纯「多想一点」更重要。

参考资料：

https://arxiv.org/pdf/2603.13366

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.