网易首页 > 网易号 > 正文 申请入驻

电子科技大学提出基于双路径注意力干预多模态大模型物体幻觉缓解

0
分享至



近年来,针对视觉语言大模型(LVLMs)中物体幻觉的缓解方法逐渐受到广泛关注。在现有工作中,基于注意力调控的解码优化方法在抑制幻觉任务上取得一定进展,但仍普遍存在如下问题:

  • 多数方法独立作用于视觉或文本单一模态的注意力,忽视了双模态注意力交互失衡这一核心诱因。
  • 缺乏对解码过程中跨模态依赖关系的量化衡量,导致干预机制粗放,缺乏理论指导。

为了解决上述问题,该论文提出 Owl,一种基于因果关系的双路径注意力干预框架,用于缓解视觉语言大模型中的物体幻觉。

论文的作者包括电子科技大学的余柳(第一作者)、陈忠昊、匡平(通讯作者)、冯志坤、周帆、 王岚和奥克兰大学的 Gillian Dobbie 教授。



  • 论文标题:Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs
  • 论文地址:https://arxiv.org/pdf/2511.09018

首先,该论文提出一个结构因果模型(如图 1),将分解后的视觉与文本注意力形式化为关键的中介变量,视觉 / 文本输入、视觉 / 文本注意力、视觉 / 文本先验以及语言输出等关键变量。模型清晰地表明,视觉与文本先验这两个混杂因子,会通过扭曲对应的注意力(中介变量)来影响输出,最终导致幻觉。



图1 Owl 的结构因果模型

其次,该论文提出了 VTACR 指标,通过计算当前生成 token 对所有视觉 token 的平均注意力与对所有文本 token 的平均注意力之比,来量化模型在每一解码层对两种模态的依赖程度,为细粒度的注意力干预提供了可量化的信号指导。









最后,提出了双路径对比注意力干预方法,通过构建一个视觉增强路径与一个文本增强路径,并利用对比解码策略放大二者差异,从而动态纠正注意力偏差,在抑制幻觉的同时保持了生成的流畅性与丰富性。



图2 Owl幻觉缓解框架

在推理过程中,Owl 框架首先对语言解码器的注意力进行分层分解,将每个解码层的注意力权重明确划分为视觉注意力和文本注意力两部分。基于从大量样本统计得到的 VTACR 分布,框架自适应地沿着两条路径调制注意力:在视觉增强路径中,提升对图像 token 的关注并抑制文本历史的影响;在文本增强路径中,则强化文本依赖并削弱视觉信号。通过这种双路径对比解码策略,模型能够显著放大忠实预测与幻觉内容之间的差异,从而在抑制幻觉对象的同时,有效保留正确的预测结果。

实验结果

该论文在三个代表性的 LVLMs 上评估了 Owl 方法:LLaVA-1.5、MiniGPT-4 和 Shikra。对比基线包括传统解码策略(如集束搜索、贪心解码)以及当前先进的抗幻觉方法,如 VCD、PAI、OPERA 和 CausalMM,确保评估的全面性与公平性。

在 CHAIR 基准上,Owl 在句子级与实例级幻觉指标上均显著优于所有基线。例如,在 LLaVA-1.5 上,Owl 将句子级幻觉降低 17.6%,实例级降低 21.4%,同时生成了更长的文本,说明 Owl 在抑制幻觉的同时未牺牲内容丰富度。



表1 CHAIR基准实验结果

为验证 Owl 是否影响基本理解能力,该论文在五个 VQA 任务上进行了测试。图 3 结果显示,Owl 在多数任务上性能持平甚至略有提升,如在 VizWiz 上提升 7.6%,说明 Owl 方法在抑制幻觉的同时,反而增强了模型在复杂视觉场景下的理解能力。



图3 不同视觉语言模型在五个 VQA 基准和三个常见基准上的性能比较

该论文也使用 GPT-4V 对生成内容进行人工对齐评估,图 4 展示了 Owl 在 “Correctness” 和 “Detailedness” 上均有提升。以 LLaVA-1.5 为例,正确性提升 20.1%,详细度提升 11.3%,说明生成内容不仅更忠实于图像,也更具信息量。



图4 在 MSCOCO 数据集上使用 GPT-4V 进行的幻觉评估

论文展示了多个典型幻觉案例,Owl 通过双路径对比解码,有效抑制了这类错误,生成结果更贴合图像真实内容。图 5 揭示了 Owl 的内部工作机制:通过对比解码策略,它像一位精准的编辑,在模型生成每个词的瞬间,抑制由语言惯性引发的 “幻觉词汇”(红色),并提升忠于图像的 “正确词汇”(绿色)的优先级。图 6 则展示了 Owl 的最终成效:在面对多种易混淆的真实场景时,相比其他模型常 “无中生有”,Owl 能像一位严谨的侦探,始终坚守视觉证据,输出稳定而准确的结果。



图5 模型生成的Top-4 token逻辑值可视化



图6 POPE基准的定性案例对比

第一作者信息

余柳,电子科技大学博士生,在 ACL、AAAI、SIGIR、MM 等高水平会议和期刊发表论文 10 余篇,研究方向包括生成式 AI 的内生安全、幻觉和偏见的缓解负责任的 AI,社交网络、信息传播、虚假信息检测等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3.27今日金价:大家不必等待了!接下来,金价有可能会重演历史!

3.27今日金价:大家不必等待了!接下来,金价有可能会重演历史!

说故事的阿袭
2026-03-27 04:32:24
中国已无需武统?美专家:美军白忙一场,解放军已有不战而胜之法

中国已无需武统?美专家:美军白忙一场,解放军已有不战而胜之法

有牙的兔纸
2026-02-25 00:44:28
婚礼上,婆婆扇我一耳光,我反手把她推下台,老公在旁边拍手叫好

婚礼上,婆婆扇我一耳光,我反手把她推下台,老公在旁边拍手叫好

千秋文化
2026-03-26 21:19:57
未被重视?张水华柳州马拉松无官宣无出场费,自己报名非特邀选手

未被重视?张水华柳州马拉松无官宣无出场费,自己报名非特邀选手

杨华评论
2026-03-27 01:36:21
75年春节,蒋介石带病给毛主席发电报,电报中提到了自己最后心愿

75年春节,蒋介石带病给毛主席发电报,电报中提到了自己最后心愿

芳芳历史烩
2026-03-26 15:04:03
别被“某音”前凸后翘的网红骗了

别被“某音”前凸后翘的网红骗了

健身S叔
2026-03-22 11:12:04
美国20岁女子酒驾,在街道上冲撞人群,被警察从特斯拉中拽出

美国20岁女子酒驾,在街道上冲撞人群,被警察从特斯拉中拽出

潋滟晴方DAY
2026-03-26 08:28:06
巴基斯坦动真格!三军总司令下令对标中国:不学中国,没有出路了

巴基斯坦动真格!三军总司令下令对标中国:不学中国,没有出路了

说宇宙
2026-03-24 14:08:54
这才叫杀疯了!烂番茄100%动作神片,这不直接碾压《镖人》?

这才叫杀疯了!烂番茄100%动作神片,这不直接碾压《镖人》?

动物奇奇怪怪
2026-03-26 17:48:01
广东一男子中奖500万:每次购彩金额控制在20元以内,是日常娱乐休闲方式

广东一男子中奖500万:每次购彩金额控制在20元以内,是日常娱乐休闲方式

大象新闻
2026-03-26 21:45:05
国乒女队格局已定?陈熠、蒯曼的奥运梦,早被圈内人点破了

国乒女队格局已定?陈熠、蒯曼的奥运梦,早被圈内人点破了

小光侃娱乐
2026-03-27 05:20:03
由于找不到意大利球迷欢呼的图片,罗体头版图片由AI生成

由于找不到意大利球迷欢呼的图片,罗体头版图片由AI生成

懂球帝
2026-03-26 21:17:50
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成了催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成了催命符

悠悠说世界
2026-03-27 02:27:55
泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

懂球帝
2026-03-26 10:30:13
巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

懂球帝
2026-03-26 06:43:09
钧达股份:公司目前暂无可耐受200摄氏度高温、适配月球等太空极端环境的太阳能发电产品

钧达股份:公司目前暂无可耐受200摄氏度高温、适配月球等太空极端环境的太阳能发电产品

每日经济新闻
2026-03-26 21:33:11
一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

潮鹿逐梦
2026-03-21 11:54:42
万科退薪传闻再起,地产高管天价工资该退吗?

万科退薪传闻再起,地产高管天价工资该退吗?

深水财经社
2026-03-26 23:42:04
千万粉丝大V留几手微博账号被禁止关注!被指暗讽张雪峰

千万粉丝大V留几手微博账号被禁止关注!被指暗讽张雪峰

兰亭墨未干
2026-03-27 05:59:12
男子下高速显示高速费用83990元,收费员震惊:你有没有绕路!

男子下高速显示高速费用83990元,收费员震惊:你有没有绕路!

张晓磊
2026-03-08 11:07:09
2026-03-27 06:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
亲子
手机
游戏
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版