网易首页 > 网易号 > 正文 申请入驻

电子科技大学提出基于双路径注意力干预多模态大模型物体幻觉缓解

0
分享至



近年来,针对视觉语言大模型(LVLMs)中物体幻觉的缓解方法逐渐受到广泛关注。在现有工作中,基于注意力调控的解码优化方法在抑制幻觉任务上取得一定进展,但仍普遍存在如下问题:

  • 多数方法独立作用于视觉或文本单一模态的注意力,忽视了双模态注意力交互失衡这一核心诱因。
  • 缺乏对解码过程中跨模态依赖关系的量化衡量,导致干预机制粗放,缺乏理论指导。

为了解决上述问题,该论文提出 Owl,一种基于因果关系的双路径注意力干预框架,用于缓解视觉语言大模型中的物体幻觉。

论文的作者包括电子科技大学的余柳(第一作者)、陈忠昊、匡平(通讯作者)、冯志坤、周帆、 王岚和奥克兰大学的 Gillian Dobbie 教授。



  • 论文标题:Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs
  • 论文地址:https://arxiv.org/pdf/2511.09018

首先,该论文提出一个结构因果模型(如图 1),将分解后的视觉与文本注意力形式化为关键的中介变量,视觉 / 文本输入、视觉 / 文本注意力、视觉 / 文本先验以及语言输出等关键变量。模型清晰地表明,视觉与文本先验这两个混杂因子,会通过扭曲对应的注意力(中介变量)来影响输出,最终导致幻觉。



图1 Owl 的结构因果模型

其次,该论文提出了 VTACR 指标,通过计算当前生成 token 对所有视觉 token 的平均注意力与对所有文本 token 的平均注意力之比,来量化模型在每一解码层对两种模态的依赖程度,为细粒度的注意力干预提供了可量化的信号指导。









最后,提出了双路径对比注意力干预方法,通过构建一个视觉增强路径与一个文本增强路径,并利用对比解码策略放大二者差异,从而动态纠正注意力偏差,在抑制幻觉的同时保持了生成的流畅性与丰富性。



图2 Owl幻觉缓解框架

在推理过程中,Owl 框架首先对语言解码器的注意力进行分层分解,将每个解码层的注意力权重明确划分为视觉注意力和文本注意力两部分。基于从大量样本统计得到的 VTACR 分布,框架自适应地沿着两条路径调制注意力:在视觉增强路径中,提升对图像 token 的关注并抑制文本历史的影响;在文本增强路径中,则强化文本依赖并削弱视觉信号。通过这种双路径对比解码策略,模型能够显著放大忠实预测与幻觉内容之间的差异,从而在抑制幻觉对象的同时,有效保留正确的预测结果。

实验结果

该论文在三个代表性的 LVLMs 上评估了 Owl 方法:LLaVA-1.5、MiniGPT-4 和 Shikra。对比基线包括传统解码策略(如集束搜索、贪心解码)以及当前先进的抗幻觉方法,如 VCD、PAI、OPERA 和 CausalMM,确保评估的全面性与公平性。

在 CHAIR 基准上,Owl 在句子级与实例级幻觉指标上均显著优于所有基线。例如,在 LLaVA-1.5 上,Owl 将句子级幻觉降低 17.6%,实例级降低 21.4%,同时生成了更长的文本,说明 Owl 在抑制幻觉的同时未牺牲内容丰富度。



表1 CHAIR基准实验结果

为验证 Owl 是否影响基本理解能力,该论文在五个 VQA 任务上进行了测试。图 3 结果显示,Owl 在多数任务上性能持平甚至略有提升,如在 VizWiz 上提升 7.6%,说明 Owl 方法在抑制幻觉的同时,反而增强了模型在复杂视觉场景下的理解能力。



图3 不同视觉语言模型在五个 VQA 基准和三个常见基准上的性能比较

该论文也使用 GPT-4V 对生成内容进行人工对齐评估,图 4 展示了 Owl 在 “Correctness” 和 “Detailedness” 上均有提升。以 LLaVA-1.5 为例,正确性提升 20.1%,详细度提升 11.3%,说明生成内容不仅更忠实于图像,也更具信息量。



图4 在 MSCOCO 数据集上使用 GPT-4V 进行的幻觉评估

论文展示了多个典型幻觉案例,Owl 通过双路径对比解码,有效抑制了这类错误,生成结果更贴合图像真实内容。图 5 揭示了 Owl 的内部工作机制:通过对比解码策略,它像一位精准的编辑,在模型生成每个词的瞬间,抑制由语言惯性引发的 “幻觉词汇”(红色),并提升忠于图像的 “正确词汇”(绿色)的优先级。图 6 则展示了 Owl 的最终成效:在面对多种易混淆的真实场景时,相比其他模型常 “无中生有”,Owl 能像一位严谨的侦探,始终坚守视觉证据,输出稳定而准确的结果。



图5 模型生成的Top-4 token逻辑值可视化



图6 POPE基准的定性案例对比

第一作者信息

余柳,电子科技大学博士生,在 ACL、AAAI、SIGIR、MM 等高水平会议和期刊发表论文 10 余篇,研究方向包括生成式 AI 的内生安全、幻觉和偏见的缓解负责任的 AI,社交网络、信息传播、虚假信息检测等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一旦国家开启一级战备,老百姓需牢记三点,关键时刻能保命

一旦国家开启一级战备,老百姓需牢记三点,关键时刻能保命

一网打尽全球焦点
2026-01-07 19:22:18
3:2逆转!薛飞死磕张本,能否再演3:0横扫好戏?

3:2逆转!薛飞死磕张本,能否再演3:0横扫好戏?

卿子书
2026-01-15 14:32:55
香港知名主持人宣布和同性爱人订婚,激动到落下男儿泪

香港知名主持人宣布和同性爱人订婚,激动到落下男儿泪

冷紫葉
2026-01-16 12:41:16
西贝将大规模关停102家门店,集中在一二线城市

西贝将大规模关停102家门店,集中在一二线城市

界面新闻
2026-01-15 14:50:22
2026年,是“尽快买房”还是“再等一等”?马云和李嘉诚不谋而合

2026年,是“尽快买房”还是“再等一等”?马云和李嘉诚不谋而合

巢客HOME
2026-01-16 08:30:03
TA:科尔本想选小瓦格纳;只因想要运动天赋连续选了库明加及怀斯曼

TA:科尔本想选小瓦格纳;只因想要运动天赋连续选了库明加及怀斯曼

懂球帝
2026-01-16 10:33:06
为什么伊朗的流血,没能点燃世界的愤怒——错过这次,还要等多久

为什么伊朗的流血,没能点燃世界的愤怒——错过这次,还要等多久

桂系007
2026-01-14 23:48:15
世界第一,055B型驱逐舰,1.7万吨级王牌,到底有多强悍?

世界第一,055B型驱逐舰,1.7万吨级王牌,到底有多强悍?

今墨缘
2026-01-15 08:26:48
越扒越有,被人民网点名后,闫学晶又被曝身份造假,成名史太精彩

越扒越有,被人民网点名后,闫学晶又被曝身份造假,成名史太精彩

奇思妙想草叶君
2026-01-14 21:18:53
锦江区砂砂舞惊雷:包间惊魂与舞客们的20小时拘留

锦江区砂砂舞惊雷:包间惊魂与舞客们的20小时拘留

成都人的故事
2026-01-15 21:40:03
“棋圣”,落子

“棋圣”,落子

中国新闻周刊
2026-01-15 14:09:48
1994年大案:“变态色魔”王万明,他的荒淫无耻,比你想的更恶劣

1994年大案:“变态色魔”王万明,他的荒淫无耻,比你想的更恶劣

叹为观止易
2026-01-16 10:22:49
公安部A级通缉犯在狱中被揪出,隐瞒13年身份曝光:涉嫌贩卖毒品7500余克,妻儿出现让其卸下伪装

公安部A级通缉犯在狱中被揪出,隐瞒13年身份曝光:涉嫌贩卖毒品7500余克,妻儿出现让其卸下伪装

大风新闻
2026-01-15 18:07:04
凑凑火锅郑州门店清零?呷哺呷哺回应

凑凑火锅郑州门店清零?呷哺呷哺回应

鲁中晨报
2026-01-15 14:11:08
输上海40分!杜锋有4个败笔,是广东队输球的主要因素

输上海40分!杜锋有4个败笔,是广东队输球的主要因素

体育哲人
2026-01-16 11:53:45
油轮背后的静默屠杀:中方七十二小时的底层逻辑重构

油轮背后的静默屠杀:中方七十二小时的底层逻辑重构

宇视天下
2026-01-15 23:14:30
重庆合川呆呆爆火后续!满屋堆成山的礼物全部化成整个村的温暖

重庆合川呆呆爆火后续!满屋堆成山的礼物全部化成整个村的温暖

南方健哥
2026-01-15 15:15:05
卡尼赴京吃晚宴,中方高规格接待!现场安排特殊,交易迎来窗口期

卡尼赴京吃晚宴,中方高规格接待!现场安排特殊,交易迎来窗口期

傲傲讲历史
2026-01-16 02:58:55
为什么感觉美国在走向衰落?那是因为你是中国人

为什么感觉美国在走向衰落?那是因为你是中国人

扶苏聊历史
2025-12-19 10:02:54
中央把话说透了:真正的公务员,是这8类人,很多人搞错了

中央把话说透了:真正的公务员,是这8类人,很多人搞错了

搬砖营Z
2026-01-12 21:10:19
2026-01-16 13:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12128文章数 142541关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

本地
家居
教育
游戏
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

岁月柔情 现代品质轻奢

教育要闻

“我们是驴吗?”小学老师晒学校午餐,学校餐饮管理引深思

谁都能做恐怖游戏 但迅哥留下的“人窟”你敢进吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版