网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 | 电子科技大学提出OWL,基于双路径注意力干预的多模态大模型物体幻觉缓解

0
分享至

来源:市场资讯

(来源:机器之心)


近年来,针对视觉语言大模型(LVLMs)中物体幻觉的缓解方法逐渐受到广泛关注。在现有工作中,基于注意力调控的解码优化方法在抑制幻觉任务上取得一定进展,但仍普遍存在如下问题:

  • 多数方法独立作用于视觉或文本单一模态的注意力,忽视了双模态注意力交互失衡这一核心诱因。

  • 缺乏对解码过程中跨模态依赖关系的量化衡量,导致干预机制粗放,缺乏理论指导。

为了解决上述问题,该论文提出 Owl,一种基于因果关系的双路径注意力干预框架,用于缓解视觉语言大模型中的物体幻觉。

论文的作者包括电子科技大学的余柳(第一作者)、陈忠昊、匡平(通讯作者)、冯志坤、周帆、 王岚和奥克兰大学的 Gillian Dobbie 教授。


  • 论文标题:Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs

  • 论文地址:https://arxiv.org/pdf/2511.09018

首先,该论文提出一个结构因果模型(如图 1),将分解后的视觉与文本注意力形式化为关键的中介变量,视觉 / 文本输入、视觉 / 文本注意力、视觉 / 文本先验以及语言输出等关键变量。模型清晰地表明,视觉与文本先验这两个混杂因子,会通过扭曲对应的注意力(中介变量)来影响输出,最终导致幻觉。


图1 Owl 的结构因果模型

其次,该论文提出了 VTACR 指标,通过计算当前生成 token 对所有视觉 token 的平均注意力与对所有文本 token 的平均注意力之比,来量化模型在每一解码层对两种模态的依赖程度,为细粒度的注意力干预提供了可量化的信号指导。




最后,提出了双路径对比注意力干预方法,通过构建一个视觉增强路径与一个文本增强路径,并利用对比解码策略放大二者差异,从而动态纠正注意力偏差,在抑制幻觉的同时保持了生成的流畅性与丰富性。


在推理过程中,Owl 框架首先对语言解码器的注意力进行分层分解,将每个解码层的注意力权重明确划分为视觉注意力和文本注意力两部分。基于从大量样本统计得到的 VTACR 分布,框架自适应地沿着两条路径调制注意力:在视觉增强路径中,提升对图像 token 的关注并抑制文本历史的影响;在文本增强路径中,则强化文本依赖并削弱视觉信号。通过这种双路径对比解码策略,模型能够显著放大忠实预测与幻觉内容之间的差异,从而在抑制幻觉对象的同时,有效保留正确的预测结果。

实验结果

该论文在三个代表性的 LVLMs 上评估了 Owl 方法:LLaVA-1.5、MiniGPT-4 和 Shikra。对比基线包括传统解码策略(如集束搜索、贪心解码)以及当前先进的抗幻觉方法,如 VCD、PAI、OPERA 和 CausalMM,确保评估的全面性与公平性。

在 CHAIR 基准上,Owl 在句子级与实例级幻觉指标上均显著优于所有基线。例如,在 LLaVA-1.5 上,Owl 将句子级幻觉降低 17.6%,实例级降低 21.4%,同时生成了更长的文本,说明 Owl 在抑制幻觉的同时未牺牲内容丰富度。


为验证 Owl 是否影响基本理解能力,该论文在五个 VQA 任务上进行了测试。图 3 结果显示,Owl 在多数任务上性能持平甚至略有提升,如在 VizWiz 上提升 7.6%,说明 Owl 方法在抑制幻觉的同时,反而增强了模型在复杂视觉场景下的理解能力。


图3 不同视觉语言模型在五个 VQA 基准和三个常见基准上的性能比较

该论文也使用 GPT-4V 对生成内容进行人工对齐评估,图 4 展示了 Owl 在 “Correctness” 和 “Detailedness” 上均有提升。以 LLaVA-1.5 为例,正确性提升 20.1%,详细度提升 11.3%,说明生成内容不仅更忠实于图像,也更具信息量。


论文展示了多个典型幻觉案例,Owl 通过双路径对比解码,有效抑制了这类错误,生成结果更贴合图像真实内容。图 5 揭示了 Owl 的内部工作机制:通过对比解码策略,它像一位精准的编辑,在模型生成每个词的瞬间,抑制由语言惯性引发的 “幻觉词汇”(红色),并提升忠于图像的 “正确词汇”(绿色)的优先级。图 6 则展示了 Owl 的最终成效:在面对多种易混淆的真实场景时,相比其他模型常 “无中生有”,Owl 能像一位严谨的侦探,始终坚守视觉证据,输出稳定而准确的结果。



第一作者信息

余柳,电子科技大学博士生,在 ACL、AAAI、SIGIR、MM 等高水平会议和期刊发表论文 10 余篇,研究方向包括生成式 AI 的内生安全、幻觉和偏见的缓解负责任的 AI,社交网络、信息传播、虚假信息检测等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法官隐名 :一场悄无声息的XXX

法官隐名 :一场悄无声息的XXX

呦呦鹿鸣
2026-01-07 22:12:24
农民日报关于河北农民取暖难的稿,为啥不见了?

农民日报关于河北农民取暖难的稿,为啥不见了?

笔杆论道
2026-01-08 07:02:14
挨冻的河北农村老人:每年好几千燃气费舍不得烧,合作医疗也得好几千

挨冻的河北农村老人:每年好几千燃气费舍不得烧,合作医疗也得好几千

小萝卜丝
2026-01-08 11:23:44
昆山一外企电子大厂突发解散:300多名员工获N+1补偿金和购物卡

昆山一外企电子大厂突发解散:300多名员工获N+1补偿金和购物卡

六子吃凉粉
2026-01-08 12:34:04
柏林世纪大断电已有五天,超10万人受灾!市长定性:是恐袭!

柏林世纪大断电已有五天,超10万人受灾!市长定性:是恐袭!

新欧洲
2026-01-07 20:07:48
突发!芯片三巨头集体“撤离”,中国厂商:这泼天的富贵必须抓住

突发!芯片三巨头集体“撤离”,中国厂商:这泼天的富贵必须抓住

科普100克克
2026-01-08 10:09:45
新华社痛批!多地加油站疯狂作弊,网友:罚2000是在鼓励犯罪吗?

新华社痛批!多地加油站疯狂作弊,网友:罚2000是在鼓励犯罪吗?

徐德文科学频道
2026-01-08 15:05:15
一条新闻消失了

一条新闻消失了

深蓝财经
2026-01-07 14:22:05
【U23亚洲杯】杨希王钰栋失良机 中国0比0伊拉克

【U23亚洲杯】杨希王钰栋失良机 中国0比0伊拉克

体坛周报
2026-01-08 23:58:09
字母哥放话永不申请交易:想在雄鹿打完生涯 除非他们不再想要我

字母哥放话永不申请交易:想在雄鹿打完生涯 除非他们不再想要我

罗说NBA
2026-01-08 22:56:51
养生狂魔猝死!一女子称40岁丈夫6点跑步10点睡,很少吃油盐走了

养生狂魔猝死!一女子称40岁丈夫6点跑步10点睡,很少吃油盐走了

火山詩话
2026-01-08 09:19:19
吹杨被交易至奇才!掏出手机起身离场 落寞背影预示老鹰时代落幕

吹杨被交易至奇才!掏出手机起身离场 落寞背影预示老鹰时代落幕

颜小白的篮球梦
2026-01-08 10:44:54
忍无可忍!篮球专家痛批:直播搬到菜市场,CBA早晚要出事

忍无可忍!篮球专家痛批:直播搬到菜市场,CBA早晚要出事

体育哲人
2026-01-08 12:46:07
四川高县一村支书暴打残疾村妇致轻伤二级!法院:免于刑事处罚!

四川高县一村支书暴打残疾村妇致轻伤二级!法院:免于刑事处罚!

兵叔评说
2026-01-07 12:13:15
12战全败!段睿骐丢中圈三分绝杀四川惜败北控 廖三宁18+6+5

12战全败!段睿骐丢中圈三分绝杀四川惜败北控 廖三宁18+6+5

醉卧浮生
2026-01-08 21:41:45
闫学晶风波再升级!称自己的钱够花几辈子,凭本事吃饭,爱咋咋地

闫学晶风波再升级!称自己的钱够花几辈子,凭本事吃饭,爱咋咋地

小徐讲八卦
2026-01-08 10:34:47
临走前李在明涉台表述更进一步,并提四大请求,中方应对很有格局

临走前李在明涉台表述更进一步,并提四大请求,中方应对很有格局

博览历史
2026-01-08 18:45:46
现场视频:太子集团陈志被押解回国!太子银行进入清算程序:停止新增业务,贷款人仍需按时还款

现场视频:太子集团陈志被押解回国!太子银行进入清算程序:停止新增业务,贷款人仍需按时还款

每日经济新闻
2026-01-08 17:57:11
湖南一男子在高速上开车使用辅助驾驶,酣睡20公里后撞上护栏

湖南一男子在高速上开车使用辅助驾驶,酣睡20公里后撞上护栏

环球网资讯
2026-01-07 19:35:13
万科A:郁亮因到龄退休辞任公司董事、执行副总裁职务

万科A:郁亮因到龄退休辞任公司董事、执行副总裁职务

财联社
2026-01-08 18:22:05
2026-01-09 00:19:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1964423文章数 5194关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

艺术
游戏
教育
时尚
数码

艺术要闻

颐和园金光穿洞

山寨《黑神话》续作上架 PS 商店 / 《GTA 6》或第三次跳票

教育要闻

浙江首考地理:牛拉屎放屁,我该怎么办(减排)?!

珍珠专场|| 无论18岁还是80岁,总是会为它再一次心动

数码要闻

华硕2026款超大屏核显本Vivobook 18面世,至高锐龙AI 9 465

无障碍浏览 进入关怀版