网易首页 > 网易号 > 正文 申请入驻

语言先验「基础过强」,MLLMs 视觉衰减有何解?

0
分享至

来源:市场资讯

(来源:机器之心)


引言:在业内关于多模态大模型的研究进展中,MLLMs 凭借强大的语言能力能够处理复杂的视觉问答和推理任务。但是,文本主导的注意力偏差和视觉信息在长推理链中的衰减,也成为制约 MLLMs 实现真正跨模态理解的瓶颈。这一发现正推动相关的研究从单纯的规模扩展,转向对多模态模型架构和推理机制等的进一步探索。

目录

01. 「只看字不看图」,MLLMs 视觉信息被忽略?

文本主导性跨越图像、视频、音频等不同模态,成为了 MLLMs 的普遍缺陷?当推理链延长,模型的注意力如何从视觉 Token「迁移」至语言 Token?...

02. 万亿级文本主导,MLLMs 深层推理下视觉累计误差被放大?

「跨模态连接值」的指数衰减定律如何影响描述视觉信息在深层架构中的失效?...

03. 从 MODA 的显式对齐到 Look-Back 的隐式引导,MLLMs 如何「纠偏」?

双通道注意力对齐通过什么机制来消除模态间的不一致?VAR 如何确保所有推理都基于可追溯的视觉事实?...

「只看字不看图」,MLLMs 视觉信息被忽略?

1、近年来,以 Transformer 架构为基础的多模态大模型(MLLMs)通过有效融合大语言模型的推理能力和视觉编码器的感知能力,在视觉问答、图像描述等任务表现上取得了进展。

2、然而有研究者发现,多模态大模型存在模态失衡的问题。这种失衡表现为 MLLMs 的内在注意力分配机制存在系统性偏差,过度依赖语言先验,并系统性地轻视或忽略同时输入的视觉信息。[2-1]

① 在复杂的推理场景中,模型经常倾向于仅基于文本上下文生成输出,即使图像中包含丰富的、与文本相关甚至矛盾的关键信息。

3、这种现象并非特定于某类多模态模型,而是普遍存在于以大规模预训练语言模型(LLM)为核心骨干的 MLLMs 中,包括视觉-语言模型(如图像-文本、视频-文本)、音频-语言模型、时间序列-语言模型和图数据-语言模型等多种模态对。[2-1]

4、同样地,有研究指出随着推理链的延长,模型对图像内容的关注显著下降,而对指令等语言 token 的注意力显著增强,导致生成过程越来越依赖语言线索而非图像内容。[2-2]

① 研究者对模型内部的注意力分布进行了系统分析后,认为模型推理的增强是以牺牲视觉关注为代价换取语言推理能力的提升。

5、具体来说,相较于非推理模型,R1 类推理模型在生成过程中显著减少了对视觉 token 的关注,取而代之的是将大量注意力分配给指令 token 与语言上下文。[2-2]

6、更为关键的是,这种「注意力迁移」并非固定偏差,而是随着推理链条的延展而逐层加剧,即越往后层,模型越倾向于忽略图像输入,而完全依赖语言信号进行推理。[2-2]

① 在视觉聚焦任务中,非推理模型(Qwen2.5-VL)在多层均展现出对关键区域的稳定关注。

② 而 R1 模型(R1-OneVision)在同样问题下,注意力热图呈现出明显的视觉退化,深层几乎完全失焦。

③ 研究者还发现这一现象在模型进入「过度思考」阶段时表现得尤为明显。

7、这种衰减现象同样普遍存在于各类以 LLM 为核心的 MLLMs 中。例如,在视觉-语言模型中,深层解码器更关注文本语义,而视觉特征被压缩。在音频-语言模型中,音频细节在长序列推理中更容易被忽略。[2-2]

万亿级文本主导,MLLMs 深层推理下视觉累计误差被放大?

1、根据目前的研究工作,MLLMs 的模态失衡问题主要源于基础模型的不平衡和训练目标的失衡。

2、MLLMs 核心是经过万亿级预训练的文本数据,这种超大规模的文本训练给予了 LLM 强大的语言先验、内在逻辑和通用知识。在多模态输入场景下,模型倾向于利用这种内在的、较为可靠的语言先验进行预测和生成。[2-1]

3、尽管视觉特征通过视觉编码器进行了高维表示,但与上述语言特征空间相比,其代表性不充足,容易被模型在融合初期被忽略或者抑制。[2-3]

① MLLMs 在跨模态注意力过程中,语言 token 往往分配到更高的注意力权重。

4、模态失衡也和模型训练目标的特性有关。相比于视觉数据,语言数据通常是高度抽象和紧凑的,这种特性导致模型在训练时倾向于采用偏向语言的「捷径学习」策略,也就是通过学习文本中的统计模式而非依赖复杂的视觉信息来预测答案。[2-3]

5、同时,当前 MLLMs 的训练通常使用文本生成损失来进行监督,这种损失函数主要聚焦于优化输出文本序列的质量,但对模型内部视觉通路的指导较为稀疏,这进一步强化了模型在不确定情况下依赖表现更好的文本特征进行预测的趋势。[2-4]

6、而对于视觉信息逐层衰减的问题,则和跨模态连接值的层级退化有关。...

关注「机器之心PRO会员」,前往「收件箱」查看完整解读


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

娱你同欢
2026-03-17 16:08:28
3.7万到12万+!高校思政课教师规模大增长

3.7万到12万+!高校思政课教师规模大增长

麦可思研究
2026-03-24 10:04:37
一路走好!张雪峰因心源性猝死离世,年仅41岁,其公司已发布讣告

一路走好!张雪峰因心源性猝死离世,年仅41岁,其公司已发布讣告

乌娱子酱
2026-03-24 22:02:15
一夜之间,微信为何失守?

一夜之间,微信为何失守?

虎嗅APP
2026-03-24 16:50:56
8亿欧“航母”彻底翻车,英媒曝图多尔下课,热刺新帅人选已确认

8亿欧“航母”彻底翻车,英媒曝图多尔下课,热刺新帅人选已确认

夏侯看英超
2026-03-25 00:35:09
快讯!伊朗议长,重大宣布

快讯!伊朗议长,重大宣布

果妈聊娱乐
2026-03-24 13:45:12
“惨案”:伊朗命中以色列核工业城,造成200多人伤亡!

“惨案”:伊朗命中以色列核工业城,造成200多人伤亡!

胜研集
2026-03-22 08:09:41
中国脑梗人数全球第一:肉吃得越少,血管就越通,真的吗?

中国脑梗人数全球第一:肉吃得越少,血管就越通,真的吗?

蜉蝣说
2026-03-24 10:00:57
日媒:2025年日本人平均月薪约14800元,创历史新高

日媒:2025年日本人平均月薪约14800元,创历史新高

随波荡漾的漂流瓶
2026-03-24 18:28:59
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
大风刮过,手掌还在,4根手指没了!这东西太危险,现在是高发期

大风刮过,手掌还在,4根手指没了!这东西太危险,现在是高发期

DrX说
2026-03-24 14:30:08
罗永浩与瑞幸咖啡联动,复刻“中杯大杯特大杯”经典名场面,15 年来“唯一恐惧”的女人现身

罗永浩与瑞幸咖啡联动,复刻“中杯大杯特大杯”经典名场面,15 年来“唯一恐惧”的女人现身

大风新闻
2026-03-23 17:44:06
情侣住酒店正亲密时,酒店员工突然从外面打开房间窗户。当事人:拒绝接受酒店的4000元补偿

情侣住酒店正亲密时,酒店员工突然从外面打开房间窗户。当事人:拒绝接受酒店的4000元补偿

观威海
2026-03-24 09:39:01
开拓者134-99胜篮网!杨瀚森100%命中率,4+3,卡马拉35分创新高

开拓者134-99胜篮网!杨瀚森100%命中率,4+3,卡马拉35分创新高

球场没跑道
2026-03-24 12:39:33
黎巴嫩出手 驱逐伊朗大使

黎巴嫩出手 驱逐伊朗大使

桂系007
2026-03-24 23:55:46
8.4GB大更!iOS26.4正式推送,安全拉满苹果AI仍缺席

8.4GB大更!iOS26.4正式推送,安全拉满苹果AI仍缺席

小柱解说游戏
2026-03-25 00:13:04
32GB+2TB!华为新机官宣:3月22日,全新开售!

32GB+2TB!华为新机官宣:3月22日,全新开售!

科技堡垒
2026-03-22 11:13:28
百词斩崩了!连续打卡几百天的学生称因“断签”急哭,公司深夜回应

百词斩崩了!连续打卡几百天的学生称因“断签”急哭,公司深夜回应

极目新闻
2026-03-24 07:58:43
英首相:美国若退出北约,美军须48小时内撤离英国基地

英首相:美国若退出北约,美军须48小时内撤离英国基地

短发过这夏
2026-03-23 16:49:37
2026-03-25 01:03:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2611723文章数 6101关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

时尚
手机
亲子
本地
房产

豪门梦破碎后,她居然还能爆红?

手机要闻

OPPO A6X手机现身中国电信终端产品库,至高8GB+256GB规格

亲子要闻

这是我们全家到目前为止最喜欢吃的三明治,没有之一! 杨雪呀

本地新闻

春日吃花第一站——云南

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

无障碍浏览 进入关怀版