网易首页 > 网易号 > 正文 申请入驻

语言先验「基础过强」,MLLMs 视觉衰减有何解?

0
分享至

来源:市场资讯

(来源:机器之心)


引言:在业内关于多模态大模型的研究进展中,MLLMs 凭借强大的语言能力能够处理复杂的视觉问答和推理任务。但是,文本主导的注意力偏差和视觉信息在长推理链中的衰减,也成为制约 MLLMs 实现真正跨模态理解的瓶颈。这一发现正推动相关的研究从单纯的规模扩展,转向对多模态模型架构和推理机制等的进一步探索。

目录

01. 「只看字不看图」,MLLMs 视觉信息被忽略?

文本主导性跨越图像、视频、音频等不同模态,成为了 MLLMs 的普遍缺陷?当推理链延长,模型的注意力如何从视觉 Token「迁移」至语言 Token?...

02. 万亿级文本主导,MLLMs 深层推理下视觉累计误差被放大?

「跨模态连接值」的指数衰减定律如何影响描述视觉信息在深层架构中的失效?...

03. 从 MODA 的显式对齐到 Look-Back 的隐式引导,MLLMs 如何「纠偏」?

双通道注意力对齐通过什么机制来消除模态间的不一致?VAR 如何确保所有推理都基于可追溯的视觉事实?...

「只看字不看图」,MLLMs 视觉信息被忽略?

1、近年来,以 Transformer 架构为基础的多模态大模型(MLLMs)通过有效融合大语言模型的推理能力和视觉编码器的感知能力,在视觉问答、图像描述等任务表现上取得了进展。

2、然而有研究者发现,多模态大模型存在模态失衡的问题。这种失衡表现为 MLLMs 的内在注意力分配机制存在系统性偏差,过度依赖语言先验,并系统性地轻视或忽略同时输入的视觉信息。[2-1]

① 在复杂的推理场景中,模型经常倾向于仅基于文本上下文生成输出,即使图像中包含丰富的、与文本相关甚至矛盾的关键信息。

3、这种现象并非特定于某类多模态模型,而是普遍存在于以大规模预训练语言模型(LLM)为核心骨干的 MLLMs 中,包括视觉-语言模型(如图像-文本、视频-文本)、音频-语言模型、时间序列-语言模型和图数据-语言模型等多种模态对。[2-1]

4、同样地,有研究指出随着推理链的延长,模型对图像内容的关注显著下降,而对指令等语言 token 的注意力显著增强,导致生成过程越来越依赖语言线索而非图像内容。[2-2]

① 研究者对模型内部的注意力分布进行了系统分析后,认为模型推理的增强是以牺牲视觉关注为代价换取语言推理能力的提升。

5、具体来说,相较于非推理模型,R1 类推理模型在生成过程中显著减少了对视觉 token 的关注,取而代之的是将大量注意力分配给指令 token 与语言上下文。[2-2]

6、更为关键的是,这种「注意力迁移」并非固定偏差,而是随着推理链条的延展而逐层加剧,即越往后层,模型越倾向于忽略图像输入,而完全依赖语言信号进行推理。[2-2]

① 在视觉聚焦任务中,非推理模型(Qwen2.5-VL)在多层均展现出对关键区域的稳定关注。

② 而 R1 模型(R1-OneVision)在同样问题下,注意力热图呈现出明显的视觉退化,深层几乎完全失焦。

③ 研究者还发现这一现象在模型进入「过度思考」阶段时表现得尤为明显。

7、这种衰减现象同样普遍存在于各类以 LLM 为核心的 MLLMs 中。例如,在视觉-语言模型中,深层解码器更关注文本语义,而视觉特征被压缩。在音频-语言模型中,音频细节在长序列推理中更容易被忽略。[2-2]

万亿级文本主导,MLLMs 深层推理下视觉累计误差被放大?

1、根据目前的研究工作,MLLMs 的模态失衡问题主要源于基础模型的不平衡和训练目标的失衡。

2、MLLMs 核心是经过万亿级预训练的文本数据,这种超大规模的文本训练给予了 LLM 强大的语言先验、内在逻辑和通用知识。在多模态输入场景下,模型倾向于利用这种内在的、较为可靠的语言先验进行预测和生成。[2-1]

3、尽管视觉特征通过视觉编码器进行了高维表示,但与上述语言特征空间相比,其代表性不充足,容易被模型在融合初期被忽略或者抑制。[2-3]

① MLLMs 在跨模态注意力过程中,语言 token 往往分配到更高的注意力权重。

4、模态失衡也和模型训练目标的特性有关。相比于视觉数据,语言数据通常是高度抽象和紧凑的,这种特性导致模型在训练时倾向于采用偏向语言的「捷径学习」策略,也就是通过学习文本中的统计模式而非依赖复杂的视觉信息来预测答案。[2-3]

5、同时,当前 MLLMs 的训练通常使用文本生成损失来进行监督,这种损失函数主要聚焦于优化输出文本序列的质量,但对模型内部视觉通路的指导较为稀疏,这进一步强化了模型在不确定情况下依赖表现更好的文本特征进行预测的趋势。[2-4]

6、而对于视觉信息逐层衰减的问题,则和跨模态连接值的层级退化有关。...

关注「机器之心PRO会员」,前往「收件箱」查看完整解读


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别去撩中年女人:她不是猎物,是你惹不起的人间清醒

别去撩中年女人:她不是猎物,是你惹不起的人间清醒

青苹果sht
2026-01-13 03:43:56
中国男足没必要哭:丢冠军正常,已找到正确道路,拿日本当垫脚石

中国男足没必要哭:丢冠军正常,已找到正确道路,拿日本当垫脚石

国足风云
2026-01-25 01:46:14
“难怪都不想娶老师!”看完评论区算是明白了,网友直呼太压抑了

“难怪都不想娶老师!”看完评论区算是明白了,网友直呼太压抑了

夜深爱杂谈
2026-01-23 18:28:03
92年,成都军区司令员张太恒去北京开会,却被中央降职调去了南京

92年,成都军区司令员张太恒去北京开会,却被中央降职调去了南京

禾所思
2024-12-30 11:39:32
火箭7分险胜活塞!没想到杜兰特赛后这么说,状态简直不可思议!

火箭7分险胜活塞!没想到杜兰特赛后这么说,状态简直不可思议!

丁蓳解说
2026-01-24 12:58:39
最高检发布个人信息保护检察公益诉讼典型案例,上海一医院医生及区急救中心人员,获取逝者及亲属信息800余份,提供给殡葬行业人员获利

最高检发布个人信息保护检察公益诉讼典型案例,上海一医院医生及区急救中心人员,获取逝者及亲属信息800余份,提供给殡葬行业人员获利

纵相新闻
2026-01-22 16:49:03
俄美乌首次三方会谈结束

俄美乌首次三方会谈结束

澎湃新闻
2026-01-24 23:17:01
美国加州宣布加入世卫组织疫情响应网络

美国加州宣布加入世卫组织疫情响应网络

每日经济新闻
2026-01-24 18:23:34
孙涛刚澄清不久,一个动作实现口碑爆棚,与闫学晶早已两极分化

孙涛刚澄清不久,一个动作实现口碑爆棚,与闫学晶早已两极分化

阿纂看事
2026-01-24 09:45:55
155万保证金打水漂!广州保利法拍豪宅悔拍,豪宅市场真的凉了?

155万保证金打水漂!广州保利法拍豪宅悔拍,豪宅市场真的凉了?

大龙哥的哥
2026-01-24 11:02:58
中国被下套了!土耳其免签坑惨游客,首批国人已被收割到破产

中国被下套了!土耳其免签坑惨游客,首批国人已被收割到破产

李橑在北漂
2026-01-25 02:33:56
越南球迷在亚足联官媒刷屏:请日本揍中国队10-0 他们只会摆大巴

越南球迷在亚足联官媒刷屏:请日本揍中国队10-0 他们只会摆大巴

风过乡
2026-01-24 17:17:13
嫣然医院房东确为医美机构思妍丽创始人张毅;李亚鹏时隔一周开播,直播间瞬间拥入超10万人,多款产品刚上线就被秒光,销售额超1683万

嫣然医院房东确为医美机构思妍丽创始人张毅;李亚鹏时隔一周开播,直播间瞬间拥入超10万人,多款产品刚上线就被秒光,销售额超1683万

极目新闻
2026-01-23 21:08:36
“女儿被人骑了一圈”,浙江家长情绪崩溃:那个小男孩把她当马

“女儿被人骑了一圈”,浙江家长情绪崩溃:那个小男孩把她当马

泽泽先生
2026-01-18 21:18:06
德约科维奇横扫晋级16强刷新纪录!将对阵捷克新星门西克,不好打

德约科维奇横扫晋级16强刷新纪录!将对阵捷克新星门西克,不好打

搏击江湖
2026-01-24 21:24:20
何庆魁向赵本山致歉:不好意思再向您要50万

何庆魁向赵本山致歉:不好意思再向您要50万

随遇而安之心
2026-01-22 18:19:44
一个危险的信号正在发生

一个危险的信号正在发生

黑哥聊数学
2026-01-18 21:54:58
2025年中国商人年度人物出炉:雷军刘强东未上榜,于东来出乎意料

2025年中国商人年度人物出炉:雷军刘强东未上榜,于东来出乎意料

不写散文诗
2026-01-24 13:28:32
一夜之间,房价又给我们开了个天大的玩笑,买不买房?心里有底了

一夜之间,房价又给我们开了个天大的玩笑,买不买房?心里有底了

巢客HOME
2026-01-24 04:20:03
曝许家印香港大宅挖出460平地牢,潜伏15年才被发现,是为藏啥?

曝许家印香港大宅挖出460平地牢,潜伏15年才被发现,是为藏啥?

小熊侃史
2026-01-05 10:43:25
2026-01-25 06:12:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057561文章数 5294关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

房产
游戏
数码
本地
公开课

房产要闻

正式官宣!三亚又一所名校要来了!

《轮回之兽》的优化不会像《宝可梦》系列那样差

数码要闻

UnifyDrive UC250/450 Pro家庭存储NAS发布,配置与价格曝光

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版