网易首页 > 网易号 > 正文 申请入驻

科学家揭示模型内部的信息流动层级,用于提升多模态AI系统透明性

0
分享至

“本次研究是在多模态大模型信息流动机制探索方面的开创性工作之一,首次系统性地分析了信息在跨模态交互中的流动路径。”对于荷兰阿姆斯特丹大学博士生张智和所在团队的新论文,审稿人给出上述评价。

张智表示,他发现当多模态大模型在做多模态任务的时候,模型从低层到高层分别做了以下工作。

第一步,模型将整个图像的全局视觉信息传播到语言对应的表示中。第二步,模型将与回答问题相关的特定视觉信息进一步传播到语言表示中。第三步,模型将整合后的多模态信息在问题的表示中流向输入序列的最后一个位置,以帮助生成最终预测。

值得注意的是,模型最初生成的答案是小写形式,然后将首字母转换为大写。这表明,模型的语义处理(内容理解)和语法处理(格式调整)是分开进行的。

在本次研究之中,张智采用了经过验证的可解释性工具(注意力消融),确保了方法的可靠性,并避免了对工具本身有效性的重复验证。这一研究不仅加深了对多模态大模型内部信息处理方式的理解,也为未来改进模型结构和优化跨模态信息融合提供了理论指导。

他表示,本次研究旨在揭露多模态大模型的内部工作机制,并在以下几个潜在的方向有应用前景:

首先,在模型运行效率方面,本次研究揭示了视觉-语言信息融合的关键阶段,可用于优化模型架构、减少冗余计算、提高推理速度,特别是在视觉问答(VQA,Visual Question Answering)、图像字幕生成等任务上提升性能。

其次,在模型编辑(Model Editing)方面,该成果提供了针对不同模态信息在不同层中作用的深刻理解,有助于开发更精准的多模态信息干预方法,使得模型在特定任务或场景下具备更强的适应性,比如在医疗影像分析、自动驾驶和智能监控等领域优化决策机制。

再次,在可解释性方面,该研究揭示了模型内部信息流动的层级结构,可用于提升多模态 AI 系统的透明性,为学术界和工业界开发更可控、更可信赖的 AI 模型提供理论支持,特别是在需要严格审核的领域比如法律、金融和医疗 AI 领域,能够确保 AI 决策过程的可追溯性和公平性。

近年来,多模态大模型在视觉-语言任务(如视觉问答、图像字幕生成等)中表现出了强大的能力。这些模型通常结合了当前流行的大模型和视觉编码器(Vision Encoder),使其能够同时处理图像和文本。

然而,尽管多模态大模型在实际任务中取得了显著进展,人们对其内部工作机制仍然缺乏深入理解,尤其是视觉信息和语言信息在模型内部是如何交互和融合的。

因此,本研究的目标是揭示多模态大模型在执行多模态任务的时候模型内部的工作机制是什么样的?尤其是不同模态(视觉和语言)之间的信息流动过程以及融合交互过程是怎样的?

基于此,本次课题的主要研究问题包括:

  • 视觉信息与语言信息如何融合?模型如何将整体图像信息于语言信息融合?模型如何将问题相关的视觉信息与语言信息融合?
  • 模型的不同层(layer)中如何处理不同模态信息?视觉和语言信息在模型的不同层中如何传播?低层、中层和高层的功能如何分工?
  • 视觉和语言信息如何影响最终预测?语言和视觉信息在最终预测答案时的贡献是什么?预测的答案在模型内部是如何生成的?

然而,现实很快给研究团队带来了挑战。多模态大模型是“牵一发动全身”的高度复杂系统,想要从底层细粒度地解析所有细节,不仅计算量巨大,分析难度也极高。为此,研究团队走了不少弯路,尝试了各种复杂的实验设计,但由于变量太多,得到的结果往往过于零散,难以形成完整的理论框架。

后来,在对大量实验数据进行深入分析后,研究团队意识到,需要回归最基础的问题——多模态信息流动的核心机制。于是,研究团队从一堆复杂的实验结果中,提炼出了多模态大模型最根本的核心问题:不同模态之间的信息流如何交互、如何融合?这一视角的转变,让研究工作变得更加清晰和有方向感,也让他们不再纠结过于细节的微观过程,而是专注于理解多模态大模型处理多模态信息的整体框架。这一策略最终帮助研究团队揭示了视觉-语言信息融合的两阶段机制,并建立了模型内部信息流动的解释框架。

研究中,有的发现是意想不到或者偶然发现的。比如:答案生成采取的是两阶段机制。最初,研究团队主要关注视觉信息和语言信息在网络中如何整合以及如何传播,但有一天在分析模型生成答案的过程中,张智无意中发现答案在中层就已经基本确定,而高层的作用似乎只是“修饰”答案比如将答案的首字母大写。这个发现让研究团队感到非常惊讶,因为大家一直以为整个模型的计算都是均匀推动答案预测的,但事实上它是分阶段进行的。这让张智意识到,研究团队不仅在研究模型的计算方式,更是在研究它的“思考方式”。

最终,相关论文以《跨模态信息在多模态大型语言模型中的流动》(Cross-modal Information Flow in Multimodal Large Language Models)为题发在arXiv[1]。

由于本次研究是在业界已经训练好并且表现比较好的模型上做的探索,因此研究团队下一步准备将研究的成果应用于模型的预训练中,旨在开发出一个更鲁棒和运行更高效的多模态大模型。

参考资料:

1.https://arxiv.org/pdf/2411.18620

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国股市赚钱的有且只有一种人:用80%时间等待,用20%时间去操作

中国股市赚钱的有且只有一种人:用80%时间等待,用20%时间去操作

一方聊市
2025-12-23 14:08:09
女子因肺栓塞不幸走了!医生:天冷宁愿躺一天,也别干这5事!

女子因肺栓塞不幸走了!医生:天冷宁愿躺一天,也别干这5事!

健康之光
2026-01-13 10:54:55
英伟达股价上涨3.3%

英伟达股价上涨3.3%

每日经济新闻
2026-01-13 22:42:12
是否建议中国公民前往伊朗旅游?外交部回应

是否建议中国公民前往伊朗旅游?外交部回应

北青网-北京青年报
2026-01-13 15:35:16
北京消防三个支队降级,李军调任副总队长

北京消防三个支队降级,李军调任副总队长

靠山屯闲话
2026-01-13 20:37:23
曼城客战纽卡:哈兰德、塞门约、特拉福德首发,维萨出战

曼城客战纽卡:哈兰德、塞门约、特拉福德首发,维萨出战

懂球帝
2026-01-14 03:03:09
南方要下雪:今冬最冷寒潮将堆积南下,一号台风洛鞍将近期生成

南方要下雪:今冬最冷寒潮将堆积南下,一号台风洛鞍将近期生成

中国气象爱好者
2026-01-13 23:34:01
日本丰田汽车连续6年销量全球第一已成定局

日本丰田汽车连续6年销量全球第一已成定局

随波荡漾的漂流瓶
2026-01-13 16:38:46
湖南怀化全城喊“臭” ,当地回应:企业设备故障导致废气挥发

湖南怀化全城喊“臭” ,当地回应:企业设备故障导致废气挥发

环球网资讯
2026-01-13 14:14:08
日本签字了,高市选定中日主战场,对华开第二枪,解放军开始巡海

日本签字了,高市选定中日主战场,对华开第二枪,解放军开始巡海

小祁谈历史
2026-01-07 10:39:18
合川呆呆粉丝破百万!收入惊人,几个月前还在为千元的缝纫机发愁

合川呆呆粉丝破百万!收入惊人,几个月前还在为千元的缝纫机发愁

鋭娱之乐
2026-01-13 22:31:13
18岁弟弟被姐姐宠坏,面对青春期的困扰,竟这么帮他,酿成大祸

18岁弟弟被姐姐宠坏,面对青春期的困扰,竟这么帮他,酿成大祸

南山青松
2025-06-24 15:10:46
杭州保姆纵火案通灵实录:通灵人与被害人交流,得知朱小贞真实死因

杭州保姆纵火案通灵实录:通灵人与被害人交流,得知朱小贞真实死因

可儿故事汇
2024-08-29 12:50:53
24.7℃!破纪录!三九天成三月天?湖北将有大范围雨雪,阵风9级

24.7℃!破纪录!三九天成三月天?湖北将有大范围雨雪,阵风9级

极目新闻
2026-01-13 17:54:30
高露洁直播间盗改视频宣称可闭合牙缝,牙膏虚假宣传乱象何时休?

高露洁直播间盗改视频宣称可闭合牙缝,牙膏虚假宣传乱象何时休?

新京报
2026-01-13 21:16:01
周薪 34 万镑!卡里克上任首签锁定他,曼联 2000 万就能拿下

周薪 34 万镑!卡里克上任首签锁定他,曼联 2000 万就能拿下

澜归序
2026-01-14 01:49:33
麦当劳缩水实锤?网友爆料供应商早换了,评论区一言难尽,为啥

麦当劳缩水实锤?网友爆料供应商早换了,评论区一言难尽,为啥

你食不食油饼
2026-01-11 08:41:12
见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

现代小青青慕慕
2026-01-12 16:43:32
微信消息通知,终于改版了!

微信消息通知,终于改版了!

全是技能
2026-01-13 16:34:18
中国油轮原路返回,想看笑话的美国人,发现特朗普压根没吓住中企

中国油轮原路返回,想看笑话的美国人,发现特朗普压根没吓住中企

前沿天地
2026-01-14 00:57:01
2026-01-14 05:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16120文章数 514483关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

特朗普:已取消所有与伊朗官员的会谈

头条要闻

特朗普:已取消所有与伊朗官员的会谈

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

教育
时尚
本地
房产
艺术

教育要闻

分数不高想冲杭电?2024录取数据揭秘!

今年春天,外套长一点会更美!

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

艺术要闻

461米!14亿美元!越南第一高楼,形如“竹捆”

无障碍浏览 进入关怀版