网易首页 > 网易号 > 正文 申请入驻

科学家揭示模型内部的信息流动层级,用于提升多模态AI系统透明性

0
分享至

“本次研究是在多模态大模型信息流动机制探索方面的开创性工作之一,首次系统性地分析了信息在跨模态交互中的流动路径。”对于荷兰阿姆斯特丹大学博士生张智和所在团队的新论文,审稿人给出上述评价。

张智表示,他发现当多模态大模型在做多模态任务的时候,模型从低层到高层分别做了以下工作。

第一步,模型将整个图像的全局视觉信息传播到语言对应的表示中。第二步,模型将与回答问题相关的特定视觉信息进一步传播到语言表示中。第三步,模型将整合后的多模态信息在问题的表示中流向输入序列的最后一个位置,以帮助生成最终预测。

值得注意的是,模型最初生成的答案是小写形式,然后将首字母转换为大写。这表明,模型的语义处理(内容理解)和语法处理(格式调整)是分开进行的。

在本次研究之中,张智采用了经过验证的可解释性工具(注意力消融),确保了方法的可靠性,并避免了对工具本身有效性的重复验证。这一研究不仅加深了对多模态大模型内部信息处理方式的理解,也为未来改进模型结构和优化跨模态信息融合提供了理论指导。

他表示,本次研究旨在揭露多模态大模型的内部工作机制,并在以下几个潜在的方向有应用前景:

首先,在模型运行效率方面,本次研究揭示了视觉-语言信息融合的关键阶段,可用于优化模型架构、减少冗余计算、提高推理速度,特别是在视觉问答(VQA,Visual Question Answering)、图像字幕生成等任务上提升性能。

其次,在模型编辑(Model Editing)方面,该成果提供了针对不同模态信息在不同层中作用的深刻理解,有助于开发更精准的多模态信息干预方法,使得模型在特定任务或场景下具备更强的适应性,比如在医疗影像分析、自动驾驶和智能监控等领域优化决策机制。

再次,在可解释性方面,该研究揭示了模型内部信息流动的层级结构,可用于提升多模态 AI 系统的透明性,为学术界和工业界开发更可控、更可信赖的 AI 模型提供理论支持,特别是在需要严格审核的领域比如法律、金融和医疗 AI 领域,能够确保 AI 决策过程的可追溯性和公平性。

近年来,多模态大模型在视觉-语言任务(如视觉问答、图像字幕生成等)中表现出了强大的能力。这些模型通常结合了当前流行的大模型和视觉编码器(Vision Encoder),使其能够同时处理图像和文本。

然而,尽管多模态大模型在实际任务中取得了显著进展,人们对其内部工作机制仍然缺乏深入理解,尤其是视觉信息和语言信息在模型内部是如何交互和融合的。

因此,本研究的目标是揭示多模态大模型在执行多模态任务的时候模型内部的工作机制是什么样的?尤其是不同模态(视觉和语言)之间的信息流动过程以及融合交互过程是怎样的?

基于此,本次课题的主要研究问题包括:

  • 视觉信息与语言信息如何融合?模型如何将整体图像信息于语言信息融合?模型如何将问题相关的视觉信息与语言信息融合?
  • 模型的不同层(layer)中如何处理不同模态信息?视觉和语言信息在模型的不同层中如何传播?低层、中层和高层的功能如何分工?
  • 视觉和语言信息如何影响最终预测?语言和视觉信息在最终预测答案时的贡献是什么?预测的答案在模型内部是如何生成的?

然而,现实很快给研究团队带来了挑战。多模态大模型是“牵一发动全身”的高度复杂系统,想要从底层细粒度地解析所有细节,不仅计算量巨大,分析难度也极高。为此,研究团队走了不少弯路,尝试了各种复杂的实验设计,但由于变量太多,得到的结果往往过于零散,难以形成完整的理论框架。

后来,在对大量实验数据进行深入分析后,研究团队意识到,需要回归最基础的问题——多模态信息流动的核心机制。于是,研究团队从一堆复杂的实验结果中,提炼出了多模态大模型最根本的核心问题:不同模态之间的信息流如何交互、如何融合?这一视角的转变,让研究工作变得更加清晰和有方向感,也让他们不再纠结过于细节的微观过程,而是专注于理解多模态大模型处理多模态信息的整体框架。这一策略最终帮助研究团队揭示了视觉-语言信息融合的两阶段机制,并建立了模型内部信息流动的解释框架。

研究中,有的发现是意想不到或者偶然发现的。比如:答案生成采取的是两阶段机制。最初,研究团队主要关注视觉信息和语言信息在网络中如何整合以及如何传播,但有一天在分析模型生成答案的过程中,张智无意中发现答案在中层就已经基本确定,而高层的作用似乎只是“修饰”答案比如将答案的首字母大写。这个发现让研究团队感到非常惊讶,因为大家一直以为整个模型的计算都是均匀推动答案预测的,但事实上它是分阶段进行的。这让张智意识到,研究团队不仅在研究模型的计算方式,更是在研究它的“思考方式”。

最终,相关论文以《跨模态信息在多模态大型语言模型中的流动》(Cross-modal Information Flow in Multimodal Large Language Models)为题发在arXiv[1]。

由于本次研究是在业界已经训练好并且表现比较好的模型上做的探索,因此研究团队下一步准备将研究的成果应用于模型的预训练中,旨在开发出一个更鲁棒和运行更高效的多模态大模型。

参考资料:

1.https://arxiv.org/pdf/2411.18620

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江学勤的“伊朗赢学”,不过是满纸荒唐言

江学勤的“伊朗赢学”,不过是满纸荒唐言

冰川思想库
2026-04-09 11:57:47
车臣一把手下令,大军备战,俄方正式摊牌,或准备歼灭5万美军

车臣一把手下令,大军备战,俄方正式摊牌,或准备歼灭5万美军

兵说
2026-04-09 16:59:25
江苏最有名的十位顶级专家

江苏最有名的十位顶级专家

王晓爱体彩
2026-04-10 12:03:32
全红婵后续:香港媒体先爆料,检察日报喊话严查,队友集体背刺!

全红婵后续:香港媒体先爆料,检察日报喊话严查,队友集体背刺!

眼光很亮
2026-04-09 12:34:30
涉嫌严重违纪违法,吴政被查

涉嫌严重违纪违法,吴政被查

都市快报橙柿互动
2026-04-10 11:47:01
林彪死后,家中清理出一物品,主席看后老泪纵横

林彪死后,家中清理出一物品,主席看后老泪纵横

转身微笑梅
2024-07-23 10:36:33
天啊!恩比德今日手术!基本赛季报销了!!

天啊!恩比德今日手术!基本赛季报销了!!

柚子说球
2026-04-10 08:28:23
朴朴闪电战:30天连下两城,福建五城贯通,线下大店首曝!

朴朴闪电战:30天连下两城,福建五城贯通,线下大店首曝!

即时刘说
2026-04-10 08:05:03
在迪拜工作的华人感慨:别信媒体吹牛,迪拜就相当于我国二线城市

在迪拜工作的华人感慨:别信媒体吹牛,迪拜就相当于我国二线城市

混沌录
2026-04-10 17:39:05
北京小客车指标审核结果出乎意料,究竟发生了什么?

北京小客车指标审核结果出乎意料,究竟发生了什么?

呼呼历史论
2026-04-10 17:33:54
杭州回应西湖连续一周撒7吨漂白粉

杭州回应西湖连续一周撒7吨漂白粉

第一财经资讯
2026-04-09 21:37:11
仅播4集收视破2!央视这部抗战新剧,杀疯了!

仅播4集收视破2!央视这部抗战新剧,杀疯了!

乡野小珥
2026-04-10 17:02:22
优思益事件后董宇辉首次现身直播间!用一句调侃的话给出有力回应

优思益事件后董宇辉首次现身直播间!用一句调侃的话给出有力回应

乡野小珥
2026-04-10 03:33:28
镇嵩军的真实面目有多可怕?阉割男童,奸淫所有妇女,天良丧尽!

镇嵩军的真实面目有多可怕?阉割男童,奸淫所有妇女,天良丧尽!

混沌录
2026-04-09 14:51:04
痛心 | 余红李牺牲!年仅45岁!

痛心 | 余红李牺牲!年仅45岁!

天津广播
2026-04-10 10:25:57
张雪这老板真会玩!庆功宴直接在食堂和投资人开整

张雪这老板真会玩!庆功宴直接在食堂和投资人开整

阿废冷眼观察所
2026-04-10 12:03:29
东部最新排名!76人掉队,骑士首轮对手变了,三大鱼腩冲状元签

东部最新排名!76人掉队,骑士首轮对手变了,三大鱼腩冲状元签

体坛小李
2026-04-10 11:29:59
冲上热搜!知名歌手自曝:满头斑秃和水泡,照片触目惊心……医生提醒:一年别超过2次

冲上热搜!知名歌手自曝:满头斑秃和水泡,照片触目惊心……医生提醒:一年别超过2次

19楼
2026-04-10 15:13:58
手感不佳,河村勇辉22分钟6投仅1中得到6分4板4助

手感不佳,河村勇辉22分钟6投仅1中得到6分4板4助

懂球帝
2026-04-10 09:50:22
朱琳现状:错过唐僧,二婚老公宠爱一生,73岁仍年轻漂亮

朱琳现状:错过唐僧,二婚老公宠爱一生,73岁仍年轻漂亮

萧狡科普解说
2026-04-10 01:21:23
2026-04-10 18:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16563文章数 514858关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

73岁骑友"抄近路"摔倒身亡 事发路段系村民自发修建

头条要闻

73岁骑友"抄近路"摔倒身亡 事发路段系村民自发修建

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

创业板改革制度落地 增设第4套上市标准

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

家居
数码
亲子
公开课
军事航空

家居要闻

复古风格 自然简约

数码要闻

哈趣Ace1:职场人的AI效率外脑,百元耳夹竟能重构办公体验

亲子要闻

小样,我还治不了你?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版