网易首页 > 网易号 > 正文 申请入驻

哈工大团队揭秘:多模态AI如何在"听"与"看"之间做出选择

0
分享至


这项由哈尔滨工业技术大学深圳校区、鹏程实验室和哈尔滨工业大学联合开展的研究发表于2026年2月,论文编号为arXiv:2602.03677v1。研究团队通过深入分析多模态大语言模型的内部机制,首次揭示了这些AI系统如何在面临视觉和文本信息冲突时做出选择的神秘过程。

当你使用手机上的AI助手,同时给它看一张图片和发送一段文字说明时,如果图片显示的内容和文字描述完全不同,AI会选择相信哪一个?这个看似简单的问题,实际上涉及到当前最先进AI系统内部一套极其复杂的"仲裁机制"。

多模态大语言模型就像一个同时精通多种语言的翻译官,它不仅能理解文字,还能"看懂"图像。这些模型在日常应用中表现卓越,从智能客服到自动驾驶,从医疗诊断到教育辅导,几乎无处不在。然而,当它们面临相互冲突的信息时,内部究竟发生了什么,一直是个谜团。

研究团队设计了一个巧妙的实验来揭开这个谜团。他们构建了一个特殊的测试环境,故意让AI同时接收到矛盾的视觉和文本信息。比如,给AI展示一张显示两个人的图片,同时提供一段描述三个人的文字。然后明确指示AI:"请根据图像内容回答问题,而不要依据文字描述。"通过这种方式,研究团队能够观察AI内部的"决策过程"。

为了深入了解这个过程,研究团队开发了一套独特的分析方法,就像给AI做了一次"大脑扫描"。他们使用了一种叫做"因果注意力阻断"的技术,这个技术就像在AI的神经网络中设置路障,观察信息流动被阻断后会发生什么变化。同时,他们还提出了一个新的度量标准叫做"归一化有向结构分歧",用来精确测量AI在面临选择时的内部变化。

通过这些分析工具,研究团队发现了一个令人惊讶的现象:AI并不是直接从视觉或文本信息中提取答案,而是通过一个特殊的"中转站"来处理所有信息。这个中转站就是指令文本中的关键词汇,研究团队将其称为"指令锚点"。

想象一下,AI的大脑就像一个繁忙的交通枢纽,各种信息就像来自不同方向的车流。视觉信息和文本信息不会直接相撞,而是都先汇集到一个特殊的"调度中心"——指令锚点。在这里,AI会根据用户的具体指令来决定最终采用哪种信息。

这个发现颠覆了人们对AI工作方式的传统认知。以往研究者认为,AI会同时处理所有信息然后直接给出答案。但实际上,AI有一套更加精密的内部"仲裁系统",它会先将所有信息汇总到指令锚点,然后在这里进行最终的选择。

研究团队进一步深入分析了这个仲裁过程的具体机制。他们发现,AI的信息处理可以分为两个截然不同的阶段。在浅层处理阶段,AI像一个勤劳的秘书,不加选择地收集所有可用信息,将视觉线索和文本线索都整理汇总到指令锚点。这个阶段没有任何筛选,就像把所有相关资料都放到办公桌上。

而在深层处理阶段,AI变身为一个精明的决策者。它会根据用户指令的具体要求,在指令锚点处对收集到的信息进行严格筛选和仲裁。如果用户明确要求"根据图像回答",AI就会在这个阶段强化视觉信息,抑制文本信息的影响。

有趣的是,研究团队还发现了AI内部的一种"语义惯性"现象。AI的某些组件(称为MLP层)会表现出一种固执的倾向,它们更倾向于依赖训练时学到的知识模式,有时会与用户的具体指令产生冲突。这就像一个经验丰富的老师,即使学生明确要求用特定方法解题,老师仍然习惯性地想使用自己熟悉的方法。

为了验证这些发现,研究团队进行了一系列精巧的"手术式"实验。他们精确定位了负责模态仲裁的关键"神经元群"——大约占总数5%的特殊注意力头。通过阻断这些关键组件的功能,他们发现AI的模态选择能力会急剧下降60%。相反,通过增强这些组件的活动,他们能够让原本"犯糊涂"的AI恢复正确的选择能力,成功率提升近60%。

这些实验结果令人震撼,因为它们表明AI的复杂行为实际上是由相对少数的关键组件控制的。就像一个庞大组织的关键决策往往由少数高层管理者做出一样,AI的模态选择也依赖于这些"精英神经元"的协调工作。

研究团队还发现了另一个有趣现象:在这些关键的决策神经元中,有一部分是"通用型"的,无论用户要求选择视觉还是文本信息,它们都发挥重要作用。另一部分则是"专业型"的,专门负责处理特定类型的模态选择任务。这种分工合作的机制确保了AI能够灵活应对各种不同的指令要求。

为了确保研究结果的可靠性,团队在多个不同的AI模型上重复了这些实验,包括Qwen2.5-VL-7B、InternVL3-8B和LLaVA-1.5-7B等主流模型。令人欣慰的是,所有模型都展现出相似的内部机制,这表明他们发现的规律具有普遍性,不是某个特定模型的偶然特征。

这项研究的意义远不止于满足科学好奇心。在实际应用中,理解AI的内部工作机制对于提升其可靠性和安全性具有重要价值。比如,在医疗诊断场景中,如果AI同时接收到X光片和病历文本信息,医生需要确信AI能够按照指定优先级正确处理这些信息。

研究团队的发现还为改进AI系统设计指明了方向。既然指令锚点如此重要,未来的AI架构可以专门优化这个组件,使其更加高效和可控。同时,了解了"语义惯性"现象后,工程师们可以设计特殊机制来平衡预训练知识和具体指令之间的关系。

此外,这项研究还揭示了AI系统的一个重要特征:尽管它们内部机制极其复杂,但关键的决策过程往往集中在少数关键组件上。这为开发更加可解释和可控的AI系统提供了新思路。通过重点监控和调节这些关键组件,我们有望构建更加透明和可信的AI系统。

从更广泛的角度看,这项研究代表了AI可解释性研究的重要进展。长期以来,AI系统被视为"黑盒子",人们只能观察输入和输出,无法了解内部的决策过程。而这项研究就像为这个黑盒子安装了"透视窗",让我们能够直接观察AI的"思考过程"。

当然,这项研究也存在一定的局限性。目前的分析主要集中在注意力层面,还没有深入到单个神经元的级别。未来的研究可能需要更加精细的分析工具来完全揭示AI内部的工作机制。同时,研究主要关注的是冲突情况下的模态选择,在正常情况下AI如何整合多模态信息还需要进一步探索。

不过,这些局限性丝毫不能掩盖这项研究的重要价值。它不仅加深了我们对当前AI系统的理解,也为未来开发更加智能、可控的多模态AI系统奠定了重要基础。随着AI技术在各个领域的深入应用,这种"透明化"研究将变得越来越重要。

说到底,这项研究告诉我们一个重要道理:即使是最复杂的AI系统,其内部也有着清晰的逻辑结构。通过科学的方法,我们不仅能够理解这些系统的工作原理,还能够根据理解来改进和优化它们。这为构建更加可信、可控的AI未来指明了方向。对于普通用户而言,这意味着我们使用的AI助手将变得更加可靠和透明,当我们给出明确指令时,我们可以更加信任它会按照我们的意图执行任务。有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2602.03677v1查询完整研究内容。

Q&A

Q1:什么是指令锚点?

A:指令锚点是多模态AI系统中的一个特殊"中转站",位于指令文本中的关键位置。当AI同时接收视觉和文本信息时,所有信息都会先汇聚到这个锚点,然后根据用户的具体指令在这里进行最终的选择和仲裁,就像交通调度中心一样协调不同来源的信息。

Q2:为什么只有5%的神经元就能控制AI的选择行为?

A:研究发现AI的复杂行为实际上由少数关键组件控制,这些"精英神经元"专门负责模态仲裁。就像一个大公司的关键决策往往由少数高层管理者制定一样,这5%的特殊注意力头承担着协调和决策的核心职能,它们的活动直接决定了AI最终会选择视觉还是文本信息。

Q3:语义惯性现象是什么意思?

A:语义惯性是指AI的某些组件(MLP层)会习惯性地依赖训练时学到的知识模式,有时会与用户的具体指令产生冲突。这就像一个经验丰富的老师,即使学生要求用特定方法解题,老师仍然倾向于使用自己熟悉的方法。这种现象会对AI的指令遵循能力产生一定的对抗性影响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普再次就停战谈判威胁伊朗

特朗普再次就停战谈判威胁伊朗

澎湃新闻
2026-03-26 20:24:03
巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

游民星空
2026-03-25 19:48:32
奥迪突然官宣:32.29万起,新车正式上市

奥迪突然官宣:32.29万起,新车正式上市

高科技爱好者
2026-03-25 23:08:37
杜淳老婆太能买了!戴4条金手链录开箱视频,保守估计花了10W+

杜淳老婆太能买了!戴4条金手链录开箱视频,保守估计花了10W+

蒂蒂茱家
2026-03-25 11:56:39
举国之力也找不到完整夏朝,为何?网友的神预言正在被考古证实

举国之力也找不到完整夏朝,为何?网友的神预言正在被考古证实

超人强动物俱乐部
2026-03-26 16:54:48
导弹打击效果显著,为什么伊朗不“梭哈”,要慢慢放以色列的血?

导弹打击效果显著,为什么伊朗不“梭哈”,要慢慢放以色列的血?

Ck的蜜糖
2026-03-24 01:46:13
近期“热播剧”排个名:逐玉倒数,冬去春来第三,第一杀疯了!

近期“热播剧”排个名:逐玉倒数,冬去春来第三,第一杀疯了!

无处遁形
2026-03-26 07:18:10
为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

复转这些年
2026-03-14 23:48:05
我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

大象新闻
2026-03-24 13:53:11
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
特朗普拒绝承认对伊朗打击是战争

特朗普拒绝承认对伊朗打击是战争

界面新闻
2026-03-26 15:51:22
南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

白云故事
2025-03-14 19:05:07
伊朗拒绝美国停战方案并提出伊方5项条件

伊朗拒绝美国停战方案并提出伊方5项条件

新京报
2026-03-25 23:58:14
吕迪格:几乎没有比战拜仁更大的挑战了;凯恩是世界前三中锋

吕迪格:几乎没有比战拜仁更大的挑战了;凯恩是世界前三中锋

懂球帝
2026-03-26 21:51:04
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
湖北气温直冲26℃!随后大逆转,外套先别收

湖北气温直冲26℃!随后大逆转,外套先别收

鲁中晨报
2026-03-26 19:57:02
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
2026-03-26 23:28:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
艺术
本地
房产
公开课

教育要闻

骂人没有杀伤力?那不是白忙活吗?

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版