网易首页 > 网易号 > 正文 申请入驻

哈工大团队揭秘:多模态AI如何在"听"与"看"之间做出选择

0
分享至


这项由哈尔滨工业技术大学深圳校区、鹏程实验室和哈尔滨工业大学联合开展的研究发表于2026年2月,论文编号为arXiv:2602.03677v1。研究团队通过深入分析多模态大语言模型的内部机制,首次揭示了这些AI系统如何在面临视觉和文本信息冲突时做出选择的神秘过程。

当你使用手机上的AI助手,同时给它看一张图片和发送一段文字说明时,如果图片显示的内容和文字描述完全不同,AI会选择相信哪一个?这个看似简单的问题,实际上涉及到当前最先进AI系统内部一套极其复杂的"仲裁机制"。

多模态大语言模型就像一个同时精通多种语言的翻译官,它不仅能理解文字,还能"看懂"图像。这些模型在日常应用中表现卓越,从智能客服到自动驾驶,从医疗诊断到教育辅导,几乎无处不在。然而,当它们面临相互冲突的信息时,内部究竟发生了什么,一直是个谜团。

研究团队设计了一个巧妙的实验来揭开这个谜团。他们构建了一个特殊的测试环境,故意让AI同时接收到矛盾的视觉和文本信息。比如,给AI展示一张显示两个人的图片,同时提供一段描述三个人的文字。然后明确指示AI:"请根据图像内容回答问题,而不要依据文字描述。"通过这种方式,研究团队能够观察AI内部的"决策过程"。

为了深入了解这个过程,研究团队开发了一套独特的分析方法,就像给AI做了一次"大脑扫描"。他们使用了一种叫做"因果注意力阻断"的技术,这个技术就像在AI的神经网络中设置路障,观察信息流动被阻断后会发生什么变化。同时,他们还提出了一个新的度量标准叫做"归一化有向结构分歧",用来精确测量AI在面临选择时的内部变化。

通过这些分析工具,研究团队发现了一个令人惊讶的现象:AI并不是直接从视觉或文本信息中提取答案,而是通过一个特殊的"中转站"来处理所有信息。这个中转站就是指令文本中的关键词汇,研究团队将其称为"指令锚点"。

想象一下,AI的大脑就像一个繁忙的交通枢纽,各种信息就像来自不同方向的车流。视觉信息和文本信息不会直接相撞,而是都先汇集到一个特殊的"调度中心"——指令锚点。在这里,AI会根据用户的具体指令来决定最终采用哪种信息。

这个发现颠覆了人们对AI工作方式的传统认知。以往研究者认为,AI会同时处理所有信息然后直接给出答案。但实际上,AI有一套更加精密的内部"仲裁系统",它会先将所有信息汇总到指令锚点,然后在这里进行最终的选择。

研究团队进一步深入分析了这个仲裁过程的具体机制。他们发现,AI的信息处理可以分为两个截然不同的阶段。在浅层处理阶段,AI像一个勤劳的秘书,不加选择地收集所有可用信息,将视觉线索和文本线索都整理汇总到指令锚点。这个阶段没有任何筛选,就像把所有相关资料都放到办公桌上。

而在深层处理阶段,AI变身为一个精明的决策者。它会根据用户指令的具体要求,在指令锚点处对收集到的信息进行严格筛选和仲裁。如果用户明确要求"根据图像回答",AI就会在这个阶段强化视觉信息,抑制文本信息的影响。

有趣的是,研究团队还发现了AI内部的一种"语义惯性"现象。AI的某些组件(称为MLP层)会表现出一种固执的倾向,它们更倾向于依赖训练时学到的知识模式,有时会与用户的具体指令产生冲突。这就像一个经验丰富的老师,即使学生明确要求用特定方法解题,老师仍然习惯性地想使用自己熟悉的方法。

为了验证这些发现,研究团队进行了一系列精巧的"手术式"实验。他们精确定位了负责模态仲裁的关键"神经元群"——大约占总数5%的特殊注意力头。通过阻断这些关键组件的功能,他们发现AI的模态选择能力会急剧下降60%。相反,通过增强这些组件的活动,他们能够让原本"犯糊涂"的AI恢复正确的选择能力,成功率提升近60%。

这些实验结果令人震撼,因为它们表明AI的复杂行为实际上是由相对少数的关键组件控制的。就像一个庞大组织的关键决策往往由少数高层管理者做出一样,AI的模态选择也依赖于这些"精英神经元"的协调工作。

研究团队还发现了另一个有趣现象:在这些关键的决策神经元中,有一部分是"通用型"的,无论用户要求选择视觉还是文本信息,它们都发挥重要作用。另一部分则是"专业型"的,专门负责处理特定类型的模态选择任务。这种分工合作的机制确保了AI能够灵活应对各种不同的指令要求。

为了确保研究结果的可靠性,团队在多个不同的AI模型上重复了这些实验,包括Qwen2.5-VL-7B、InternVL3-8B和LLaVA-1.5-7B等主流模型。令人欣慰的是,所有模型都展现出相似的内部机制,这表明他们发现的规律具有普遍性,不是某个特定模型的偶然特征。

这项研究的意义远不止于满足科学好奇心。在实际应用中,理解AI的内部工作机制对于提升其可靠性和安全性具有重要价值。比如,在医疗诊断场景中,如果AI同时接收到X光片和病历文本信息,医生需要确信AI能够按照指定优先级正确处理这些信息。

研究团队的发现还为改进AI系统设计指明了方向。既然指令锚点如此重要,未来的AI架构可以专门优化这个组件,使其更加高效和可控。同时,了解了"语义惯性"现象后,工程师们可以设计特殊机制来平衡预训练知识和具体指令之间的关系。

此外,这项研究还揭示了AI系统的一个重要特征:尽管它们内部机制极其复杂,但关键的决策过程往往集中在少数关键组件上。这为开发更加可解释和可控的AI系统提供了新思路。通过重点监控和调节这些关键组件,我们有望构建更加透明和可信的AI系统。

从更广泛的角度看,这项研究代表了AI可解释性研究的重要进展。长期以来,AI系统被视为"黑盒子",人们只能观察输入和输出,无法了解内部的决策过程。而这项研究就像为这个黑盒子安装了"透视窗",让我们能够直接观察AI的"思考过程"。

当然,这项研究也存在一定的局限性。目前的分析主要集中在注意力层面,还没有深入到单个神经元的级别。未来的研究可能需要更加精细的分析工具来完全揭示AI内部的工作机制。同时,研究主要关注的是冲突情况下的模态选择,在正常情况下AI如何整合多模态信息还需要进一步探索。

不过,这些局限性丝毫不能掩盖这项研究的重要价值。它不仅加深了我们对当前AI系统的理解,也为未来开发更加智能、可控的多模态AI系统奠定了重要基础。随着AI技术在各个领域的深入应用,这种"透明化"研究将变得越来越重要。

说到底,这项研究告诉我们一个重要道理:即使是最复杂的AI系统,其内部也有着清晰的逻辑结构。通过科学的方法,我们不仅能够理解这些系统的工作原理,还能够根据理解来改进和优化它们。这为构建更加可信、可控的AI未来指明了方向。对于普通用户而言,这意味着我们使用的AI助手将变得更加可靠和透明,当我们给出明确指令时,我们可以更加信任它会按照我们的意图执行任务。有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2602.03677v1查询完整研究内容。

Q&A

Q1:什么是指令锚点?

A:指令锚点是多模态AI系统中的一个特殊"中转站",位于指令文本中的关键位置。当AI同时接收视觉和文本信息时,所有信息都会先汇聚到这个锚点,然后根据用户的具体指令在这里进行最终的选择和仲裁,就像交通调度中心一样协调不同来源的信息。

Q2:为什么只有5%的神经元就能控制AI的选择行为?

A:研究发现AI的复杂行为实际上由少数关键组件控制,这些"精英神经元"专门负责模态仲裁。就像一个大公司的关键决策往往由少数高层管理者制定一样,这5%的特殊注意力头承担着协调和决策的核心职能,它们的活动直接决定了AI最终会选择视觉还是文本信息。

Q3:语义惯性现象是什么意思?

A:语义惯性是指AI的某些组件(MLP层)会习惯性地依赖训练时学到的知识模式,有时会与用户的具体指令产生冲突。这就像一个经验丰富的老师,即使学生要求用特定方法解题,老师仍然倾向于使用自己熟悉的方法。这种现象会对AI的指令遵循能力产生一定的对抗性影响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火爆!成都多地已约满!

火爆!成都多地已约满!

掌上金牛
2026-02-05 16:39:19
大S刚嫁具俊晔「健康就已极差」:吃不下动不了! 医曝生二胎急速恶化

大S刚嫁具俊晔「健康就已极差」:吃不下动不了! 医曝生二胎急速恶化

ETtoday星光云
2026-02-05 13:50:07
广东21地市成绩单出炉!10城增速跑赢全省,“十五五”开局看这些信号

广东21地市成绩单出炉!10城增速跑赢全省,“十五五”开局看这些信号

新浪财经
2026-02-05 19:02:32
爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

海佑讲史
2026-02-05 13:00:05
他曾任两大王牌兵团政委,只因一桩事处置失当,1955年授衔仅为中将

他曾任两大王牌兵团政委,只因一桩事处置失当,1955年授衔仅为中将

寄史言志
2026-02-05 23:45:12
普通人真的一年连10万都挣不到吗?来自一位985研究生

普通人真的一年连10万都挣不到吗?来自一位985研究生

夜深爱杂谈
2026-02-04 23:21:20
你知道中国最大的资金外流通道是什么吗?

你知道中国最大的资金外流通道是什么吗?

流苏晚晴
2026-02-02 18:08:27
“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

行者马生的笔记
2026-01-27 21:15:41
美股芯片股走高 博通涨超4%

美股芯片股走高 博通涨超4%

财联社
2026-02-05 22:52:05
11场6球3助攻,维尔茨是近1个半月参与进球最多的英超球员

11场6球3助攻,维尔茨是近1个半月参与进球最多的英超球员

懂球帝
2026-02-06 02:04:07
特朗普又遭遇失败,纽森赢得一局

特朗普又遭遇失败,纽森赢得一局

山河路口
2026-02-05 18:23:36
我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

三农老历
2026-01-30 11:25:43
乌克兰:悔到肠子青,当年卖给中国三架“废铁”,今成大国重器?

乌克兰:悔到肠子青,当年卖给中国三架“废铁”,今成大国重器?

素衣读史
2026-01-26 18:51:48
同比暴涨96%,蔚来在用“零跑”苦撑未来

同比暴涨96%,蔚来在用“零跑”苦撑未来

ZAKER新闻
2026-02-04 20:39:01
“血裁”下亚马逊员工自述:赔偿N+6,有60天冷静期,以后很难找到这么好的公司了

“血裁”下亚马逊员工自述:赔偿N+6,有60天冷静期,以后很难找到这么好的公司了

搜狐科技
2026-02-05 20:30:08
优化公务员退出机制,减少人力资源错配

优化公务员退出机制,减少人力资源错配

南方都市报
2026-02-06 07:06:36
C罗还要继续罢赛?沙特联赛官方强硬回应来了

C罗还要继续罢赛?沙特联赛官方强硬回应来了

体坛周报
2026-02-06 08:46:29
证监会突袭,两家公司账户一夜冻结!

证监会突袭,两家公司账户一夜冻结!

东针商略
2026-02-05 23:22:44
解放军中罕见的一次越级提拔:副团长连升四级,被提拔成副军长

解放军中罕见的一次越级提拔:副团长连升四级,被提拔成副军长

品茗谈史论世事
2026-02-04 20:04:49
上海一女子懵了!10多万黄金被当成垃圾丢了,半个月后想起来

上海一女子懵了!10多万黄金被当成垃圾丢了,半个月后想起来

环球网资讯
2026-02-06 08:37:40
2026-02-06 09:24:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7158文章数 549关注度
往期回顾 全部

科技要闻

亚马逊盘后崩9%!2000亿美元AI豪赌吓坏投资者

头条要闻

教女儿直面死亡的患癌父亲去世 曾称"你当我去旅行了"

头条要闻

教女儿直面死亡的患癌父亲去世 曾称"你当我去旅行了"

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

美股、黄金、白银、比特币、石油全崩了

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

亲子
时尚
手机
数码
公开课

亲子要闻

长大之后肠子都得悔青了

今年春天一定要拥有的4件衣服,复古又时髦!

手机要闻

消息称苹果考虑使用聚酰亚胺薄膜制造iPhone Fold可折叠手机

数码要闻

2025中国笔记本电脑线上均价6672元 联想拿下销冠

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版