网易首页 > 网易号 > 正文 申请入驻

蒙纳什大学发现多模态推理模型的"不确定性陷阱"

0
分享至


这项由蒙纳什大学、佐治亚理工学院、康奈尔大学等多所知名学府联合完成的研究发表于2026年3月的《计算机视觉与模式识别》会议,论文编号为arXiv:2603.13366v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你问一个AI"这张图片里有什么"时,它通常能给出详细的描述。但你有没有发现,有时AI会在描述中编造一些根本不存在的细节?比如在一张城市风景图中,它可能会说"远处的海面闪闪发光",而实际上照片里根本没有海。这种现象被称为"幻觉",就像人在极度疲劳时会看到不存在的东西一样。

更有趣的是,研究人员发现了一个奇特的规律:当AI使用"因为"、"然而"、"等等"这样的转折词时,接下来往往会出现这种胡编乱造的情况。这就好比一个人在说话时突然停顿,然后开始编故事。这些转折词就像是AI大脑"卡壳"的信号。

为了解决这个问题,蒙纳什大学的研究团队开发了一种名为LEAD的新技术。这项技术的巧妙之处在于,它能够察觉到AI何时处于"不确定"状态,然后像一个聪明的导航系统一样,在关键时刻切换推理模式,帮助AI保持清醒的判断力。

一、AI推理中的"转折词陷阱"

研究团队首先发现了一个令人惊讶的现象。他们分析了数千次AI对话,发现每当AI使用"因为"、"然而"、"实际上"、"等等"这样的转折词时,接下来出现胡编乱造内容的概率会大幅增加。这种情况在不同的AI模型中都普遍存在,包括OpenVLThinker、VL-Rethinker、Vision-R1和R1-Onevision等主流模型。

这个发现就像发现了人类说谎时的"小动作"。当一个人准备编故事时,往往会先说"其实"、"不过"这样的词来为自己争取思考时间。AI也有类似的行为模式。研究发现,在200个测试样本中,包含转折词的幻觉案例占据了所有幻觉现象的很大比例。

为了验证这个发现,研究团队进行了一个巧妙的实验。他们让AI描述一张山城风景图,AI说:"首先看到的是密集的山城建筑,白色和米色的房屋紧密排列...但是在最后一排建筑的后面,你可以看到海面微弱的蓝色闪光..."实际上,这张图片中根本没有海洋。关键在于,AI在说出"但是"这个转折词之后,开始了天马行空的想象。

这种现象背后的原因与AI的"不确定性"有关。当AI遇到难以判断的情况时,就像一个学生在考试中遇到不会的题目,会开始猜测和编造答案。转折词正是这种不确定状态的外在表现。

二、不确定性的"熵值密码"

研究团队深入AI的内部工作机制,发现了一个重要指标:熵值。这个概念听起来很复杂,但其实可以用一个简单的比喻来理解。

当你在餐厅点菜时,如果菜单上只有一道菜,你的选择是确定的,没有犹豫。但如果菜单上有十几道菜,每道菜看起来都不错,你就会陷入选择困难,这就是高熵状态。AI也是如此,当它面对一个问题时,如果只有一个明确答案,熵值就很低;如果有多种可能的答案在"竞争",熵值就会升高。

研究团队发现,AI在生成转折词时,熵值往往会飙升,表明AI正处于高度不确定的状态。这时候,AI就像一个迷路的人,开始胡乱猜测方向。更重要的是,这种高熵状态往往出现在推理链的关键节点,就像多米诺骨牌的第一张牌,一旦倒下,后面的推理就可能全盘皆错。

为了证实这一点,研究团队做了一个"消除实验"。他们人为地移除了AI推理过程中的高熵词汇,结果发现AI的推理能力大幅下降。这就像拆掉了桥梁的关键支撑柱,整个结构就不稳定了。相反,当他们移除低熵词汇时,AI的性能几乎没有受到影响。这说明那些看似"不确定"的高熵词汇,实际上承载着推理过程中的关键信息。

研究还发现,推理链早期的高熵词汇比后期的影响更大。这就像航海时的初始方向偏差,哪怕只偏离一度,最终可能会偏离目标数百公里。因此,在推理的早期阶段保持准确性至关重要。

三、LEAD技术:AI的"智能导航系统"

针对这些发现,研究团队开发了LEAD技术,全称是"潜在熵感知解码"。这个名字虽然听起来复杂,但其工作原理可以用一个简单的比喻来解释:它就像一个智能的汽车导航系统。

普通的导航系统只会按照预设路线行驶,即使前方堵车也会硬着头皮往前冲。而LEAD就像一个会察言观色的司机,能够根据路况实时调整驾驶策略。当它发现前方"交通拥堵"(即熵值升高),就会立即切换到"探索模式",同时考虑多条可能的路径;当"道路通畅"(熵值降低)时,就会切换回"高速模式",直奔目标。

具体来说,LEAD技术有两个关键机制。首先是"模式切换机制"。当AI的不确定性(熵值)超过设定阈值时,LEAD会从"离散推理模式"切换到"潜在推理模式"。在离散模式下,AI就像一个果断的决策者,选定一个答案就坚持下去。而在潜在模式下,AI变成了一个深思熟虑的智者,会同时考虑多种可能性,保持思维的开放性。

第二个机制是"视觉锚定注入"。研究团队发现,当AI处于高不确定性状态时,往往会忽略图片中的重要视觉信息,就像一个心不在焉的人看图片时会漏掉关键细节。因此,LEAD会在关键时刻向AI"提醒"视觉信息,就像在AI的耳边轻声说:"别忘了看看图片中真正有什么。"

这种技术的巧妙之处在于它的自适应性。LEAD不需要预先设定复杂的规则,而是根据AI当前的状态动态调整。就像一个经验丰富的舵手,能够根据风浪情况随时调整航向,既不会过于保守错失良机,也不会过于冒进导致翻船。

为了避免AI在两种模式之间频繁切换导致"晕车",LEAD还设置了一个"持续窗口"机制。这就像给汽车安装了防抖系统,确保切换过程平稳自然。同时,为了防止AI过度"思考"导致效率低下,LEAD还设置了切换次数限制,就像给深度思考设定了时间上限。

四、实验验证:从理论到实践的华丽转身

研究团队在多个知名的AI模型上测试了LEAD技术的效果,包括R1-Onevision、Vision-R1、VL-Rethinker等。测试涵盖了从日常图片描述到科学推理的各个场景,结果令人印象深刻。

在幻觉减少方面,LEAD技术表现出了显著的效果。以MMHalu数据集为例,这是一个专门用来测试AI是否会胡编乱造的基准测试。在满分6分的评分中,使用LEAD技术后,R1-Onevision模型的得分从3.52分提升到3.80分,提升幅度达到4.7%。这个改进看似微小,但在AI领域已经是相当显著的进步。

更令人惊喜的是,LEAD技术在数学和科学推理方面也展现出了强大的能力。在MathVision数学推理测试中,准确率从29.9%提升到32.4%。在科学推理方面,物理推理准确率从33.8%提升到36.1%,化学推理从39.8%提升到43.2%,生物推理从40.8%提升到44.8%。这些提升证明了LEAD技术不仅能减少胡编乱造,还能实实在在地提高推理质量。

研究团队还进行了一个有趣的"效率测试"。他们发现,使用LEAD技术的AI不仅推理更准确,而且更高效。在生成同样质量答案的情况下,LEAD技术能够减少大约20-30个词汇的推理长度。这就像一个高效的演讲者,能够用更少的话说清楚问题,而不是长篇大论却抓不住重点。

为了确保技术的实用性,研究团队还测试了LEAD在不同参数设置下的表现。他们发现,视觉锚定注入的强度在0.4左右时效果最佳。过低的注入强度无法有效提醒AI关注视觉信息,过高则会压制AI的语言理解能力。这就像调味料的使用,适量能提升菜肴的美味,过量则会掩盖原有的味道。

研究团队还邀请了GPT-5对生成文本的质量进行评估,包括语法、流畅度和自然程度等维度。结果显示,使用LEAD技术后,文本质量不仅没有下降,在某些方面还有所提升。这说明LEAD技术在提高准确性的同时,并没有牺牲表达的自然性。

五、技术细节:揭秘LEAD的工作原理

LEAD技术的核心思想是"因地制宜"。就像一个聪明的厨师会根据食材的新鲜程度调整烹饪方法一样,LEAD会根据AI当前的不确定程度选择最适合的推理策略。

在具体实现上,LEAD首先会实时监控AI的熵值变化。当熵值超过预设阈值时,系统就知道AI进入了"迷茫状态",需要特别关照。这时,LEAD会启动"潜在推理模式",让AI不再只考虑一个最可能的答案,而是同时保持对多种可能性的关注。

这种机制可以用"投资组合"来类比。传统的AI推理就像把所有钱都投在一只股票上,虽然可能获得高收益,但风险也很大。而LEAD的潜在推理模式就像分散投资,虽然单项收益可能不是最高,但整体风险更小,长期表现更稳定。

在数学层面,LEAD会计算所有可能词汇的概率加权平均,形成一个"混合表示"。这就像调制鸡尾酒,不是简单地选择一种酒,而是按照一定比例混合多种成分,最终得到更丰富的口感。

视觉锚定机制则更像一个贴心的提醒助手。当AI陷入纯语言推理的"套路"中时,这个助手会轻拍它的肩膀说:"别忘了看看图片。"具体来说,LEAD会将预训练的视觉特征向量注入到当前的表示中,强制AI重新关注图像信息。

为了保证系统的稳定性,LEAD还设计了几个"安全阀"。持续窗口机制确保AI不会频繁切换模式导致"精神分裂",切换计数器防止AI过度思考影响效率。这些机制的存在,让LEAD既能发挥潜在推理的优势,又能保持实用性。

研究团队还发现,不同类型的AI模型对LEAD技术的响应程度有所不同。较小的模型(如7B参数)通常能获得更显著的改进,这可能是因为它们原本的推理能力相对有限,LEAD技术的帮助更容易显现。而对于更大的模型,改进虽然相对较小,但绝对性能仍然是提升的。

六、深度分析:为什么LEAD技术如此有效

LEAD技术的成功并非偶然,而是建立在对AI推理机制深刻理解的基础上。研究团队通过大量实验发现了几个关键洞察。

首先是"多样性保护原理"。传统的AI推理就像一个固执的人,一旦做出决定就不再考虑其他可能。而LEAD的潜在推理模式则像一个开明的思想家,始终保持对不同观点的包容。这种多样性在不确定情况下特别宝贵,因为它为AI提供了"后悔药",即使最初的判断有偏差,也能通过其他信息进行修正。

其次是"注意力重分配效应"。研究发现,AI在产生幻觉时,往往会过度关注语言模式而忽略视觉信息。这就像一个人在编故事时,会更多地依赖想象力而不是眼前的事实。LEAD的视觉锚定机制就是为了打破这种偏见,强制AI回到"看图说话"的本源。

第三个洞察是"早期干预的重要性"。研究表明,推理链早期的错误会像滚雪球一样越滚越大。LEAD技术特别关注推理的早期阶段,就像在问题萌芽时就及时处理,避免后续的连锁反应。

研究团队还发现了一个有趣的现象:使用LEAD技术的AI在处理困难问题时表现出了更好的"韧性"。当面对模糊或复杂的图像时,传统AI往往会"放弃治疗",开始胡编乱造。而使用LEAD的AI则会保持更长时间的理性分析,即使最终无法给出完美答案,也会坦诚地表达不确定性,而不是编造虚假信息。

这种改变的意义不仅在于技术层面,更在于AI行为的"伦理化"。一个诚实的AI,即使能力有限,也比一个能说会道但喜欢撒谎的AI更值得信赖。LEAD技术在某种程度上让AI学会了"诚实"这一重要品质。

七、广泛影响:从技术创新到实际应用

LEAD技术的影响远不止于学术研究,它为AI应用领域打开了新的可能性。在医疗诊断中,AI需要根据医学影像进行分析,任何幻觉都可能导致误诊。LEAD技术能够显著降低这种风险,让医疗AI更加可靠。

在自动驾驶领域,车载AI需要准确理解路况信息。传统AI可能会"看到"不存在的障碍物或忽略真实的危险,而LEAD技术能够提高感知的准确性,从而提升行车安全。

在教育应用中,AI家教需要根据学生的作业或表现给出准确的反馈。如果AI经常"胡说八道",不仅无法帮助学生学习,还可能传播错误信息。LEAD技术让AI变得更加靠谱,能够更好地担任教育助手的角色。

更重要的是,LEAD技术为整个AI行业提供了一个新的思路:通过理解和利用AI的内在不确定性,而不是简单地压制它,我们可以开发出更加智能和可信的系统。这种思路可能催生出更多类似的技术创新。

研究团队还指出,LEAD技术具有良好的通用性。它不依赖于特定的AI架构,可以作为"插件"应用于各种现有的多模态AI系统。这意味着大量已经部署的AI应用可以通过简单的技术升级获得更好的性能,而不需要从头开发。

从商业角度来看,LEAD技术也具有重要价值。AI公司经常面临的一个问题是如何向用户证明他们的AI是可信的。LEAD技术提供了一个具体的解决方案,可以作为"品质保证"的技术标准。那些采用类似技术的AI产品可能在市场竞争中获得优势。

八、未来展望:技术发展的新方向

LEAD技术虽然取得了显著成果,但研究团队也指出了未来可能的发展方向。首先是参数自适应优化。目前的LEAD技术需要手动调节一些关键参数,如熵值阈值和视觉注入强度。未来的版本可能会实现自动调节,让系统能够根据不同的任务和环境自动优化这些参数。

另一个发展方向是多模态扩展。目前的LEAD技术主要针对视觉-语言任务,但类似的原理也可能应用于音频-语言、视频-语言等其他多模态组合。这将大大扩展技术的应用范围。

研究团队还在探索如何将LEAD的思想应用于更复杂的推理任务。目前的技术主要处理的是相对简单的描述和分析任务,但对于需要多步骤逻辑推理的复杂问题,还需要进一步的技术发展。

从更宏观的角度来看,LEAD技术代表了AI发展的一个重要趋势:从追求单纯的性能提升转向追求可信度和可解释性。随着AI技术越来越多地进入关键应用领域,这种趋势可能会成为技术发展的主流方向。

研究团队也坦承了当前技术的一些局限性。比如,LEAD技术虽然能够显著减少幻觉,但并不能完全消除。此外,对于某些特殊类型的图像或特定领域的专业知识,技术的效果可能会有所不同。这些问题为后续研究提供了明确的方向。

说到底,LEAD技术最重要的贡献可能不是具体的性能提升数字,而是它提供了一种全新的思考AI可信度问题的方式。它告诉我们,AI的"不确定性"不是需要消除的缺陷,而是可以利用的宝贵信息。这种思路的转变可能会影响整个AI研究领域的发展方向。

正如这项研究所展示的,真正的技术突破往往来自于对问题本质的深刻理解,而不是简单的方法堆砌。蒙纳什大学团队通过细致的观察和分析,发现了AI推理中的微妙模式,并据此开发了有效的解决方案。这种研究方法本身就值得其他研究者借鉴和学习。

展望未来,随着AI技术在更多领域的应用,对可信度和准确性的要求只会越来越高。LEAD技术及其背后的理念为解决这些挑战提供了有价值的思路和工具。对于普通用户来说,这意味着未来我们使用的AI助手会变得更加可靠和诚实,这无疑是一个值得期待的发展。

Q&A

Q1:LEAD技术是什么,它能解决什么问题?

A:LEAD是"潜在熵感知解码"技术,专门解决多模态AI的幻觉问题。就像给AI装了个智能导航系统,当AI遇到不确定情况时会自动切换推理模式,避免胡编乱造。研究显示它能将幻觉减少4.7%,推理准确率提升2-4%。

Q2:为什么AI会在使用转折词后开始胡编乱造?

A:转折词如"因为"、"然而"、"等等"是AI进入高不确定状态的信号,就像人说话卡壳时会说"嗯"、"那个"一样。这时AI的熵值飙升,面临多种选择时开始猜测,容易产生与图片内容不符的描述。

Q3:LEAD技术如何判断AI什么时候不确定?

A:LEAD通过监控"熵值"这个指标来判断。熵值就像AI的"犹豫程度",当有多个答案竞争时熵值升高,表示AI很纠结。一旦超过阈值,LEAD就会切换到"潜在推理模式",同时考虑多种可能性而不是盲目选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
后排安全带使用规定!4月1日起全国将统一执行

后排安全带使用规定!4月1日起全国将统一执行

随州派
2026-03-31 12:54:46
王石被限制出境

王石被限制出境

料道new
2026-03-30 16:29:44
硬撑15年、仅1台服务器、8GB内存:他用一堆“淘汰” 技术,让50+万人敲下人生第一条Linux命令!

硬撑15年、仅1台服务器、8GB内存:他用一堆“淘汰” 技术,让50+万人敲下人生第一条Linux命令!

CSDN
2026-03-31 17:33:02
王建军被逮捕!

王建军被逮捕!

农民日报
2026-03-31 10:28:33
浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

魔都姐姐杂谈
2026-03-30 19:25:57
伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

青途历史
2026-03-30 10:26:03
张雪机车销售称夺冠后两三天内订单大涨,已排至6月 车主:不只为情怀买单,也看重其性价比

张雪机车销售称夺冠后两三天内订单大涨,已排至6月 车主:不只为情怀买单,也看重其性价比

红星新闻
2026-03-31 13:49:17
2026年村干部工资大涨!村支书一月到底能领多少?

2026年村干部工资大涨!村支书一月到底能领多少?

复转这些年
2026-03-30 12:47:19
突发!跌入熊市!

突发!跌入熊市!

中国基金报
2026-03-31 16:22:25
洛阳00后女孩留学回国当职业扫墓人,每天鞠躬上百次,月薪4000多元,称独自在山上过夜不害怕,“你避之不及的,可能是别人朝思暮想的”

洛阳00后女孩留学回国当职业扫墓人,每天鞠躬上百次,月薪4000多元,称独自在山上过夜不害怕,“你避之不及的,可能是别人朝思暮想的”

大风新闻
2026-03-31 17:05:31
邵佳一:队员打出了自己的极限;战术被提前曝光的事情以后不会再发生

邵佳一:队员打出了自己的极限;战术被提前曝光的事情以后不会再发生

懂球帝
2026-03-31 16:48:25
“玩具店主买卖枪支案”两当事人各获国赔16万余元,均被羁押279天

“玩具店主买卖枪支案”两当事人各获国赔16万余元,均被羁押279天

大风新闻
2026-03-31 20:54:07
美国打伊朗,欲让阿拉伯国家掏光家底埋单?特朗普:继续打给5万亿美元,停战打5折?

美国打伊朗,欲让阿拉伯国家掏光家底埋单?特朗普:继续打给5万亿美元,停战打5折?

红星新闻
2026-03-31 16:58:56
虎跳峡落水男子遗体发现后,因难度太大家属无奈同意放弃打捞,专业人士揭秘致命“水下虹吸”

虎跳峡落水男子遗体发现后,因难度太大家属无奈同意放弃打捞,专业人士揭秘致命“水下虹吸”

红星新闻
2026-03-31 01:01:12
已有惨剧发生!张雪机车再回应禁止新手购买820RR:希望少死几个人

已有惨剧发生!张雪机车再回应禁止新手购买820RR:希望少死几个人

快科技
2026-03-31 10:54:10
郑丽文访陆阵容曝光后,台陆委会提出5项“警告”,非常不简单

郑丽文访陆阵容曝光后,台陆委会提出5项“警告”,非常不简单

DS北风
2026-03-30 23:38:11
突发利空!A股跳水超4300家下跌,3月官方制造业PMI为50.4%超预期

突发利空!A股跳水超4300家下跌,3月官方制造业PMI为50.4%超预期

看财经show
2026-03-31 17:25:50
中方奉陪到底!拒邀日企高管参会,人数已经清零,高市叫苦连连

中方奉陪到底!拒邀日企高管参会,人数已经清零,高市叫苦连连

百科密码
2026-03-31 15:53:14
4月1日医保新规落地!中老年人看病5步走,少说一句多花几百元

4月1日医保新规落地!中老年人看病5步走,少说一句多花几百元

复转这些年
2026-03-31 19:50:14
中国男足半场1-0越南,杜月徵飙惊天世界波,现场视角,太丝滑了

中国男足半场1-0越南,杜月徵飙惊天世界波,现场视角,太丝滑了

侧身凌空斩
2026-03-31 20:28:44
2026-03-31 21:55:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7825文章数 556关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

男子玩具店买枪被羁押279天获国赔16万:打官司花40万

头条要闻

男子玩具店买枪被羁押279天获国赔16万:打官司花40万

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

亲子
教育
数码
本地
房产

亲子要闻

视频的代价有点高

教育要闻

高考地理中的极光现象

数码要闻

内存价格狂跌!电脑游戏主机任逆势涨价 部分机型单月暴涨5000元

本地新闻

用Color Walk的方式解锁城市春日

房产要闻

重磅!海南城市更新拟出新政!

无障碍浏览 进入关怀版