网易首页 > 网易号 > 正文 申请入驻

清华&OPPO联合打造"智能侦探":AI学会主动追查证据准确率飙升27%

0
分享至


这项由清华大学深圳国际研究生院与OPPO AI中心联合主导,并联合南洋理工大学共同完成的研究,于2026年6月26日以预印本形式发布在arXiv平台,编号为arXiv:2606.27974v1。

你有没有遇到过这样的场景:拍了一张公园的照片,想知道这个公园在哪个城市,但手机AI助手要么给你一个错误的答案,要么直接坦言"我不知道"。这个看似简单的问题,背后藏着人工智能领域一个相当棘手的难题——如何让机器在看图的同时,还能主动去查找它不知道的知识?

这支来自顶尖高校与产业界的研究团队,给出了一个颇为有趣的解决方案。他们把AI设计成一个"主动侦探":面对一张图片和一个问题,这个侦探不会坐在原地胡乱猜测,而是会主动出击,先查图像线索,再翻文字档案,直到找到足够的证据才下结论。这个系统被命名为ProMSA(Progressive Multimodal Search Agents,渐进式多模态搜索智能体),它在两个主流测试数据集上的表现,比此前最强的竞争对手高出了约7到9个百分点。

一、侦探为什么比旁观者更聪明

要理解这项研究的意义,得先弄清楚一件事:为什么看图回答问题这么难?

表面上看,现在的AI已经能识别猫狗、理解文字、甚至写诗作画,似乎无所不能。但当问题涉及到那些"冷僻知识"时,AI就像一位博学的学者突然被问到一个偏僻小镇的地名——即便真的去过,也未必能准确说出来。以"图片里这个湖泊在哪个国家"为例,世界上有成千上万个湖泊,大多数湖泊的照片在AI的训练数据里出现的次数极少,AI很难凭借记忆给出正确答案。

现有的应对方案,主要走的是"先查后答"的路子,可以把它理解为一种图书馆查阅流程。系统先把图片拿去检索数据库,找到排名前几位的相关维基百科页面,然后把这些页面的内容塞给AI,让AI根据这些材料回答问题。这个方法确实有效,但它有三个根本性的短板。

第一个短板是检索策略完全固化,不会根据情况调整。就像一个侦探无论面对什么案件,都只会做同一件事——去翻同一个档案柜,而不会根据案情线索决定该去哪里查、查什么。有些问题其实不需要检索就能回答,有些需要先识别图中的实体再进行文字检索,有些则需要多轮追踪。一成不变的流程根本无法覆盖这些差异。

第二个短板是没有纠错机制。一旦第一次检索到了错误的页面,系统就只能硬着头皮根据错误信息回答,完全无法回头重查。这就像侦探翻到了一份伪造的证据,却没有任何能力识破和纠正,最终做出了错误的判断。

第三个短板是处理不了需要多步推理的问题。有些问题需要先找到实体,再从找到的信息里继续追查另一个知识点。比如"图片里这位运动员效力的球队,其主场球场的容量是多少",这至少需要两步:先识别运动员和球队,再查球场容量。一次性检索根本无法胜任这类任务。

正是针对这三个问题,研究团队设计了ProMSA这个"会主动侦查的系统"。

二、侦探的办案流程:渐进式搜索

ProMSA的核心思路可以用一个简洁的侦探破案比喻来贯穿理解。每一次接到一个"案件"(图片+问题),侦探不会立刻给出结论,而是根据手头的线索决定下一步行动,直到证据充分为止。

具体来说,这个侦探在每一步面前有三个选择:发起图像搜索、发起文字搜索,或者宣布"证据已经足够,我有答案了"。这三个选择合称为"行动空间"。

图像搜索的工作方式是这样的:侦探把当前图片拿去和维基百科里的数百万张图片比较,找出最相似的几张,然后获取这些图片所对应的维基百科页面内容。这个步骤主要用于识别图中的实体——比如这是什么建筑、这是哪个人、这是哪个地标。

文字搜索则是另一条线索追查路径:侦探根据已知信息生成一个文字查询,去维基百科的文字内容里寻找具体的属性信息。比如已经知道图片里是"马里乌奇竞技场",接下来要回答"里面有什么类型的座位",就需要专门去搜索这个球场的文字介绍。

特别聪明的一个设计是"去重机制"。侦探每次查过的档案都会被记录下来,下次检索时会自动排除已经看过的内容,避免重复在同一份错误证据上打转。这意味着当第一次图像搜索返回了错误实体时,侦探可以再次发起图像搜索,并且这次会绕开上次的错误结果,向更深处探寻正确答案。

整个过程还有一个"预算"约束——图像搜索和文字搜索各自最多能调用3次,防止侦探无休止地查下去耗尽计算资源。一旦超出预算,必须给出当前最佳判断。

为了防止每次检索返回的大量文字让侦探"信息过载",系统还专门设置了一个"摘要员",由另一个AI负责把检索到的维基百科页面压缩成与问题最相关的简短摘要,再交给侦探阅读。这样一来,侦探每次获得的是精炼的关键信息,而不是成千上万字的原始文本。

三、侦探是怎么被训练出来的

有了这套办案流程,下一个问题是:怎么让侦探学会用好这套工具?

研究团队采用了一个分两步走的训练方案,可以把它理解为"先上基础培训课,再通过实战磨练"。

基础培训课被称为"冷启动监督学习"。在这个阶段,团队先从训练数据中抽取3000个问题,让一个初始版本的AI模型去反复尝试,每次保留那些格式正确、工具调用成功、且最终答案正确的尝试轨迹,丢掉那些失败的。这个过程就像筛选高质量的范例卷子——只收录"做对了而且步骤清晰"的答案,然后让AI从这些范例中学习基本的办案格式和流程。这一步不要求AI学会高深的策略,只要求它能正确地填写"工具调用表格"、按格式汇报推理过程。

实战磨练阶段则采用强化学习,是更高级的训练方式。研究团队从训练数据中取出15000个问题,让训练好基础格式的侦探去实际办案,根据最终结果给予奖励或惩罚。奖励机制由三部分构成:答案正确给高分,格式规范额外加分,而调用工具的次数越多则会被适当扣分(鼓励侦探用最少的调查步骤解决问题)。通过大量实战,侦探逐渐学会了什么情况下应该继续搜索、什么时候已经可以下结论,以及该用图像搜索还是文字搜索。

四、训练算法的一个关键改进

在强化学习的技术细节层面,研究团队发现了现有训练方法的一个隐藏问题,并提出了针对性改进。

现有的主流强化学习方法在更新AI参数时,会把本次尝试产生的总体偏差除以"这次尝试产生了多少个词"来做归一化处理。这个设计背后的逻辑是:产生的词越多,每个词对结果的平均贡献就越小,所以需要相应调整更新幅度,避免因为某次尝试生成了超长文本而导致训练信号过大。

然而在侦探这个场景里,决定成败的关键不只是"写了多少字",更重要的是"调用了几次工具、做了几轮调查"。一个侦探可能只写了很少的文字,但调用了3次工具;另一个侦探写了大量分析文字,但只调用了1次工具。这两个侦探的"决策复杂度"截然不同,但如果只按文字量归一化,训练信号就会产生偏差。

研究团队提出的TN-GSPO(工具归一化的群体序列策略优化)方法,把归一化的分母从"生成词数"扩展为"生成词数 × (1 + 工具调用深度的函数)"。这样一来,工具调用越多的轨迹,其更新幅度会被相应调小,与实际的决策复杂度更匹配,训练过程也因此更加稳定。

从训练过程的动态曲线来看,使用原始GRPO方法的侦探在训练早期就迅速减少了工具调用次数,这意味着侦探学会了"尽量少查案"来规避扣分,但代价是收集的证据不足。而TN-GSPO方法训练出的侦探则保持了合理的工具调用频率,在整个训练过程中逐步找到了查案深度与效率的平衡点。

五、侦探上场后的成绩单

研究团队在两个主流知识型视觉问答数据集上测试了ProMSA,分别是Encyclopedic-VQA(简称E-VQA,涵盖约16.7万道涉及16700多个维基百科实体的问题)和InfoSeek(包含约130万道问题,专门测试对"未见过实体"的泛化能力)。

在E-VQA数据集上,仅凭自身知识作答的最新视觉语言大模型(Qwen3-VL-8B)准确率约为25%,相当于侦探什么工具都不用,单靠记忆作答。引入固定检索流程的最强竞争对手REAL达到了约45%。而ProMSA(Qwen3-VL-8B版本)在单跳问题上达到了52.2%,在全量测试集上更达到52.6%,领先幅度相当明显。

在InfoSeek数据集上,情况类似。该数据集特别测试"未见过的实体"和"未见过的问题"这两种泛化难度,ProMSA分别达到了53.6%和53.3%,综合得分53.4%,同样显著领先于各类竞争方法。

研究团队还额外在OK-VQA这个更广泛的视觉问答数据集上进行了测试,以验证侦探技能的迁移能力。结果显示,使用Qwen2.5-VL-7B的ProMSA达到了82.7%,使用Qwen3-VL-8B的版本更达到85.6%,均超过了此前专门针对OK-VQA设计的方法。这说明侦探学到的不只是针对特定任务的技巧,而是真正具有通用价值的知识搜索能力。

在推理速度方面,ProMSA的平均处理时间为每个样本1.8秒(相当于最快方法EchoSight的1.5倍),而准确率比EchoSight高出约30个百分点。相比之下,Deepeyesv2的耗时是EchoSight的2倍,但准确率反而低于ProMSA约10个百分点。这意味着ProMSA在性能和速度之间取得了相当优秀的平衡。

六、拆开盖子看细节:每个设计的贡献有多大

研究团队做了一系列对照实验,来搞清楚侦探的每一件装备到底有多大用处。

先看训练阶段的贡献。从基础模型(仅有推理框架,未经训练)到冷启动SFT阶段,E-VQA的综合准确率从32.8%提升至38.6%;再加上强化学习阶段,准确率进一步跃升至52.6%。冷启动解决的是"会不会用工具"的问题,强化学习解决的是"用得好不好"的问题,两者缺一不可。

再看工具配置的贡献。只给文字搜索工具时,E-VQA准确率为27.6%,InfoSeek为36.8%——文字搜索在需要先识别实体的场景下表现很差,因为侦探连"被调查对象是谁"都还没确认,就去查属性信息,自然事倍功半。只给图像搜索工具时,E-VQA准确率为34.7%,但InfoSeek只有21.4%——图像搜索擅长识别实体,但在需要细粒度文字知识时无能为力。两种工具同时配备,E-VQA和InfoSeek分别达到52.6%和53.4%,效果远超任何单一工具,证明了多模态自适应检索的必要性。

在工具调用预算方面,每种工具可调用2次时,E-VQA为48.2%;调用3次时最优,达到52.6%;调用4次时略有下滑至52.4%。这印证了"预算太少证据不足,预算太多引入噪声"的直觉。

在每次检索返回数量方面,返回Top-1时E-VQA为45.9%,返回Top-3时达到最优52.6%,返回Top-4时略降至52.1%,同样呈现出类似的倒U形曲线。

七、侦探是怎么决定"何时收手"的

研究团队还对侦探在多轮调查中的行为进行了细粒度分析,这部分结果相当耐人寻味。

在第一轮检索后,只有39.1%的检索结果包含了正确的维基百科页面——这说明侦探的第一反应其实经常是错的,约六成情况下需要进一步调查。在这一轮,有46.4%的情况是"检索错了但侦探选择继续查",体现了侦探的自我纠错本能;但也有14.5%的情况是"检索错了但侦探却停下来给出答案",这是明显的错判。

到第二轮检索后,检索准确率提升至48.8%,"检索正确并停下"的比例从32.4%上升至45.5%,"检索错误但继续查"的比例从46.4%骤降至7.4%。这说明强化学习有效地训练出了"一旦找到可靠证据就及时收手"的判断能力。

当然,第二轮也出现了一个值得关注的模式:有相当比例的情况是"检索仍然错误,但侦探停了下来"。研究团队分析,这一方面是工具调用成本惩罚机制在起作用(继续查的代价太高,侦探选择了妥协),另一方面也反映出对于真正"长尾"的冷僻实体,侦探有时确实无法判断手中的证据是否可靠。这是当前版本的一个局限,也是未来可以改进的方向。

说到底,ProMSA做的事情说起来并不复杂:把AI从一个被动的"知识库"变成一个主动的"调查员"。但实现这个转变需要解决的问题却相当精细——既要设计合理的调查工具,又要训练出恰当的使用策略,还要在效率和准确率之间找到平衡。研究团队用冷启动加强化学习的两阶段训练、用TN-GSPO稳定了学习过程、用双工具自适应切换覆盖了不同类型的知识缺口,这些设计共同造就了最终的性能提升。

对于普通用户而言,这项研究意味着未来的AI助手在面对"图中这是什么地方""这个人物在哪里出生"等涉及冷僻知识的问题时,将有更大概率给出正确答案,而不是自信地给出一个编造的答案。对于研究者而言,TN-GSPO提供了一种更合理的多工具智能体训练范式,可以推广到其他需要外部工具调用的AI任务上。

有兴趣深入了解技术细节的读者,可以通过编号arXiv:2606.27974在arXiv平台检索完整论文,代码也已在GitHub上开源,地址可通过论文中的链接获取。

Q&A

Q1:ProMSA和普通的RAG检索增强方法有什么本质区别?

A:普通RAG是一次性检索然后直接生成答案,检索策略固定,失败了无法纠正。ProMSA则像一个主动调查的侦探,可以根据每一步的检索结果决定是继续查还是停下来,还可以在第一次检索失败后自动排除错误结果再次尝试,形成一个闭环的搜索推理过程。

Q2:TN-GSPO与GRPO相比解决了什么具体问题?

A:GRPO在训练多工具智能体时,只按生成文字的数量来归一化训练信号,会导致AI倾向于"少用工具、少写字"来获得更稳定的优化信号,最终收集的证据不足。TN-GSPO额外把工具调用次数纳入归一化分母,让训练信号的强度与实际决策复杂度相匹配,从而引导AI学会在需要时合理使用多次工具调用。

Q3:ProMSA在什么类型的视觉问答问题上提升最明显?

A:ProMSA在涉及长尾实体(即训练数据中很少出现的偏僻实体)的知识型问题上提升最为显著,尤其是那些需要先识别图中实体再追查其属性的问题,以及需要跨多个维基百科页面进行多步推理的问题。对于AI本身参数记忆中已有答案的常见知识,提升幅度相对有限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
仗打到这份上,乌克兰和北约都看透了,俄罗斯最后的希望是中国?

仗打到这份上,乌克兰和北约都看透了,俄罗斯最后的希望是中国?

史行途
2026-07-01 23:59:59
养路费大变天!油车加油更便宜,电车上路要缴费,算账才知亏赚

养路费大变天!油车加油更便宜,电车上路要缴费,算账才知亏赚

华庭讲美食
2026-07-01 08:53:34
离谱实锤!香川真司暗恋长泽雅美23年,为追女神踢废职业生涯?

离谱实锤!香川真司暗恋长泽雅美23年,为追女神踢废职业生涯?

绿茵八卦君
2026-06-30 08:50:03
重磅:乌克兰摧毁俄罗斯奔萨的导弹与飞机工厂!

重磅:乌克兰摧毁俄罗斯奔萨的导弹与飞机工厂!

项鹏飞
2026-07-01 21:30:20
男子半筐杨梅下肚,痛得直冒冷汗,肠道密密麻麻全是它……医生提醒:这句老话纯属民间谣言

男子半筐杨梅下肚,痛得直冒冷汗,肠道密密麻麻全是它……医生提醒:这句老话纯属民间谣言

极目新闻
2026-06-22 08:27:39
大妈狂吃2斤车厘子后想溜,摊主叫住她:那份380,大妈愣住了

大妈狂吃2斤车厘子后想溜,摊主叫住她:那份380,大妈愣住了

晓艾故事汇
2026-06-27 15:11:15
彻底撕破脸!日本全面排外大爆发,百万在日华人该何去何从?

彻底撕破脸!日本全面排外大爆发,百万在日华人该何去何从?

随梦而飞起
2026-06-07 00:49:00
中国很小的省会,面积不如一个县,却是世界一流,你知道是哪吗?

中国很小的省会,面积不如一个县,却是世界一流,你知道是哪吗?

观史搜寻着
2026-06-30 19:15:27
詹姆斯离队提前通知湖人方便补强,管理层假意挽留难道不尴尬吗?

詹姆斯离队提前通知湖人方便补强,管理层假意挽留难道不尴尬吗?

止境
2026-07-02 00:32:23
高跟鞋、黑丝袜,镜头特写隐私部位。这是卖电动车?

高跟鞋、黑丝袜,镜头特写隐私部位。这是卖电动车?

乔志峰
2026-07-02 02:35:17
独家:原中国兵器工业集团董事长实际上是秘书出身!33岁就当集团办公厅主任  很优秀!

独家:原中国兵器工业集团董事长实际上是秘书出身!33岁就当集团办公厅主任  很优秀!

新浪财经
2026-06-03 02:10:08
卡里克赚翻!曼联边缘人世界杯彻底封神,直接省了一个亿转会费!

卡里克赚翻!曼联边缘人世界杯彻底封神,直接省了一个亿转会费!

澜归序
2026-07-01 04:58:55
公牛名宿大型社死!拉尔萨节目爆马库斯比皮蓬强太多

公牛名宿大型社死!拉尔萨节目爆马库斯比皮蓬强太多

绿茵八卦君
2026-06-05 10:32:46
疯魔!湖人30分钟豪掷2.61亿狂签4人,溢价背后折射出2大危机

疯魔!湖人30分钟豪掷2.61亿狂签4人,溢价背后折射出2大危机

新杀猪的秀才
2026-07-02 00:50:14
加盟广东成首选?CBA第一内线大杀器或被交易,曾被杜锋点名要人

加盟广东成首选?CBA第一内线大杀器或被交易,曾被杜锋点名要人

绯雨儿
2026-07-01 14:18:36
亚马尔:我达不到梅罗的高度;若小蜘蛛来巴萨会张开双臂欢迎他

亚马尔:我达不到梅罗的高度;若小蜘蛛来巴萨会张开双臂欢迎他

懂球帝
2026-07-01 17:33:05
女子高铁上求助,男生拒绝帮搬行李,于是发文网暴,反遭网友骂惨

女子高铁上求助,男生拒绝帮搬行李,于是发文网暴,反遭网友骂惨

谭谈社会
2026-06-28 16:38:04
24岁小伙游戏中“掉线”多日,好友千里赶赴重庆,在一家被多次曝光的戒网瘾机构找到

24岁小伙游戏中“掉线”多日,好友千里赶赴重庆,在一家被多次曝光的戒网瘾机构找到

潇湘晨报
2026-07-01 20:34:08
10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

听风喃
2026-04-06 11:16:04
越骂越火?格力玫瑰空调爆卖50000台,网友吵翻了

越骂越火?格力玫瑰空调爆卖50000台,网友吵翻了

雷科技
2026-06-30 11:55:45
2026-07-02 04:11:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
9007文章数 565关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

艺术
教育
游戏
健康
公开课

艺术要闻

西安美术学院,2026届油画系硕士研究生毕业作品选(二)

教育要闻

高分人数太多!南京期末考试成绩出炉!速看!

IGN 9分!任天堂第一方独占新游被吹爆:不容错过

年糕汤圆别油炸,水煮清蒸更健康

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版