腾讯混元与港中大突破：AI侦探实现图像搜索与失败学习能力提升|算法|调用|欧文|推理|知名企业

分享至

这项由腾讯混元、加州大学洛杉矶分校、香港中文大学以及香港大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.05185，有兴趣深入了解的读者可通过该编号查询完整原文。

**研究背景：AI的"眼睛"不够用了**

如果你曾经拿出一张老照片，想知道照片里那座建筑是什么、建于哪年、背后有什么故事，你大概知道这有多难——光靠肉眼看，信息太有限；上网搜索，又不知道从哪里下手。现在的AI助手大多也面临同样的困境：它们要么只会"看"，要么只会"搜"，很少能把这两件事聪明地结合起来，更别说面对一张模糊的、歪斜的、低清晰度的照片时还能保持"侦探般"的冷静。

这项研究要解决的，正是这个问题。研究团队将这类AI系统称为"多模态深度搜索智能体"——你可以把它理解成一个同时具备"眼睛"和"搜索引擎"的AI侦探。它不仅能看懂图片，还能根据图片内容主动出击、调用各种工具、一步步追查答案。

然而，尽管这个方向发展迅速，那些真正顶尖的系统往往掌握在少数大公司手中，它们的训练数据、方法流程几乎从不公开。这就导致研究圈子里的大多数人——尤其是高校研究者和开源社区——很难复现、改进这些系统。研究团队将这一现状比作厨艺比赛：参赛选手只能看到摆盘精美的成品，却拿不到任何食谱。

为此，研究团队推出了**OpenSearch-VL**，一套完全开源的"食谱"，涵盖训练数据、工具环境和训练算法的所有细节，目标是让任何人都能复现甚至超越顶级商业系统的表现。

**一、训练一个AI侦探，最难的不是算法，而是"案例库"**

要培养一名优秀的侦探，仅靠理论远远不够——你需要大量真实的、有难度的案件让他练手。对AI来说，这就是"训练数据"。但问题在于，现有的训练数据普遍存在一个致命缺陷：太容易了。

许多数据集里的问题，只需要AI看一眼图片、搜一下图就能直接得到答案，根本不需要"推理"。这就像给侦探练习的"案件"全是"谁把蛋糕吃了？——厨房监控录像里写得清清楚楚"——这种案子练多了，侦探根本学不会真正的推理。

研究团队设计了一套精妙的数据构造流程，专门解决这个问题，核心思路可以用四步来理解。

第一步叫"维基百科路径采样"。团队把维基百科想象成一张巨大的知识地图，每篇文章是一个地点，文章之间的超链接是连接这些地点的道路。从某个起点出发，沿着超链接随机走2到4步，就形成一条"知识路径"。举个例子：从"澳大利亚动物园"出发，沿着"由谁管理"这条道路走到"史蒂夫·欧文"，再沿着"配偶是谁"走到"特瑞·欧文"，最终的问题就变成了"特瑞·欧文是哪年成为澳大利亚公民的"——答案是2009年11月20日。

第二步叫"模糊实体改写"。如果训练数据里的问题直接写着人名，AI只需要搜索一下就能找到答案，完全绕过了中间的推理步骤。为了堵住这个"捷径"，团队会把路径中的实体名称替换成描述性短语。比如，"史蒂夫·欧文"会被改写为"那位1991年接管这家动物园的人"，"澳大利亚动物园"则会在最后被一张图片取代。改写后的问题变成了："图片中这家动物园里，1991年接管它的那个人的妻子是哪年成为澳大利亚公民的？"——这下，AI必须先认出图片里的动物园，再追查管理者，再找到他的配偶，才能得出答案。

为了确保改写后的描述不会产生歧义，团队还设计了严格的三条检验标准：答案必须与改写前完全一致，描述必须在世界上唯一指向某一个实体，问题中不能出现任何原始实体的名字或别称。

第三步叫"视觉锚定"。每条路径的起点会被替换成一张真实的代表性图片——比如澳大利亚动物园的入口照片——并通过图文相似度算法（CLIP）筛选出最匹配的候选图片。这样，AI必须先"看懂"图片，才能开始追查后续的文字线索，视觉信息真正成为推理链条中不可跳过的第一环。

第四步叫"两阶段难度过滤"。构造好的问题还需要经过两轮筛选：第一轮淘汰那些AI不用任何工具、靠自己的记忆就能答对的问题；第二轮淘汰那些只需要一次图片搜索就能解决的问题。只有真正需要多步推理、多种工具配合才能解答的问题，才会进入最终的训练集。

此外，团队还专门挑选了10%的数据，对图片进行人为降级处理——比如故意模糊、压缩分辨率、扭曲视角——然后配上对应的图像修复工具使用示范。这批数据是专门用来训练AI"遇到烂图先修图再搜索"的本能，而不是一遇到模糊图片就直接放弃。

经过这套流程，团队生成了**36592条高质量的专家轨迹数据**（用于有监督微调），以及**8000条专门用于强化学习**的训练样本。每条专家轨迹平均包含6.3次工具调用，涵盖了从看图、裁剪、增强到搜索的完整推理过程。

**二、给AI侦探配备一套完整的"侦查工具箱"**

现实中的案件往往不会只留下清晰的照片——监控录像可能模糊，文件可能倾斜，关键信息可能藏在图表的某个角落。因此，除了搜索能力，AI侦探还需要一套完整的"侦查工具箱"。

OpenSearch-VL配备了七种工具，分属三个大类。

负责"获取外部情报"的是两款检索工具。**文本搜索**工具的工作流程类似于一名专业的情报分析师：先通过搜索引擎（Serper）找到相关网页，再用阅读工具（JINA Reader）提取页面内容，最后由一个语言模型（Qwen3-32B）把内容压缩成简洁的摘要返回给AI侦探。**图片搜索**工具则像是"以图识图"——输入一张图片，返回视觉上相似的图片及相关网页信息，专门用于识别不知名的地标、人物或物品。

负责"修复问题证据"的是三款图像增强工具。**锐化工具**通过一种叫"非锐化掩模"的算法去除图片的模糊感，就像给一张失焦的照片重新对准了焦距。**超分辨率工具**使用深度学习模型（EDSR架构）将低分辨率图片放大，默认放大4倍，让那些压缩得只剩马赛克的缩略图重新变得清晰可读。**透视矫正工具**则专门对付那些"歪斜"的图片——比如手机随手拍的文件、牌子或屏幕——通过检测边缘并计算透视变换，把倾斜的图片"掰正"。

负责"精确解读证据"的是两款感知与解析工具。**裁剪工具**可以把图片中的某个区域单独截取出来放大观察，就像侦探用放大镜对准某个细节。**OCR工具**（光学字符识别）则能读取图片中的文字，并保留文档的层级结构——比如区分标题、正文、脚注——而不仅仅是把所有文字混在一起输出。

这七种工具的组合，让AI侦探面对各种"烂证据"时都有应对之策：遇到倾斜的文件，先矫正再OCR；遇到模糊的标志，先锐化再裁剪；遇到不认识的图标，先图片搜索再文字搜索跟进核实。

**三、训练一个会从失败中学习的侦探：Fatal-Aware GRPO算法**

有了高质量的训练数据和完善的工具箱，下一个问题是：如何让AI真正"学会"使用这些工具？

研究团队采用了两阶段训练策略。第一阶段是**有监督微调（SFT）**——相当于让AI侦探看着36592份专家破案记录，一步步模仿专家的推理和工具调用方式。这个阶段给了AI一个扎实的"入门培训"。

但仅靠模仿是不够的。模仿只能让AI学会"见过的操作"，却无法让它学会"在新情况下灵活应对"。因此，第二阶段是**强化学习（RL）**——让AI在真实的工具环境中自己探索、试错，通过奖励和惩罚不断优化自己的行为策略。

然而，多工具、多步骤的强化学习本身就是一个巨大的挑战。核心问题在于"连环失败"——一旦AI在某一步调用工具时出错（比如格式错误、网络超时、参数填写错误），后续所有的推理步骤都会变得毫无意义。这就像侦探在调查中途丢失了关键证据，之后的所有推断都建立在沙滩上。

面对这个问题，有两种极端的处理方式都有明显缺陷。一种是"直接丢弃"：只要某次尝试遇到连环失败，就整个扔掉不用。这样做浪费了失败前的所有有效推理。另一种是"照单全收"：把整个失败过程包括失败后的混乱推理都用来训练。这样做会把噪音当成信号，让AI学到错误的模式。

研究团队提出了一个更聪明的解决方案，称为**"致命感知GRPO"算法**（Fatal-Aware GRPO）。这个方案由两个核心机制组成。

第一个机制叫"**致命状态检测与遮蔽**"。系统会监测每次AI尝试中的工具调用错误。如果连续出现3次工具调用错误，系统就判定这次尝试进入了"致命状态"，并记录下"致命步骤索引"——即第几步开始不可挽回的。对于这类尝试，系统会保留失败前的所有推理过程，但把失败后的所有内容遮掉，不让它参与计算。这就像评价一名侦探时，认可他在迷路前走过的每一步，但不把迷路后乱走的路程计入评分。

第二个机制叫"**单侧优势截断**"。在强化学习中，AI的多次尝试会被统一评分，然后计算"这次尝试比平均水平好多少还是差多少"——这个数值叫做"优势"。对于正常完成的尝试，优势可正可负，正的就鼓励，负的就抑制。但对于那些进入致命状态的尝试，负的优势会带来一个危险的副作用：它会告诉AI"你在失败前走的那些步骤也是错的"——即使那些步骤其实非常合理。

单侧截断的做法是：对于致命尝试，只保留正优势（优于平均水平时才鼓励）；如果优势是负数，直接设为零，不施加惩罚。换句话说，失败前的好推理会在合适的时候得到奖励，但绝对不会因为后续的失败而被无辜惩罚。这个机制可以从数学上证明，它在信息量上严格优于直接丢弃失败尝试的方案：它既不会把噪音传递给模型，又比丢弃方案多保留了一部分有效的学习信号。

除了这两个机制，研究团队还设计了一个**三维复合奖励函数**来评价每次尝试的质量。格式奖励检查AI的输出是否符合规定格式——比如思考过程是否放在正确的标签内、工具调用是否格式正确，这个奖励作为乘数，一旦格式不对，整体分数直接清零。准确度奖励由GPT-4o担任裁判，检查AI最终的答案是否与标准答案语义一致，给出0或1的评分。查询质量奖励则由GPT-5.4（一个更强的推理模型）担任评委，从0到1连续打分，评估AI整个搜索过程的质量，包括搜索查询是否有针对性、每次搜索是否在前一次的基础上有所进化、图文搜索是否形成互补，以及从搜索结果中提取有效信息的效率。对于进入致命状态的尝试，这位评委只评价失败前的那部分，不让后续的混乱拉低对前期工作的评价。

**四、实际表现：开源"食谱"做出了媲美商业大厨的水准**

研究团队在七个知识密集型测试集上对OpenSearch-VL进行了全面评估，涵盖从视觉实体识别到多跳推理再到长尾问答的各种类型。

以中等规模的30B-A3B模型版本为例，与同规模的基础模型（Qwen3-VL-30B-A3B）相比，OpenSearch-VL的平均得分从47.8分提升到了61.6分，提升超过13个百分点。在MMSearch（多模态搜索引擎评测）上，提升幅度高达24.5个百分点；在InfoSeek（知识密集型图文问答）上提升16.2个百分点；在VDR（视觉深度研究基准）上提升13.3个百分点；在FVQA（基于事实的视觉问答）上提升10.2个百分点。

更大的32B版本表现更为突出，平均得分达到63.7分，在多个评测指标上超越了谷歌的Gemini-2.5-Pro和Anthropic的Claude-4-Sonnet等商业系统。即便是相对轻量的8B版本，平均得分也达到56.6分，超过了此前同规模最强的开源智能体SenseNova-MARS-8B将近4个百分点。

消融实验（即分别去掉某个设计组件，看看效果会下降多少）进一步验证了每个设计选择的必要性。去掉"源锚视觉锚定"设计，平均得分下降11.5个百分点；去掉"模糊实体改写"，下降10.3个百分点；去掉"两阶段难度过滤"，下降8.2个百分点。三项关键设计各自贡献了可观的性能提升。

在训练方法的对比上，与不做任何强化学习相比，加入普通的GRPO强化学习能带来约3个百分点的提升；加入致命遮蔽机制进一步提升1.5个百分点；而在此基础上再加入单侧截断机制，总共带来4.2个百分点的提升。从训练过程的曲线也能看出明显差异：使用致命感知GRPO训练的模型，在训练过程中平均每次尝试会使用更多步骤（说明它在更积极地探索），同时准确率上升得更快、更稳定。

**结语：一本终于公开的"顶级食谱"**

说到底，这项研究干的事情可以用一句话概括：把原本只有少数大公司才有的"秘密武器"，拆解清楚、彻底公开。

训练数据的设计思路、工具环境的搭建细节、强化学习算法的数学推导——每一块积木都被仔细地摆了出来，任何人都可以照着重新搭一遍。这对于AI领域的开放研究来说，意义不亚于把顶级餐厅的招牌菜食谱印成了菜谱书。

当然，这项研究也坦诚地指出了几处不足：工具调用的稳定性依赖外部API（如网络搜索服务、OCR接口），这些服务有时会有延迟或故障，导致训练过程出现随机波动；奖励函数的评价还依赖商业语言模型，成本较高，而且目前还无法覆盖对图片裁剪、增强等视觉操作的过程评价；由于实验规模和成本的限制，论文中也没有提供多次重复实验的误差范围。研究团队将开放奖励模型的替代方案和更完整的视觉过程评估列为未来的重要工作方向。

对于任何关心AI如何更聪明地理解图片、主动搜索信息的人来说，这套开源资源提供了一个扎实的起点。所有模型、数据集和训练代码均已在GitHub和Huggingface平台上开放发布，感兴趣的读者可通过arXiv编号2605.05185获取完整论文。

**Q&A**

Q1：OpenSearch-VL和普通的图片识别AI有什么区别？

A：普通图片识别AI通常只能根据图片内容给出直接答案，而OpenSearch-VL是一个能主动"调查"的智能体。它面对一张图片，会先理解图片内容，然后根据需要调用裁剪、增强、搜索等多种工具，一步步追查答案，就像侦探破案而非只看照片认人。

Q2：Fatal-Aware GRPO算法和普通强化学习有什么区别？

A：普通强化学习面对失败的尝试，要么直接丢掉（浪费了失败前的好推理），要么照单全收（把失败后的混乱也当成学习信号）。Fatal-Aware GRPO的聪明之处在于：保留失败前的有效推理，遮掉失败后的无效内容；同时确保失败前的好推理只被奖励、不被因为后续失败而惩罚。

Q3：OpenSearch-VL的训练数据是怎么保证"足够难"的？

A：研究团队专门设计了两层过滤机制。第一层过滤掉不用任何工具、AI靠自己记忆就能答对的问题；第二层过滤掉只需一次图片搜索就能解决的问题。只有真正需要看图识别、多步推理、跨工具协作才能答对的问题，才会进入训练集，确保AI在训练过程中无法走"捷径"。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.