腾讯开源多模态搜索训练方案，打破AI数据黑箱|调用|锚点|智能体|知名企业|人工智能模型

腾讯开源多模态搜索训练方案，打破AI数据黑箱

2026-05-07 14:46:17　来源: 像素与芯片

北京举报

分享至

为什么顶尖AI搜索工具的能力难以复制？问题可能出在训练数据上。

5月7日消息，腾讯混元联合加州大学洛杉矶分校、香港中文大学等机构，发布OpenSearch-VL开源方案。这套方案瞄准多模态搜索智能体的训练瓶颈——用强化学习技术，让AI学会"边搜边想、边看边查"的复杂推理能力。

所谓多模态搜索智能体，简单说就是能同时处理图片和文字，还会主动调用搜索引擎、图像处理工具进行多步骤推理的AI系统。它的核心任务是解决知识密集型的复杂视觉问答——比如给你一张模糊的老照片，问"这是哪座建筑、建于哪年"，AI得先锐化图像、识别文字、再交叉验证历史资料。

研究团队指出，目前这个领域的最大障碍是数据不透明。现有顶尖系统多由商业公司主导，数据来源、过滤标准、工具使用轨迹全是黑箱，学术界想复现都无从下手。

OpenSearch-VL的解法是从头开源：数据管道、工具环境、训练算法全部公开。

数据构建上，团队利用维基百科的超链接图谱做"多跳实体路径采样"——让AI不能一步直达答案，必须像人类查资料那样层层递进。中间实体被重写为模糊描述，锚点实体绑定到源图像，专门抑制"检索捷径"。最终产出SearchVL-SFT-36k数据集，平均每条轨迹包含6.3次工具调用。其中10%数据还被刻意降质处理，逼AI学会"先处理图像、再查询知识"的主动感知行为。

工具环境也比传统检索智能体更丰富：文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率、透视校正全部统一。这意味着AI在问搜索引擎之前，可以先自己动手"修图"。

实验结果显示，OpenSearch-VL-30B-A3B模型将基线平均分从47.8提升至61.6，在VDR、MMSearch等基准上均有显著增益。消融实验进一步验证各组件价值：去掉源锚点锚定、模糊重写或分阶段过滤，平均得分会下降8.2至11.5点。

该研究已于5月6日发表于arXiv平台，GitHub仓库同步开放。对于想训练自家多模态搜索智能体的团队来说，这可能是目前最完整的公开配方。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.