为什么顶尖AI搜索工具的能力难以复制?问题可能出在训练数据上。
5月7日消息,腾讯混元联合加州大学洛杉矶分校、香港中文大学等机构,发布OpenSearch-VL开源方案。这套方案瞄准多模态搜索智能体的训练瓶颈——用强化学习技术,让AI学会"边搜边想、边看边查"的复杂推理能力。
![]()
所谓多模态搜索智能体,简单说就是能同时处理图片和文字,还会主动调用搜索引擎、图像处理工具进行多步骤推理的AI系统。它的核心任务是解决知识密集型的复杂视觉问答——比如给你一张模糊的老照片,问"这是哪座建筑、建于哪年",AI得先锐化图像、识别文字、再交叉验证历史资料。
研究团队指出,目前这个领域的最大障碍是数据不透明。现有顶尖系统多由商业公司主导,数据来源、过滤标准、工具使用轨迹全是黑箱,学术界想复现都无从下手。
OpenSearch-VL的解法是从头开源:数据管道、工具环境、训练算法全部公开。
数据构建上,团队利用维基百科的超链接图谱做"多跳实体路径采样"——让AI不能一步直达答案,必须像人类查资料那样层层递进。中间实体被重写为模糊描述,锚点实体绑定到源图像,专门抑制"检索捷径"。最终产出SearchVL-SFT-36k数据集,平均每条轨迹包含6.3次工具调用。其中10%数据还被刻意降质处理,逼AI学会"先处理图像、再查询知识"的主动感知行为。
工具环境也比传统检索智能体更丰富:文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率、透视校正全部统一。这意味着AI在问搜索引擎之前,可以先自己动手"修图"。
实验结果显示,OpenSearch-VL-30B-A3B模型将基线平均分从47.8提升至61.6,在VDR、MMSearch等基准上均有显著增益。消融实验进一步验证各组件价值:去掉源锚点锚定、模糊重写或分阶段过滤,平均得分会下降8.2至11.5点。
该研究已于5月6日发表于arXiv平台,GitHub仓库同步开放。对于想训练自家多模态搜索智能体的团队来说,这可能是目前最完整的公开配方。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.