北大清华等突破：26亿条数据训练多模态模型实现图文全能检索|实验

分享至

说到图文检索，大家可能觉得这是个很高深的技术名词，但其实它就在我们身边。当你在购物网站上传一张衣服照片，然后说"我想要类似的但是红色的"，或者在搜索引擎里上传一张风景图片问"这是哪里"，背后用的就是多模态检索技术。这项由北京邮电大学、北京人工智能研究院、中科大、上海交大和香港理工大学等多家顶级院校联合完成的研究，于2024年12月19日在arXiv平台发表（论文编号：arXiv:2412.14475v1），为这个领域带来了革命性的突破。

研究团队面临的问题就像是要培养一个"万能导购员"。现在的AI模型就像专业导购员，虽然在各自擅长的领域表现不错，比如服装导购员很懂衣服，电子产品导购员很懂数码产品，但如果让服装导购去卖家具，或者让电子产品导购去推荐化妆品，他们就不太行了。而研究团队的目标是训练出一个"全能导购员"，无论客户拿着什么商品照片，提出什么样的需求，都能准确理解并找到最合适的推荐。

更大的挑战在于，现有的训练这种"万能导购员"的教材实在太少了。就好比你要教一个人成为全能导购，但手头只有几本薄薄的产品手册，远远不够。而这次研究的最大突破，就是创造了一套全新的"教材制作方法"，并且用这种方法生成了超过2600万条高质量的训练数据，相当于制作了一套超级丰富的百科全书级教材。

一、革命性的数据制作工厂：MegaPairs方法

研究团队设计的MegaPairs方法就像一座高度自动化的数据制作工厂。传统的数据收集方式就像手工制作糖果，效率低、成本高、质量还不稳定。而MegaPairs就像现代化的糖果生产线，不仅效率高，质量还特别稳定。

这个"数据工厂"的工作原理非常巧妙。首先，它从互联网上收集了大量的图片，就像收集各种各样的原材料。然后，它使用三种不同的"筛选机器"来找出相关的图片对。第一种机器专门寻找"视觉-语义相关"的图片，比如同一辆汽车的不同角度照片；第二种机器专门寻找"视觉-模式相关"的图片，比如不同汽车但背景相似的照片；第三种机器专门寻找"文本相关"的图片，比如图片说明文字相似的照片。

找到相关图片对之后，工厂会启动两道"加工工序"。第一道工序使用多模态大语言模型（相当于一个很懂图像的智能助手）来分析两张图片之间的关系，详细描述它们的共同点和差异。第二道工序则使用普通的大语言模型（相当于一个很会写作的助手）将这些描述转换成自然的检索指令。

这种方法的妙处在于完全不需要人工标注。传统方法就像雇佣大量工人手工制作标签，成本高昂且容易出错。而MegaPairs就像一条全自动生产线，只需要投入原材料（开源图片数据），就能产出高质量的成品（标注好的训练数据）。更重要的是，这条生产线可以无限扩大规模，理论上可以处理任意数量的图片数据。

研究团队使用这种方法处理了来自RecapDataComp-1B数据集的2000万张图片，最终生成了26,235,105个高质量的训练样本。为了保证质量，他们还设置了严格的质量控制标准，过滤掉相似度过低或过高的图片对，确保每个训练样本都有足够的学习价值。

二、全能检索模型：MMRet的设计理念

基于这些海量高质量数据，研究团队开发了MMRet（Massive Multimodal Retrieval）系列模型。这就像用最好的食材和最精湛的工艺制作出的美食，自然比普通食材随便烹饪的效果要好得多。

MMRet采用了两种不同的架构设计，就像同一道菜的两种不同做法。第一种是基于CLIP的双编码器架构，这种设计就像左右手分工协作，左手专门处理图像，右手专门处理文本，最后将两只手的工作成果相加。这种方法的优点是计算效率高，适合大规模应用。

第二种是基于多模态大语言模型的架构，这种设计更像一个多才多艺的全能选手，能够同时处理图像和文本信息，并且理解它们之间复杂的关系。虽然计算成本更高，但理解能力也更强，特别适合处理复杂的多模态查询。

无论采用哪种架构，MMRet都使用了一种叫做"对比学习"的训练方法。这种方法就像教小孩认识不同动物，不是简单地告诉他们"这是猫"，而是同时展示猫、狗、兔子的照片，让他们学会区分"猫和狗的区别是什么"、"猫和兔子哪里不同"。通过这种对比学习，模型能够更好地理解不同图像和文本之间的细微差别。

训练过程中，研究团队还特别注重"硬负样本"的使用。这就像在学习过程中故意增加一些容易混淆的例子，比如在学习区分猫和狗时，特意加入一些长毛狗的照片，这样模型就能学会更精确的判断标准。实验证明，这种策略显著提升了模型的检索准确性。

三、令人瞩目的实验成果

研究团队进行了大量实验来验证MMRet的性能，结果可以说是令人印象深刻。在零样本组合图像检索任务中，也就是模型从未见过这些具体任务但需要立即上手工作的情况下，MMRet在四个主流基准测试中都取得了最佳成绩。

最引人注目的是数据质量的对比实验。研究团队发现，仅使用50万条MegaPairs数据训练的模型，性能就超过了使用3670万条MagicLens数据（之前的最佳数据集）训练的模型。这相当于用70倍少的数据达到了更好的效果，充分证明了MegaPairs数据的高质量。

在CIRCO基准测试中，MMRet-MLLM模型达到了42.2%的mAP@5指标，比之前最好的结果提升了8.1%。在CIRR测试中，模型在R@1指标上达到了46.7%，Rs@1指标达到了75.4%，都显著超越了现有最佳方法。在GeneCIS测试中，模型的Rs@1指标达到了21.1%，同样创造了新纪录。

更令人印象深刻的是，即使是最小的MMRet-Base模型，也能超越许多参数量大几十倍的竞争对手。这就像一个身材娇小但训练有素的运动员，能够击败许多比自己高大但训练不够的对手，再次证明了高质量数据和精心设计训练方法的重要性。

在更广泛的多模态嵌入基准测试MMEB上，MMRet同样表现出色。这个基准包含36个不同的数据集，涵盖分类、视觉问答、检索和视觉定位四大类任务。MMRet-MLLM在零样本设置下获得了44.0%的综合得分，超越了所有竞争对手。特别值得一提的是，与同样基于LLaVA-1.6架构的E5-V模型相比，MMRet的表现大幅领先，证明了MegaPairs数据的训练价值。

四、深度分析：为什么MegaPairs如此有效

研究团队还深入分析了MegaPairs方法成功的关键因素。首先是多样化的图像对挖掘策略。使用三种不同的相似性模型就像从三个不同角度观察同一个物体，能够捕捉到更丰富、更全面的图像关系。

单独使用任何一种相似性模型的效果都不如三种模型组合使用。这就像做菜时单一调料往往味道单调，而多种调料搭配使用才能调出丰富的口感。研究表明，基于文本相似性的图像对在零样本测试中效果最好，而多种策略组合则在所有测试中都表现最稳定。

硬负样本的作用也不容忽视。在训练过程中，每个图像对都会配备多个"干扰项"，这些干扰项与正确答案有一定相似性，但又不完全相同。这种训练方式迫使模型学会更精确的判断标准，就像在嘈杂环境中训练听力，最终在安静环境中的表现会更好。

数据规模的影响同样显著。实验表明，随着训练数据量的增加，模型性能呈现稳定的上升趋势，这意味着MegaPairs方法具有良好的可扩展性。只要有足够的计算资源和原始图像数据，就可以生成更多高质量训练样本，进一步提升模型性能。

五、技术创新的深层价值

这项研究的价值不仅在于创造了新的性能记录，更在于提出了一套可持续、可扩展的数据生成方法论。传统的数据标注方法就像手工艺品制作，虽然精美但难以大规模生产。而MegaPairs方法就像工业化生产线，不仅效率高，还能保证稳定的质量。

从技术角度来看，这种方法解决了多模态检索领域长期存在的数据瓶颈问题。以往研究者们就像巧妇难为无米之炊，有好的模型架构和训练方法，但缺乏足够的高质量数据。MegaPairs方法提供了一种"造米"的方法，让研究者们可以根据需要生成所需的训练数据。

更重要的是，整个方法完全基于开源模型和公开数据，这意味着任何研究机构都可以复现和使用这套方法。这就像公开了一道美食的完整制作方法，而不是藏着掖着只让少数人掌握。这种开放性对整个学术界和产业界都有巨大的推动作用。

从应用前景来看，MMRet模型的通用性为实际应用提供了更多可能性。无论是电商平台的商品推荐、搜索引擎的图像检索、社交媒体的内容理解，还是智能助手的多模态交互，都可能从这项技术中受益。

研究团队还特别强调了技术的民主化价值。通过开源模型和公开数据，他们降低了多模态AI技术的门槛，让更多研究者和开发者能够参与到这个领域中来。这种做法就像开设免费的技能培训班，让更多人掌握先进技术，最终推动整个行业的发展。

六、实际应用的广阔前景

MMRet技术的应用前景非常广阔，几乎涵盖了所有涉及图像和文本交互的场景。在电子商务领域，用户可以上传一张商品图片，然后用自然语言描述自己想要的变化，比如"颜色换成蓝色"、"样式更休闲一些"，系统就能准确找到符合要求的商品。

在内容创作和媒体行业，编辑们可以通过描述所需图片的具体要求来快速找到合适的素材。比如输入"夕阳下的海滩，但要有椰子树，氛围更浪漫一些"，系统就能从海量图片库中找到最匹配的图像。

对于教育领域，这项技术能够帮助构建更智能的学习系统。学生可以上传课本中的图表或实验图片，然后提出问题，系统能够找到相关的教学资源或类似的案例来帮助学习。

在医疗健康领域，医生可以上传病理图片或X光片，然后描述特定的症状特征，系统能够从医学图像数据库中找到相似的病例，为诊断提供参考。当然，这类应用需要更严格的质量控制和专业验证。

研究团队还考虑到了技术的社会责任问题。他们在论文中明确表示，所有图像数据都经过了严格的内容审查，去除了有害内容。同时，他们强烈不建议使用这项技术来检索或处理敏感内容，确保技术被用于正当用途。

七、未来发展的无限可能

这项研究不仅解决了现有问题，还为未来的发展指明了方向。研究团队发现，使用更多样化的检索器可以产生更丰富的图像对，这意味着还有很大的改进空间。比如可以加入更先进的文本领域检索器，或者设计全新的图像-文本联合检索策略。

从技术演进的角度来看，MegaPairs方法为自动化数据生成开辟了新的道路。随着大语言模型和多模态模型的不断进步，这种自动化数据生成方法的质量和效率还将进一步提升。这就像工业革命中机械化程度不断提高一样，AI数据生成也正在经历自动化程度不断提升的过程。

研究团队已经计划将整套技术方案开源，包括26百万训练样本的数据集、训练好的多个模型版本，以及完整的数据生成流程。这种开放态度将加速整个领域的发展，让更多研究者能够基于这些基础设施开展进一步的研究。

对于普通用户来说，这项技术的成熟应用还需要一定时间，但其潜在影响已经显现。未来的搜索引擎、购物平台、社交媒体可能都会变得更加智能，能够更准确地理解用户的复杂需求，提供更精准的服务。

说到底，这项由多所顶级院校联合完成的研究，不仅在技术上取得了突破，更重要的是提供了一种可持续发展的研究范式。通过创新的数据生成方法，研究者们可以根据需要创造训练数据，而不再受限于现有数据的规模和质量。这种范式转变可能会影响整个AI研究领域，就像从手工作坊到工业化生产的转变一样，将大大加速AI技术的发展和应用。

对于关注AI技术发展的读者，这项研究展示了开源合作的力量。当多个顶级研究机构联合起来，共享资源和知识，就能产生远超单一机构的研究成果。这也提示我们，未来的AI发展可能更多地依赖于开放合作，而不是封闭竞争。有兴趣深入了解技术细节的读者可以通过arXiv:2412.14475v1查询完整论文。

Q&A

Q1：MegaPairs数据生成方法和传统的人工标注相比有什么优势？

A：MegaPairs最大的优势是完全自动化和可扩展性。传统人工标注就像手工制作，成本高、效率低、质量不稳定，而且很难大规模进行。MegaPairs就像自动化生产线，只需要投入原始图片数据，就能产出高质量的训练样本，而且可以无限扩大规模。研究表明，仅用50万条MegaPairs数据就能超越用3670万条传统数据训练的模型效果。

Q2：MMRet模型在实际应用中能解决什么问题？

A：MMRet可以解决几乎所有涉及图像和文本交互的检索问题。比如在购物网站上传衣服照片说"要类似的但红色的"，在图库中用"夕阳海滩配椰子树"这样的描述找图片，或者在学习时上传课本图表提问找相关资料。本质上，它就像一个全能的智能助手，能理解你的图片和文字需求，然后精准找到你想要的内容。

Q3：这项技术什么时候能在日常生活中普及使用？

A：研究团队已经计划开源所有技术方案和模型，这将加速技术的产业化应用。目前一些大型科技公司的搜索引擎和购物平台可能已经在测试类似技术。预计在未来1-2年内，普通用户就能在主流互联网服务中体验到这种智能检索功能，比如更聪明的图片搜索、更精准的商品推荐等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.