网易首页 > 网易号 > 正文 申请入驻

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文是北京大学彭宇新教授团队在多轮交互式商品检索的最新研究成果,已被 ICLR 2025 接收并开源。

图像检索是计算机视觉的经典任务,近年来在电商等场景中广泛应用。然而,单一图像难以满足用户需求,用户常需要修改图像以适配特定场景。为此,组合图像检索(CIR)应运而生,旨在通过结合参考图像和修改文本来定位目标图像。随着多轮交互需求的增加,多轮组合图像检索(MTCIR)逐渐成为研究热点,能够利用用户迭代反馈不断优化检索结果。然而,现有MTCIR方法通常通过串联单轮CIR数据集构建多轮数据集,存在两点不足:(1)历史上下文缺失:修改文本缺乏对历史图像的关联,导致检索偏离实际场景;(2)数据规模受限:单轮数据集规模有限,串联方式进一步压缩了多轮数据集的规模,难以满足研究和应用需求。

为解决上述问题,本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括:(1)回溯性:每轮修改文本可能涉及历史参考图像信息(如保留特定属性),要求算法回溯利用多轮历史信息;(2)多样化:FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍,且交互轮次数量接近其27倍,提供了丰富的多模态检索场景。

本文进一步提出了多轮聚合-迭代模型MAI,重点应对MTCIR中的两大挑战:(1)多模态语义聚合,(2)多轮信息优化。具体而言,MAI引入了一种新的两阶段语义聚合(TSA)范式,并结合循环组合损失(CCL)计算。TSA通过引入描述文本作为过渡,逐步将图像与其描述文本聚合,再与修改文本聚合。CCL的循环结构进一步增强了语义一致性和模态对齐。此外,本文设计了一种无参数的多轮迭代优化(MIO)机制,动态选择具有高语义多样性的代表性标记,有效压缩了历史数据表征的存储空间。实验结果表明,本方法在所提出的新基准FashionMT的召回指标上平均提升了8%,优于现有方法。

  • 论文标题:MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval
  • 论文链接:https://openreview.net/pdf?id=gXyWbl71n1
  • 开源代码:https://github.com/PKU-ICST-MIPL/MAI_ICLR2025
  • 实验室网址:https://www.wict.pku.edu.cn/mipl

背景与动机

多轮组合图像检索(MTCIR)作为电商场景的关键技术,旨在通过持续对话理解用户动态调整的需求。现有方法采用"多轮串联单轮"范式时,模型陷入仅依赖当前轮次图像的路径依赖,导致历史语义链路断裂——当用户修改需求涉及历史属性时(如"保留前两轮的袖口设计"),检索系统因无法回溯上下文而失效。这一现象暴露两大关键不足:首先,现有数据集构建方式割裂了跨轮次的语义关联,使模型陷入局部最优陷阱;其次,传统单轮优化范式难以适应多轮场景的语义累积特性,在长程信息传递与动态记忆压缩方面存在设计局限。

针对上述不足,本文提出了系统性解决方案:(1) 跨轮次语义建模框架:通过显式标注多轮修改需求与历史图像的语义关联,构建首个具备历史回溯特性的数据集和评测基准FashionMT;(2) 两阶段跨模态语义聚合:设计基于TSA模块与CCL损失的渐进式对齐架构,通过图像-文本-指令的层级交互解决模态鸿沟问题;(3) 动态记忆压缩机制:设计MIO模块,利用基于聚类算法的token选择策略实现长程依赖建模中的信息优化,在保持检索精度的同时减少历史信息冗余存储。本文方法实现了多轮检索中语义连续性与计算效率的协同优化。

图1. 多轮组合图像检索样例展示

数据集和评测基准

本文的数据主要来源于两个渠道:1. 从现有的单轮组合图像检索数据集收集图像及相关文本;2. 从多个电商平台爬取图像及相关文本。在数据预处理过程中,本文对爬取的图像进行了清洗,去除损坏、模糊以及非商品类图像。

图2. 数据集和评测基准FashionMT数据分布图

受现有修改文本手工标注过程的启发,本文提出了一个自动化的数据集构建框架-修改生成框架(MGF),旨在通过捕捉参考图像和目标图像对之间的差异,自动构建数据集。该框架包括以下步骤:

1. 图像选择:从某一产品子类中选择N+1张图像用于N轮交易;2. 标题生成:利用图像描述模型为这些图像生成标题;3. 基础修改生成:采用大型语言模型(LLM)描述相邻轮次图像标题之间的差异;4. 回溯性修改生成:确定需要回溯分析的特定轮次,并根据最新图像与历史图像之间的属性交集生成相应的修改文本。

为了更好地适应现实场景中的回溯性需求,本文设定了两种回溯性修改文本生成情境:回滚和组合。在回滚设置中,通过回滚的方式在指定的参考图像与目标图像之间生成修改文本。该情境下的示例为:“Compared to the most recent turn, I still prefer the item from the second turn. Building on that, I like...”。在组合设置中,用户结合多个历史轮次中的图像属性来构建修改请求。该情境下的示例为:“I like ... from the first turn, and ... from the second turn” 。在此设置中,修改文本由两部分组成:第一部分是描述需要保留的公共属性,并以提示 “Keep the {Attr} in the {ID} turn” 开头,其中 {Attr}表示如颜色、logo、图案等属性,{ID}表示与目标图像共享属性的轮次;第二部分描述附加的修改需求。

FashionMT在规模和丰富性上显著超越现有数据集,图像数量是MT FashionIQ的14倍,类别数量是MT Shoes的近10倍。通过利用修改生成框架,FashionMT实现了高效的交易构建,数据集规模为MT FashionIQ的27倍。此外,FashionMT的修改文本更加详尽,平均长度是MT FashionIQ的两倍。作为专为MTCIR任务设计的数据集,FashionMT为多模态图像检索任务提供了更加全面和真实的数据支持。

技术方案

为应对MTCIR中的两大挑战——多模态语义聚合多轮信息优化,本文提出了多轮聚合-迭代模型(MAI)。如图3所示,MAI包含4个主要模块:

1.多模态语义聚合(BSA):通过聚合图像描述和修改文本的语义信息,增强图像与文本之间的语义对齐。

2.多轮迭代优化(MIO):通过优化多轮交互中的关键语义 tokens,减少冗余信息,提升检索性能。

3.修改语义聚合(MSA):将修改文本与参考图像的语义信息进行融合,以强化修改内容对图像的语义影响。

4.循环组合损失(CCL):通过多轮训练中的循环优化机制,强化目标图像与修改文本之间的匹配度。

图3. 多轮聚合-迭代模型方法框架图

模块4:循环组合损失(CCL)

在多轮组合图像检索任务中,修改文本在检索过程中的引导作用至关重要。为此,本文提出了循环组合损失(CCL),旨在通过对多模态信息进行精确对齐,强化图像与文本之间的语义关联,特别是文本修改的语义。具体而言,本文设计的循环组合损失目标是通过多轮迭代中图像和文本的语义对齐,确保检索结果更加准确。该损失函数结合了4种嵌入的约束,包括参考图像的语义嵌入、目标图像的语义嵌入、修改文本的语义嵌入以及目标图像的文本特征。通过多轮训练,强化每轮之间语义的传递和优化,使得最终的目标图像能更好地与修改文本匹配。循环组合损失(CCL) 由以下4项损失组成:

(1)参考图像语义与目标图像语义之间的相似度损失

(2)目标图像语义与修改文本语义之间的相似度损失

(3)修改文本语义与目标图像文本特征之间的相似度损失

(4)目标图像文本特征与参考图像语义之间的相似度损失

每一项相似度损失通过批量分类损失计算,使用内积方法(余弦相似度)衡量嵌入之间的相似性。最终,循环组合损失为各轮损失的累积,确保在多轮交互中,所有语义信息得到充分融合和优化,其公式展示如下:

实验结果

表1. 在FashionMT数据集上的实验结果

表1的实验结果表明,本文所提出的MAI方法显著优于现有方法,在检索的召回率平均指标上相比新加坡A*STAR研究院的SPRC方法提高了8.63%,相比北京大学发布的多模态混合输入大模型MMICL提高了11.77%。

图4. 在FashionMT数据集上的检索结果可视化

图4表明, MAI通过利用TSA和CCL高效聚合图像-描述文本的语义,能够有效处理细粒度需求,使其对“绉布”和“复古设计”等领域特定术语具有识别能力。此外,MAI通过使用MIO组件保留多轮历史关键信息,能够精确解释诸如“肩带设计”等模糊表达,从而满足回溯性需求。

更多内容,请参见原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

懂球帝
2026-03-26 13:21:13
学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

垚垚分享健康
2026-03-26 13:09:39
三观尽毁!萝莉岛新照片流出,办公桌下趴着妙龄女郎,不堪入目!

三观尽毁!萝莉岛新照片流出,办公桌下趴着妙龄女郎,不堪入目!

川渝视觉
2026-02-09 10:43:27
3-1拿下陈熠,最后一个世乒赛名额到手,王艺迪笑到了最后

3-1拿下陈熠,最后一个世乒赛名额到手,王艺迪笑到了最后

眼界纵横
2026-03-26 23:25:59
“公路闪电”终于换代,但我觉得不如丰田

“公路闪电”终于换代,但我觉得不如丰田

差评XPIN
2026-03-26 09:57:20
中日48小时交锋:日企被排除,东京降级对华关系

中日48小时交锋:日企被排除,东京降级对华关系

星落山间
2026-03-25 14:12:01
第86轮打击来袭!打击力度升级,以色列海军基地遭摧毁,川普让步

第86轮打击来袭!打击力度升级,以色列海军基地遭摧毁,川普让步

爱吃醋的猫咪
2026-03-26 22:25:02
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

梦史
2026-01-07 10:08:05
女大学生住院做检查,报告竟是假的!珠海中山五院等多方回应

女大学生住院做检查,报告竟是假的!珠海中山五院等多方回应

南方都市报
2026-03-24 12:42:25
大众中国回应斯柯达退出中国市场

大众中国回应斯柯达退出中国市场

澎湃新闻
2026-03-26 17:33:03
男女约会隐秘又安全的12个地方,有6个场合你根本想不到

男女约会隐秘又安全的12个地方,有6个场合你根本想不到

聪明小石头
2026-03-21 09:13:42
70岁陈宝国现状:头发胡子全白,老到认不出,大龄儿子是他的烦恼

70岁陈宝国现状:头发胡子全白,老到认不出,大龄儿子是他的烦恼

白面书誏
2026-03-24 18:23:07
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
男同胞们别嘴硬,老实回答!

男同胞们别嘴硬,老实回答!

小光侃娱乐
2026-03-07 13:15:07
房价上涨的最强信号!

房价上涨的最强信号!

米宅
2026-03-24 07:26:02
诺基亚6600内置无人机,这设计必须封神

诺基亚6600内置无人机,这设计必须封神

3C毒物
2026-02-27 15:25:40
还记得20年前的《故事会》吗?广告不堪入目,简直是个纸上"暗网"!

还记得20年前的《故事会》吗?广告不堪入目,简直是个纸上"暗网"!

神奇故事
2026-03-17 23:54:32
汉武帝用一场血腥清算告诉后人,为什么最该死的永远是中间派!

汉武帝用一场血腥清算告诉后人,为什么最该死的永远是中间派!

掠影后有感
2026-03-26 10:50:33
伊朗格斗冠军被捕!或被截肢+判处死刑 曾来中国参赛 击败5大高手

伊朗格斗冠军被捕!或被截肢+判处死刑 曾来中国参赛 击败5大高手

念洲
2026-03-25 17:59:21
一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

潮鹿逐梦
2026-03-21 11:54:42
2026-03-27 00:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
教育
亲子
房产
艺术

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

天天学习|走进课堂的“大朋友”

亲子要闻

看看把孩子吓得哈哈哈

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版