网易首页 > 网易号 > 正文 申请入驻

四川大学提出Test-time Adaptation新范式,突破查询偏移挑战

0
分享至


在 NeurIPS 2024 大会上,OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在其主题报告中展望了基础模型的未来研究方向,其中包括了 Inference Time Compute [1],即增强模型在推理阶段的能力,这也是 OpenAI o1 和 o3 等核心项目的关键技术路径。

作为 Inference Time Compute 的重要方向之一,Test-time Adaptation(TTA)旨在使预训练模型动态适应推理阶段中不同分布类型的数据,能够有效提高神经网络模型的分布外泛化能力。

然而,当前 TTA 的应用场景仍存在较大局限性,主要集中在单模态任务中,如识别、分割等领域。

近日,四川大学 XLearning 团队将 TTA 拓展至跨模态检索任务中,有效缓解了查询偏移(Query Shift)挑战的负面影响,有望推动 Inference time compute 向跨模态应用发展。

目前,该论文已被机器学习国际顶会 ICLR 2025 接收并评选为 Spotlight(入选比例 5.1%)。

  • 论文题目:Test-time Adaptation for Cross-modal Retrieval with Query Shift
  • 论文地址:https://openreview.net/forum?id=BmG88rONaU
  • 项目地址:https://hbinli.github.io/TCR/

背景与挑战

跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据,在搜索引擎、推荐系统等领域具有重要的应用价值。如图 1 (a) 所示,现有方法通常基于预训练模型来构建共同空间,并假设推理阶段的查询数据与训练数据分布一致。然而,如图 1 (b) 所示,在现实场景中,用户的查询往往具有高度个性化的特点,甚至可能涉及不常见的需求,导致查询偏移(Query Shift)挑战,即模型推理时查询数据与源域数据的分布显著不同。

图 1:(a) 主流范式:利用预训练模型 Zero-shot 检索或者 Fine-tune 后检索。(b) 导致查询偏移的原因:难以对数据稀缺的领域进行微调;即使微调模型,也会面临 “众口难调” 的问题。(c) 观察:查询偏移会降低模态内的均匀性和增大模态间的差异。

如图 1 (c) 所示,本文观察到,查询偏移不仅会破坏查询模态的均匀性(Modality Uniformity),使得模型难以区分多样化的查询,还会增大查询模态与候选模态间的差异(Modality Gap),破坏预训练模型构建的跨模态对齐关系。这两点都会导致预训练模型在推理阶段的性能急剧下降。

尽管 TTA 作为能够实时应对分布偏移的范式已取得显著成功,但现有方法仍无法有效应对查询偏移挑战。一方面,当前 TTA 范式面向单模态任务设计,无法有效应对查询偏移对模态内分布和模态间对齐关系的影响。另一方面,现有 TTA 方法主要应用于识别任务,无法应对检索任务中的高噪声现象,即候选项远大于类别数量会导致更大的错误几率。

主要贡献

针对上述挑战,本文提出了 TCR,贡献如下:

  • 从模态内分布和模态间差异两个层面,揭示了查询偏移导致检索性能下降的根本原因。
  • 将 TTA 范式扩展至跨模态检索领域,通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象,实现查询偏移下的鲁棒跨模态检索。
  • 为跨模态检索 TTA 建立了统一的基准,涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景,支持包括 BLIP [2]、CLIP [3] 等主流预训练模型。

观察与方法

本文通过一系列的分析实验和方法设计,深入探究了查询偏移对公共空间的负面影响以及造成的高噪声现象,具体如下:

图 2:TCR 的框架图

1)挑战一:查询偏移对模态内和模态间的负面影响

为了进一步探究查询偏移对公共空间的负面影响,本文以一种 Untrain 的方式进行量化实验,即对推理阶段的数据特征如下变换:

图 3:模态内均匀性与模态间差异的观察

基于上述观察,本文提出了如下损失:

图 4:TTA 前后的特征分布

图 5:温度系数的消融实验

基准与实验

为了更好地研究查询偏移对跨模态检索任务的影响,本文提出以下两中评估方法:

  • 仅查询偏移:只有查询模态的分布与源域数据不同。依据 [5],在 COCO [6] 和 Flickr [7] 数据集上分别引入了 16 种图像损坏和 15 种文本损坏(按照不同严重程度共计 130 种损坏)。为了保证仅查询偏移,先让模型在对应数据集上进行微调,随后将微调后的模型应用于仅有查询偏移的推理数据集中。
  • 查询 - 候选偏移:查询模态和候选模态的分布都与源域数据不同。为了保证查询 - 候选偏移,本文直接将预训练模型应用于各领域的推理数据中,包括电商领域的 Fashion-Gen [8]、ReID 领域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然图像领域的 Nocaps [11] 等。

部分实验结果如下:

1)仅查询偏移

表 1:仅查询偏移下的性能比较

2)查询 - 候选偏移

表 3、4:查询 - 候选偏移下的性能比较

总结与展望

本文提出的 TCR 从模态内分布和模态间差异两个层面揭示了查询偏移对跨模态检索性能的负面影响,并进一步构建了跨模态检索 TTA 基准,为后续研究提供了实验观察和评估体系。

展望未来,随着基础模型的快速发展,TTA 有望在更复杂的跨模态场景(如 VQA 等)中发挥关键作用,推动基础模型从 "静态预训练" 迈向 "推理自适应" 的发展。

参考文献:

[1] Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, et al. Trading inference-time compute for adversarial robustness. arXiv preprint arXiv:2501.18841, 2025.

[2] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pretraining for unified vision-language understanding and generation. In ICML, 2022.

[3] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.

[4] Victor Weixin Liang, Yuhui Zhang, Yongchan Kwon, Serena Yeung, and James Y Zou. Mind the gap: Understanding the modality gap in multi-modal contrastive representation learning. In NeurIPS, 2022.

[5] Jielin Qiu, Yi Zhu, Xingjian Shi, Florian Wenzel, Zhiqiang Tang, Ding Zhao, Bo Li, and Mu Li. Benchmarking robustness of multimodal image-text models under distribution shift. Journal of Data-centric Machine Learning Research, 2023.

[6] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ´ ECCV, 2014.

[7] Bryan A Plummer, Liwei Wang, Chris M Cervantes, Juan C Caicedo, Julia Hockenmaier, and Svetlana Lazebnik. Flickr30k entities: Collecting region-to-phrase correspondences for richer imageto-sentence models. In ICCV, 2015.

[8] Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, and Chris Pal. Fashion-gen: The generative fashion dataset and challenge. arXiv preprint arXiv:1806.08317, 2018.

[9] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, and Xiaogang Wang. Person search with natural language description. In CVPR, 2017.

[10] Zefeng Ding, Changxing Ding, Zhiyin Shao, and Dacheng Tao. Semantically self-aligned network for text-to-image part-aware person re-identification. arXiv:2107.12666, 2021.

[11] Harsh Agrawal, Karan Desai, Yufei Wang, Xinlei Chen, Rishabh Jain, Mark Johnson, Dhruv Batra, Devi Parikh, Stefan Lee, and Peter Anderson. Nocaps: Novel object captioning at scale. In CVPR, 2019.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
傅斯年怒斥苏联“集罪恶之大成”:那些敢向苏联开炮的中国硬骨头

傅斯年怒斥苏联“集罪恶之大成”:那些敢向苏联开炮的中国硬骨头

顾史
2026-03-21 19:52:44
房价上涨的最强信号!

房价上涨的最强信号!

米宅
2026-03-24 07:26:02
土耳其单周抛售22吨黄金 创2018年以来新高

土耳其单周抛售22吨黄金 创2018年以来新高

财联社
2026-03-26 20:58:17
她是两百年难遇的美人,靠美貌“征服”无数男人,如今49岁仍未婚

她是两百年难遇的美人,靠美貌“征服”无数男人,如今49岁仍未婚

林雁飞
2026-03-22 14:47:54
华为Pura新机定了,4月全球首发!

华为Pura新机定了,4月全球首发!

3C毒物
2026-03-26 00:07:53
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
所有退休人员注意了:如果收到这条短信,一定要抓紧时间解决!

所有退休人员注意了:如果收到这条短信,一定要抓紧时间解决!

小鹿姐姐情感说
2026-03-26 16:22:36
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
国家出手!“京圈富少”被判入狱,和童瑶关系被扒,真实身份曝光

国家出手!“京圈富少”被判入狱,和童瑶关系被扒,真实身份曝光

林轻吟
2026-03-25 07:23:12
全球最大弹药库:澳门大搬空需6年,是否足够美国打次世界大战?

全球最大弹药库:澳门大搬空需6年,是否足够美国打次世界大战?

小蒨喜欢解说
2026-03-23 17:51:09
张雪峰离世后,再看撒贝宁三亚休假,才懂阶层差距最扎心的是什么

张雪峰离世后,再看撒贝宁三亚休假,才懂阶层差距最扎心的是什么

砚底沉香
2026-03-27 00:34:35
中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

策前论
2026-03-26 19:03:46
德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

懂球帝
2026-03-26 15:59:41
马英九接受《联合报》专访,谈萧旭岑违规,称: 决不私了!

马英九接受《联合报》专访,谈萧旭岑违规,称: 决不私了!

混沌录
2026-03-25 16:22:07
欧股美股期货 全线下挫 布油涨超4% WTI涨超3%

欧股美股期货 全线下挫 布油涨超4% WTI涨超3%

每日经济新闻
2026-03-26 20:40:39
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
外媒:专家警告,中国海军在回收坠毁飞机方面难以与美国匹敌

外媒:专家警告,中国海军在回收坠毁飞机方面难以与美国匹敌

兴史兴谈
2026-03-25 05:15:46
伊朗正式回应“15点停火协议”

伊朗正式回应“15点停火协议”

澎湃新闻
2026-03-26 23:03:02
连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一!

连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一!

共工之锚
2026-03-27 00:28:43
现货黄金突破4540美元/盎司

现货黄金突破4540美元/盎司

证券时报
2026-03-26 09:22:05
2026-03-27 01:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
教育
亲子
公开课
军事航空

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

亲子要闻

看看把孩子吓得哈哈哈

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版