网易首页 > 网易号 > 正文 申请入驻

四川大学提出Test-time Adaptation新范式,突破查询偏移挑战

0
分享至


在 NeurIPS 2024 大会上,OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在其主题报告中展望了基础模型的未来研究方向,其中包括了 Inference Time Compute [1],即增强模型在推理阶段的能力,这也是 OpenAI o1 和 o3 等核心项目的关键技术路径。

作为 Inference Time Compute 的重要方向之一,Test-time Adaptation(TTA)旨在使预训练模型动态适应推理阶段中不同分布类型的数据,能够有效提高神经网络模型的分布外泛化能力。

然而,当前 TTA 的应用场景仍存在较大局限性,主要集中在单模态任务中,如识别、分割等领域。

近日,四川大学 XLearning 团队将 TTA 拓展至跨模态检索任务中,有效缓解了查询偏移(Query Shift)挑战的负面影响,有望推动 Inference time compute 向跨模态应用发展。

目前,该论文已被机器学习国际顶会 ICLR 2025 接收并评选为 Spotlight(入选比例 5.1%)。

  • 论文题目:Test-time Adaptation for Cross-modal Retrieval with Query Shift
  • 论文地址:https://openreview.net/forum?id=BmG88rONaU
  • 项目地址:https://hbinli.github.io/TCR/

背景与挑战

跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据,在搜索引擎、推荐系统等领域具有重要的应用价值。如图 1 (a) 所示,现有方法通常基于预训练模型来构建共同空间,并假设推理阶段的查询数据与训练数据分布一致。然而,如图 1 (b) 所示,在现实场景中,用户的查询往往具有高度个性化的特点,甚至可能涉及不常见的需求,导致查询偏移(Query Shift)挑战,即模型推理时查询数据与源域数据的分布显著不同。

图 1:(a) 主流范式:利用预训练模型 Zero-shot 检索或者 Fine-tune 后检索。(b) 导致查询偏移的原因:难以对数据稀缺的领域进行微调;即使微调模型,也会面临 “众口难调” 的问题。(c) 观察:查询偏移会降低模态内的均匀性和增大模态间的差异。

如图 1 (c) 所示,本文观察到,查询偏移不仅会破坏查询模态的均匀性(Modality Uniformity),使得模型难以区分多样化的查询,还会增大查询模态与候选模态间的差异(Modality Gap),破坏预训练模型构建的跨模态对齐关系。这两点都会导致预训练模型在推理阶段的性能急剧下降。

尽管 TTA 作为能够实时应对分布偏移的范式已取得显著成功,但现有方法仍无法有效应对查询偏移挑战。一方面,当前 TTA 范式面向单模态任务设计,无法有效应对查询偏移对模态内分布和模态间对齐关系的影响。另一方面,现有 TTA 方法主要应用于识别任务,无法应对检索任务中的高噪声现象,即候选项远大于类别数量会导致更大的错误几率。

主要贡献

针对上述挑战,本文提出了 TCR,贡献如下:

  • 从模态内分布和模态间差异两个层面,揭示了查询偏移导致检索性能下降的根本原因。
  • 将 TTA 范式扩展至跨模态检索领域,通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象,实现查询偏移下的鲁棒跨模态检索。
  • 为跨模态检索 TTA 建立了统一的基准,涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景,支持包括 BLIP [2]、CLIP [3] 等主流预训练模型。

观察与方法

本文通过一系列的分析实验和方法设计,深入探究了查询偏移对公共空间的负面影响以及造成的高噪声现象,具体如下:

图 2:TCR 的框架图

1)挑战一:查询偏移对模态内和模态间的负面影响

为了进一步探究查询偏移对公共空间的负面影响,本文以一种 Untrain 的方式进行量化实验,即对推理阶段的数据特征如下变换:

图 3:模态内均匀性与模态间差异的观察

基于上述观察,本文提出了如下损失:

图 4:TTA 前后的特征分布

图 5:温度系数的消融实验

基准与实验

为了更好地研究查询偏移对跨模态检索任务的影响,本文提出以下两中评估方法:

  • 仅查询偏移:只有查询模态的分布与源域数据不同。依据 [5],在 COCO [6] 和 Flickr [7] 数据集上分别引入了 16 种图像损坏和 15 种文本损坏(按照不同严重程度共计 130 种损坏)。为了保证仅查询偏移,先让模型在对应数据集上进行微调,随后将微调后的模型应用于仅有查询偏移的推理数据集中。
  • 查询 - 候选偏移:查询模态和候选模态的分布都与源域数据不同。为了保证查询 - 候选偏移,本文直接将预训练模型应用于各领域的推理数据中,包括电商领域的 Fashion-Gen [8]、ReID 领域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然图像领域的 Nocaps [11] 等。

部分实验结果如下:

1)仅查询偏移

表 1:仅查询偏移下的性能比较

2)查询 - 候选偏移

表 3、4:查询 - 候选偏移下的性能比较

总结与展望

本文提出的 TCR 从模态内分布和模态间差异两个层面揭示了查询偏移对跨模态检索性能的负面影响,并进一步构建了跨模态检索 TTA 基准,为后续研究提供了实验观察和评估体系。

展望未来,随着基础模型的快速发展,TTA 有望在更复杂的跨模态场景(如 VQA 等)中发挥关键作用,推动基础模型从 "静态预训练" 迈向 "推理自适应" 的发展。

参考文献:

[1] Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, et al. Trading inference-time compute for adversarial robustness. arXiv preprint arXiv:2501.18841, 2025.

[2] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pretraining for unified vision-language understanding and generation. In ICML, 2022.

[3] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.

[4] Victor Weixin Liang, Yuhui Zhang, Yongchan Kwon, Serena Yeung, and James Y Zou. Mind the gap: Understanding the modality gap in multi-modal contrastive representation learning. In NeurIPS, 2022.

[5] Jielin Qiu, Yi Zhu, Xingjian Shi, Florian Wenzel, Zhiqiang Tang, Ding Zhao, Bo Li, and Mu Li. Benchmarking robustness of multimodal image-text models under distribution shift. Journal of Data-centric Machine Learning Research, 2023.

[6] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ´ ECCV, 2014.

[7] Bryan A Plummer, Liwei Wang, Chris M Cervantes, Juan C Caicedo, Julia Hockenmaier, and Svetlana Lazebnik. Flickr30k entities: Collecting region-to-phrase correspondences for richer imageto-sentence models. In ICCV, 2015.

[8] Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, and Chris Pal. Fashion-gen: The generative fashion dataset and challenge. arXiv preprint arXiv:1806.08317, 2018.

[9] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, and Xiaogang Wang. Person search with natural language description. In CVPR, 2017.

[10] Zefeng Ding, Changxing Ding, Zhiyin Shao, and Dacheng Tao. Semantically self-aligned network for text-to-image part-aware person re-identification. arXiv:2107.12666, 2021.

[11] Harsh Agrawal, Karan Desai, Yufei Wang, Xinlei Chen, Rishabh Jain, Mark Johnson, Dhruv Batra, Devi Parikh, Stefan Lee, and Peter Anderson. Nocaps: Novel object captioning at scale. In CVPR, 2019.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人民日报发文,张展硕再破天花板,令潘展乐孙杨和整个泳坛都沉默

人民日报发文,张展硕再破天花板,令潘展乐孙杨和整个泳坛都沉默

小徐讲八卦
2025-11-16 08:29:56
谁在逼西安人交“温暖税”?5.8元一平的暖气费背后是场精妙的算计

谁在逼西安人交“温暖税”?5.8元一平的暖气费背后是场精妙的算计

贞观108坊
2025-11-16 17:41:52
《哪吒2》获金鸡奖没人来领奖,出品方、导演、团队均缺席

《哪吒2》获金鸡奖没人来领奖,出品方、导演、团队均缺席

韩小娱
2025-11-16 09:38:33
苹果刚上架的新品,开售就火到断货了

苹果刚上架的新品,开售就火到断货了

科技堡垒
2025-11-15 12:04:21
加图索:我要向球迷道歉;上半场很不错,下半场我们变得胆怯

加图索:我要向球迷道歉;上半场很不错,下半场我们变得胆怯

懂球帝
2025-11-17 06:15:06
我朋友去看了赵露思演唱会,回来整个人都还没缓过神

我朋友去看了赵露思演唱会,回来整个人都还没缓过神

小光侃娱乐
2025-11-16 13:30:03
日本男子中奖6亿日元,瞒着家人独自享乐,对外装穷致精神萎靡

日本男子中奖6亿日元,瞒着家人独自享乐,对外装穷致精神萎靡

极目新闻
2025-11-16 11:09:38
体型、力量有差距,UFC322:张伟丽判定不敌舍甫琴科无缘冠军

体型、力量有差距,UFC322:张伟丽判定不敌舍甫琴科无缘冠军

懂球帝
2025-11-16 13:04:05
坏消息,克里斯塔普斯·波尔津吉斯伤情报告降级,无缘对阵太阳

坏消息,克里斯塔普斯·波尔津吉斯伤情报告降级,无缘对阵太阳

好火子
2025-11-17 05:59:09
杨兰兰案第四次庭审,全澳哗然!

杨兰兰案第四次庭审,全澳哗然!

难得君
2025-11-15 20:21:58
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

芳芳历史烩
2025-09-24 20:13:19
“穷人家太子爷,真搞笑”,一双2600块球鞋,诠释了慈母多败儿

“穷人家太子爷,真搞笑”,一双2600块球鞋,诠释了慈母多败儿

熙熙说教
2025-11-16 19:15:10
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

明月清风阁
2025-11-14 15:20:03
『高分佳作』筱田优来照顾怀孕妻子的嫂子 演技满分,眼神太媚了

『高分佳作』筱田优来照顾怀孕妻子的嫂子 演技满分,眼神太媚了

素然追光
2025-11-16 04:00:02
狗主人说:“我拒绝调解,让民警晚上等打架电话”:丈夫遭反杀了

狗主人说:“我拒绝调解,让民警晚上等打架电话”:丈夫遭反杀了

汉史趣闻
2025-11-15 20:34:53
好事:多名民营企业家获罪后改判,或与中国欲积极加入CPTPP 协定有关

好事:多名民营企业家获罪后改判,或与中国欲积极加入CPTPP 协定有关

蛙蛙和洼
2025-11-08 10:01:55
“二次元”观众给力!《鬼灭之刃》带动单日大盘时隔36天后破亿

“二次元”观众给力!《鬼灭之刃》带动单日大盘时隔36天后破亿

北青网-北京青年报
2025-11-15 09:47:08
貌合神离!55岁钟丽缇胖到认不出,骑行李箱近200斤,张伦硕全程黑脸

貌合神离!55岁钟丽缇胖到认不出,骑行李箱近200斤,张伦硕全程黑脸

扒星人
2025-10-24 16:11:13
新疆红其拉甫国门因《奔跑吧》拍摄封闭栈道引发游客不满 多方回应

新疆红其拉甫国门因《奔跑吧》拍摄封闭栈道引发游客不满 多方回应

上游新闻
2025-11-16 19:15:04
经济形势有可能超乎我们的想象

经济形势有可能超乎我们的想象

经济学教授V
2025-11-16 18:05:56
2025-11-17 07:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
旅游
游戏
健康
军事航空

艺术要闻

Charles Chaplin:19世纪法国新洛可可风格画家

旅游要闻

年度名场面!燕雀湖池杉林层林尽染,治愈你整个冬天

《纪元117:罗马和平》多人游戏问题大 育碧承诺修复

血液科专家揭秘白血病七大误区

军事要闻

海军四川舰顺利完成首次航行试验

无障碍浏览 进入关怀版