网易首页 > 网易号 > 正文 申请入驻

让大模型学会高维找茬,中国联通新研究解决长文本图像检索痛点

0
分享至

允中 整理自 凹非寺
量子位 | 公众号 QbitAI

长文本图像检索新SOTA来了!

描述得越详细,图文匹配的分数就应该越高——这听起来是常识,但现有的CLIP模型却做不到。

而就在最近,中国联通数据科学与人工智能研究院团队在AAAI 2026 (Oral)上发表了一项最新成果,成功突破了这一局限。

研究名为HiMo-CLIP,通过巧妙地建模“语义层级”与“语义单调性”,在不改变编码器结构的前提下,让模型自动捕捉当前语境下的“语义差异点”

由此,成功解决了视觉-语言对齐中长期被忽视的结构化问题,在长文本、组合性文本检索上取得SOTA,同时兼顾短文本性能。

这一工作不仅提升了检索精度,更让多模态模型的对齐机制更加符合人类的认知逻辑,为未来更复杂的多模态理解任务指明了方向。

痛点:当描述变长,CLIP却“懵”了

在多模态检索任务中,我们通常期望:文字描述越详细、越完整,其与对应图像的匹配度(对齐分数)应该越高。这被称为“语义单调性”。

然而,现实很骨感。现有的模型(包括专门针对长文本优化的Long-CLIP等)往往将文本视为扁平的序列,忽略了语言内在的层级结构

如下图所示,对于同一张“白色福特F250皮卡”的图片,当文本从简短的“正面视图…”扩展到包含“超大轮胎”、“车轴可见”、“有色车窗”等详细描述的长文本时,许多SOTA模型的对齐分数反而下降了。

这种现象表明,模型未能有效处理长文本中的“语义层级”,导致细节信息淹没了核心语义,或者无法在复杂的上下文中捕捉到最具区分度的特征。

△图1 随着描述变长,现有模型分数下降,而HiMo-CLIP(绿勾)稳步提升

方法:HiMo-CLIP框架

为了解决上述问题,研究团队提出了一种即插即用的表征级框架HiMo-CLIP

它包含两个核心组件:层级分解模块(Hierarchical Decomposition,HiDe)和单调性感知对比损失(Monotonicity-aware Contrastive Loss,MoLo)。

△图2. HiMo-CLIP框架概览

(1)HiDe模块利用Batch内的PCA动态提取语义成分;(2)MoLo损失函数强制模型同时对齐“全量文本”和“语义成分”,实现单调性约束。

HiDe:谁是重点?由“邻居”决定

在真实场景中,数据样本往往是高度复杂的。

如上图2所示,我们面对的不是简单的“红苹果”和“青苹果”,而是像“一只金毛猎犬在公园草坪上追赶红盘”、“盘子里放着鲜红的草莓、黄香蕉和深紫色的葡萄”这样高度复杂的场景。传统的固定分词法在这种复杂度下根本抓不住重点。

HiMo-CLIP换了个思路,它像一个玩“大家来找茬”的高手:通过观察Batch内的“邻居”,动态提取最具区分度的特征

  • 长文本特征f1:代表“整句话”的意思。
  • 动态子语义f2:代表“这句话里最独特的记忆点”。举个栗子:假设长文本是:“一只戴着墨镜的柯基在沙滩上奔跑”。
  • 场景A(混在风景照里):如果这一批次(Batch)的其他图片都是“沙滩排球”、“海边游艇”。PCA一分析,发现“沙滩”大家都有,不稀奇。唯独“柯基”是独一份。→此时,f2自动代表“柯基(物体)”。
  • 场景B(混在狗群里):如果这一批次的其他图片都是“草地上的柯基”、“沙发上的柯基”。PCA一分析,发现“柯基”遍地都是,也没法区分。唯独“戴墨镜”和“在沙滩”是特例。→此时,f2自动代表“戴墨镜/沙滩(属性/环境)”。

这就是HiDe最聪明的地方:它不需要人教它什么是重点,而是利用统计学原理,自适应地提取出那个最具辨识度的“特征指纹”,自动构建语义层级。

MoLo:既要顾全大局,又要抓住细节

找到了重点f2,怎么用呢?作者设计了MoLo,强制模型“两手抓”:

MoLo=InfoNCE(f1, feat)+λ*InfoNCE(f2, feat)

  • 第一手:InfoNCE(f1, feat)是传统的图文匹配,保证图片和“整句话”(f1)对齐。
  • 第二手:InfoNCE(f2, feat)强制图片特征还要特别像那个提取出来的“独特记忆点”(f2)。

这个操作看似简单,实则一石三鸟:

  • 自动摘要:f2就是特征空间里的“高维短文本”,省去了人工构造短文本的偏差。
  • 更懂机器的逻辑:人类定义的关键词(如名词)未必是模型分类的最佳依据(可能是纹理或形状)。PCA完全在特征空间操作,提取的是机器认为的差异点,消除了人类语言和机器理解之间的隔阂(Gap)。
  • 数据效率高:你只需要喂给模型长文本,它在训练中顺便学会了如何拆解长句、提取关键词。训练的是长文本,却白捡了短文本的匹配能力。
实验:长短通吃,全面SOTA

研究团队在多个经典的长文本、短文本检索基准,以及自行构造的深度层级数据集HiMo-Docci上进行了广泛实验。

在长文本(表1)和短文本(表2)检索任务上,HiMo-CLIP展现出了显著的优势。值得注意的是,HiMo-CLIP仅使用了1M(一百万)的训练数据,就击败了使用100M甚至10B数据的方法(如LoTLIP,SigLIP等)。

△表1 长文本检索结果

△表2 短文本检索结果

为了充分评估长文本的对齐效果,研究团队构建了HiMo-Docci数据集,同时还提出了HiMo@K指标,以量化模型是否真的“读懂”了层级。结果显示,HiMo-CLIP保持了极高的单调性相关系数(0.88),远超对比方法。

△HiMo-Docci上的单调性可视化

随着文本描述逐渐完整(1→5),HiMo-CLIP的分数(红线)呈现出完美的上升趋势,而其他模型的分数则波动剧烈,甚至下降。

进一步的,为了探究各个组件对性能的具体贡献,研究团队进行了详尽的消融实验,揭示了HiDe与MoLo协同工作的内在机理。

感兴趣的朋友可到原文了解更多细节~

论文链接:https://arxiv.org/abs/2511.06653
开源地址:https://github.com/UnicomAI/HiMo-CLIP

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗和美国同意将停火延长60天

伊朗和美国同意将停火延长60天

一种观点
2026-05-29 20:48:59
微软发布Surface笔记本终极版:内置Nvidia芯片,可运行千亿参数人工智能模型

微软发布Surface笔记本终极版:内置Nvidia芯片,可运行千亿参数人工智能模型

字节漫游指南
2026-06-02 01:00:43
徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

乡野小珥
2026-05-18 08:58:28
潮汕火锅免单后续!提前准备好5000字差评威胁,四人正脸曝光社死

潮汕火锅免单后续!提前准备好5000字差评威胁,四人正脸曝光社死

小鋭有话说
2026-06-02 18:46:05
日媒:石脑油供应紧张,拖累日本香蕉市场

日媒:石脑油供应紧张,拖累日本香蕉市场

环球网资讯
2026-06-03 06:47:09
结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

枯蝶
2026-05-11 09:20:17
【西班牙】警察解救3名华人女子,被逼性奴卖YIN,因为恶臭被邻居发现报警...

【西班牙】警察解救3名华人女子,被逼性奴卖YIN,因为恶臭被邻居发现报警...

鲁晓芙看欧洲
2026-06-02 20:56:44
美军称“林肯”号航母继续参与对伊朗封锁行动

美军称“林肯”号航母继续参与对伊朗封锁行动

澎湃新闻
2026-06-03 04:38:12
房东“电话被打爆,谁约都不见”!上海二手房迎来超长“小阳春”,5月成交量创近6年新高

房东“电话被打爆,谁约都不见”!上海二手房迎来超长“小阳春”,5月成交量创近6年新高

每日经济新闻
2026-06-02 14:06:09
你相信光吗?A股港股齐爆发!这次不一样?

你相信光吗?A股港股齐爆发!这次不一样?

龙行天下虎
2026-06-03 00:39:25
进口针一支1.7万,年生长11厘米,国人怒了

进口针一支1.7万,年生长11厘米,国人怒了

果壳
2026-06-02 19:13:32
洛夫顿G4仅打两分钟,卢伟明确表示效果不佳,双小外压力大!

洛夫顿G4仅打两分钟,卢伟明确表示效果不佳,双小外压力大!

篮球资讯达人
2026-06-02 23:20:19
脊柱断裂、前夫已死,62岁"亚洲天后"韦唯,现状曝光让人唏嘘不已

脊柱断裂、前夫已死,62岁"亚洲天后"韦唯,现状曝光让人唏嘘不已

丹妮观
2026-04-02 14:43:02
98年香港金融保卫战:中国动用1200亿对轰,犹太资本从未输这么惨

98年香港金融保卫战:中国动用1200亿对轰,犹太资本从未输这么惨

小正说娱乐
2026-05-31 11:33:33
阿迪达斯发进城办事T恤,客服回应

阿迪达斯发进城办事T恤,客服回应

第一财经资讯
2026-06-02 15:07:57
外媒:中国官方宣布,歼-10CE以9比0的战绩横扫了欧洲顶级战斗机

外媒:中国官方宣布,歼-10CE以9比0的战绩横扫了欧洲顶级战斗机

零度Military
2026-06-03 07:09:08
萧山很多人家都装了这个,价格差距很大!凉快、省电但隐私没了?

萧山很多人家都装了这个,价格差距很大!凉快、省电但隐私没了?

萧内网
2026-06-02 21:07:56
官宣:985电气工程学院,成立!

官宣:985电气工程学院,成立!

新浪财经
2026-06-02 20:42:03
百年联排老别墅被“掏空”!住户紧急撤离,房主获刑,阿婆:谁来赔我们?

百年联排老别墅被“掏空”!住户紧急撤离,房主获刑,阿婆:谁来赔我们?

环球网资讯
2026-06-02 19:39:41
“你知道几号高考吗?”18岁纹身女孩的生日美照,诠释了物以类聚

“你知道几号高考吗?”18岁纹身女孩的生日美照,诠释了物以类聚

妍妍教育日记
2026-06-02 20:55:57
2026-06-03 07:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

特朗普:已同以黎通话协调停火 一周内将与伊达成协议

头条要闻

特朗普:已同以黎通话协调停火 一周内将与伊达成协议

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

数码
旅游
教育
时尚
军事航空

数码要闻

微软推出迷你Surface开发机 用RTX Spark填补高通空缺

旅游要闻

晨读 | 舒飞廉:春山行

教育要闻

校长最强大的内心素养,就2个字 | 余国庆

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版