网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

超CLIP准确率11%！伯克利港大阐明「LLM文本-视觉」对齐深层机制

2025-07-02 20:20:52　来源: 新智元

北京举报

0

分享至

　　新智元报道

　　编辑：LRST

　　【新智元导读】多模态对齐模型借助对比学习在检索与生成任务中大放异彩。最新趋势是用冻结的大语言模型替换自训文本编码器，从而在长文本与大数据场景中降低算力成本。LIFT首次系统性地剖析了此范式的优势来源、数据适配性、以及关键设计选择，在组合语义理解与长文本任务上观察到大幅提升。

　　多模态对齐模型近年来凭借对比学习范式在图像检索、文生图等任务中表现出色。然而，主流框架（如 CLIP）需要从零训练文本和图像编码器，导致计算成本高昂，尤其在处理长文本或大规模数据时更加明显。

　　近期，相关工作尝试将预训练的大语言模型（LLM）作为文本编码器融入多模态对齐框架，并在分类和检索任务上观察到性能提升。

　　然而，性能提升背后的机制尚不清晰，几个关键问题仍未得到系统解答：

　　能力提升的本质：LLM文本编码器的加入究竟增强了多模态模型的哪些具体能力？

　　数据特征的适配：在哪些类型的训练数据上，LLM文本编码器表现更优，原因为何？

　　关键组件的贡献：LLM文本编码器的哪些设计选择对跨模态对齐至关重要？

　　训练流程的简化：若使用LLM作为固定文本编码器，传统对比学习框架能否进一步优化？

　　来自UC伯克利和香港大学的研究团队在最新工作LIFT（Language-Image Alignment with Fixed Text Encoders）中，对上述问题进行了系统性解答。

　　论文链接：https://arxiv.org/pdf/2506.04209

　　项目代码：https://github.com/Jingfeng0705/LIFT

　　该方法采用极简训练范式——直接冻结预训练LLM作为文本编码器，仅优化图像编码器。

　　LIFT首次阐明了LLM文本嵌入驱动语言-视觉对齐的关键机制，并为未来高效多模态模型的设计提供了全新思路。

　　能力提升的本质

　　「组合语义」理解大幅提升

　　大量实验证明，CLIP及其变体缺乏「组合语义」理解（如词序、空间关系、物体-物体关系, 物体-属性关联等）。

　　学界普遍认为，对比预训练促使从零训练的编码器倾向于学习「捷径」，即丢弃与组合语义相关的特征。

　　在面向组合语义的SugarCrepe测试集上，LIFT相较CLIP在短文本训练场景下平均准确率提升6.8%，长文本训练场景下进一步提升至7.9%，在「添加属性」、「替换属性」与「替换关系」等子任务中优势尤为显著。

　　这表明，LLM的自回归训练能有效避免对比学习的组合语义盲区，更精准地建模物体间以及物体与其属性间的关联。

　　团队进一步以LIFT和CLIP作为图像编码器训练LLaVA式多模态大模型进行对比，以短文本训练的LIFT赢得6个LLaVA下游任务中的5项，而在长文本训练场景下全部取胜。

　　LIFT在MMBench的细粒度感知与关系推理子任务上取得最大增益，这表明LIFT的组合语义理解优势可无缝迁移到大型多模态模型，显著提升物体定位、属性识别及物理关系判断等视觉任务能力。

　　数据特征的适配

　　在合成长文本中优势显著

　　由多模态模型合成的长文本在语言-视觉对齐中正发挥日益重要的作用，因其能提供更丰富的图像细节信息。

　　现有研究已发现，LLM文本编码器在处理此类长文本时不仅效率更高，还能带来性能提升。

　　LIFT通过一系列实验再次证实这一现象，并进一步揭示了其背后的深层原因：预训练LLM文本编码器对合成长文本的句法相似性具有更强的鲁棒性。

　　团队发现，合成文本通常遵循固定句法模板，这会扭曲原始文本分布，并分散从零训练的文本编码器对核心语义的关注。

　　通过研究从Recap-DataComp-1B合成数据集中随机抽取的图像文本对，团队发现CLIP的文本编码器容易赋予句法相似但语义迥异的图像标题对高相似度。

　　相比之下，LIFT采用海量文本预训练的LLM文本编码器能有效抵抗句法干扰，更精准地聚焦语义内容，赋予这些生成文本对更合理的相似度评分。

　　关键组件的贡献

　　对比微调至关重要

　　在LLM文本编码器逐渐超越传统文本编码器的过程中，文本嵌入提取方式、对比微调等策略是最为关键的设计要素。为探究哪些设计真正有助于语言-视觉对齐，团队选取了五种7B规模的LLM作为LIFT的文本编码器进行对比实验。

　　结果显示，未经微调的原始LLM表现显著落后，在ImageNet-1K零样本分类任务中平均准确率下降22.8%，这表明LLM本身难以提供高质量的文本嵌入，对比微调对于语言-视觉对齐至关重要。

　　三种微调后的模型均取得良好且相近的表现，既验证了对比微调的有效性，也说明简单的隐状态已能有效表征文本，复杂的嵌入提取方法可能并非必要

　　训练流程的简化

　　极简Cosine Similarity Loss

　　CLIP依赖基于余弦相似度的InfoNCE对比损失来防止模式坍缩，但其计算量和显存需求会随批次大小呈平方级增长，且严重依赖大批量负样本。

　　而预训练的LLM文本编码器解决了模式坍缩问题，因此团队尝试改用仅计算正向图像文本对的极简余弦相似度损失来实现对齐。

　　这种损失函数使FLOPs和显存需求降至线性复杂度，完全摆脱了对负样本和大批次的依赖。

　　实验表明，在组合语义理解和LLaVA下游任务上，简化后的损失函数与InfoNCE表现相当；使用长文本训练时，该损失函数甚至在中英MMBench测试中显著领先。

　　然而，其在零样本分类与检索任务中准确率有所下降。

　　团队认为这一差距源于缺乏负样本导致表征区分度不足，证明对比损失函数在分类和检索任务中仍具有独特优势。

　　总结与后续工作

　　LIFT采用极简的训练范式，结合系统测试与消融实验，首次剖析了LLM文本嵌入驱动语言-视觉对齐的关键机制，归纳出四大核心发现：

　　相比从零训练的文本编码器， LLM文本编码器带来的多模态模型性能提升主要来自于更强的组合语义理解能力；

　　面对句法模板化、语义信息丰富的合成长文本，LLM编码器具备更强的鲁棒性与判别力；

　　在语言-视觉对齐中，对比微调对于LLM文本编码器至关重要，而复杂的嵌入提取方式并非必要，隐状态即可胜任；

　　在固定文本编码器后，用仅含正样本的极简线性余弦损失即可替代InfoNCE，对组合语义理解、LLaVA下游任务无损甚至有益。

　　未来，团队将把该简化范式与自监督等视觉表征学习策略结合，进一步细化并丰富语义联结。

　　此外，当前对齐仍主要停留在低阶统计层面，如何实现局部视觉特征与对应语义的深度耦合，将成为下一阶段的核心研究方向。

　　参考资料：

　　https://arxiv.org/pdf/2506.04209

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

全球首次单机降服万亿巨模DeepSeek-V4！RL后训练框架Orbit开源！

机器之心Pro 2026-05-28 11:48:03
1 跟贴 1
多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

机器之心Pro 2026-03-09 11:53:58
0 跟贴 0

面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

量子位 2026-02-05 23:20:12
0 跟贴 0

孩子去“光头强家”，对着床上被子一头栽下去，没想到是模型！

笑出猪叫的趣闻阁 2026-05-26 17:08:43
1 跟贴 1
博主“硬刚”稻城亚丁景区“截断近40公里省道收费”，多方回应

上游新闻 2026-05-25 14:46:47
42141 跟贴 42141

7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

量子位 2026-05-28 15:57:49
0 跟贴 0

美伊边谈边打！特朗普推动停火协议三阶段框架，却陷入两难

冰汝看美国 2026-05-28 16:57:19
1 跟贴 1
让扩散模型「可解释」不再降质，开启图片编辑新思路

机器之心Pro 2025-12-16 14:37:44
0 跟贴 0

刚刚，国产预训练具身大模型开源了，让后训练不再是必选项！

机器之心Pro 2026-05-28 14:22:25
0 跟贴 0
视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

机器之心Pro 2026-01-13 18:26:48
0 跟贴 0
美国知名体育媒体发布摄影师训练视频：看完惊呼这是真“强者”

北青网-北京青年报 2026-05-28 10:38:59
116 跟贴 116
Claude Code首发「自愈」功能! 一锤砸碎开发者6大噩梦

新智元 2026-05-28 18:47:12
10 跟贴 10
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
【半佛】让小孩学AI属于浪费时间？

硬核的半佛仙人 2026-05-27 12:58:43
0 跟贴 0
原型兵器2‌高清MOD，全新的贴图纹理和人物建模。想要的看我动态

mod插件爱好者 2026-05-28 21:04:13
3 跟贴 3
Google新数据集首次大规模捕捉用户「未言明的想法」

机器之心Pro 2026-05-28 16:49:48
0 跟贴 0
谷歌AI不认识Google

机器之心Pro 2026-05-28 18:08:48
0 跟贴 0
专家：荷兰舰机行为恶劣解放军高度克制

环球网资讯 2026-05-27 22:59:11
1290 跟贴 1290
比剧透提前！Anthropic发布Claude Opus 4.8：更“诚实”、可调思考强度、新功能协调数百智能体

华尔街见闻官方 2026-05-29 01:51:07
0 跟贴 0
支持远程操控和通用GUI操作3

机器之心Pro 2026-03-02 13:36:13
0 跟贴 0
AI正在重写软件行业？8岁孩子做操作系统，一人公司拿下千万订单

量子位 2026-05-28 15:24:45
0 跟贴 0
清华联手千问重塑归一化范式，让 Transformer 回归「深度」学习

机器之心Pro 2026-02-10 18:50:12
0 跟贴 0
矩形框架日字木框横铺木板做座椅

小玖记录 2026-05-28 01:22:03
1 跟贴 1
高手如何拆模板，两天的活一分钟搞定！聪明人优先！

三事堂观察 2026-05-24 09:19:24
0 跟贴 0
遇见国产「新模王」Qwen3.7-Max！-2

机器之心Pro 2026-05-21 11:35:28
0 跟贴 0
不用人类手写训练框架了！-2

机器之心Pro 2026-05-26 14:35:24
0 跟贴 0
风行CEO易正朝：真正的全产业杀手应用是AI编程，相比AI视频，AI编程对企业经营的意义更大

量子位 2026-05-21 08:05:56
0 跟贴 0
记者调查！“可登机”的行李箱为啥上不了飞机？

中国消费者报 2026-05-28 12:59:18
3 跟贴 3
忠实粉丝跟着大V投资亏掉99.8% 140万只剩2732元

每日经济新闻 2026-05-28 21:07:35
270 跟贴 270
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
零样本 Sim-to-Real ！1

机器之心Pro 2026-03-25 11:40:20
0 跟贴 0
为AI Agent加上「认知滑条」

机器之心Pro 2026-03-27 16:52:48
0 跟贴 0
首师附属滨州中学：科技赋能课堂 “智慧伙伴”相伴成长智能机器狗走进课堂

感知山东 2026-05-28 19:10:34
0 跟贴 0
19岁小哥的“原始人”skill，最高省87%Token

量子位 2026-04-10 19:24:54
0 跟贴 0
JiuwenClaw助你一键养龙虾-1

机器之心Pro 2026-03-12 17:16:55
0 跟贴 0
全球SOTA的逻辑和记忆CodeBrain-1&MemBrain1.5同时开源

机器之心Pro 2026-04-08 15:35:21
0 跟贴 0
基于模块化大模型与图形控制的2D交互场景创作

机器之心Pro 2026-03-20 17:12:47
0 跟贴 0
每瓶仅含0.01克，喝几千瓶才抵一个桃！“饮料一哥”也翻车了？杭州多家超市在售，你可能也喝过

都市快报橙柿互动 2026-05-24 20:48:16
69 跟贴 69
SpaceX星舰模型真的戳中我了！4斤重的304不锈钢材质，全镜面工艺摸起来超有质感，摆在那儿就显得

制造科技 2026-05-28 18:27:19
3 跟贴 3
三哥抬模板，力气真的大

婚礼搞笑现场 2026-05-27 16:49:09
3 跟贴 3

从69.8元跌至16.8元，长城汽车跌了近5年

从69.8元跌至16.8元，长城汽车跌了近5年

中国能源网

2026-05-28 17:32:45

中日一旦开战，谁会帮我们？俄巴朝各怀心思，真正的底牌只有一张

中日一旦开战，谁会帮我们？俄巴朝各怀心思，真正的底牌只有一张

古史青云啊

2026-05-24 09:40:58

田径亚青赛男子百米代泓宇反超日本对手夺冠陈歆璇女子百米摘银

田径亚青赛男子百米代泓宇反超日本对手夺冠陈歆璇女子百米摘银

威猛孟巍

2026-05-29 02:09:05

特朗普或现场观战尼克斯总决赛 27年等一回

特朗普或现场观战尼克斯总决赛 27年等一回

坠入温柔晚风

2026-05-29 01:59:46

重庆一男子疑遭妻子家暴后跳楼，警方不立案后父母提刑事自诉告儿媳

重庆一男子疑遭妻子家暴后跳楼，警方不立案后父母提刑事自诉告儿媳

澎湃新闻

2026-05-28 12:06:30

发现一个奇怪的现象：凡是情绪稳定、睡眠好、不焦虑的人，都有一个共性，那就是再大的事也不搁在心里，再恶劣的环境也能想办法适应

发现一个奇怪的现象：凡是情绪稳定、睡眠好、不焦虑的人，都有一个共性，那就是再大的事也不搁在心里，再恶劣的环境也能想办法适应

LULU生活家

2026-04-24 19:12:24

告天下子女：再孝顺，也不要为年过70岁的老父老母，做这三件事

告天下子女：再孝顺，也不要为年过70岁的老父老母，做这三件事

梦史

2026-04-03 03:44:15

生育大局已定：不出意外的话，2026年起中国人口将迎三大转折点

生育大局已定：不出意外的话，2026年起中国人口将迎三大转折点

游古史

2026-05-27 16:47:33

国家卫健委明确！住院不用整夜守医院，白天治疗晚上能回家

国家卫健委明确！住院不用整夜守医院，白天治疗晚上能回家

健身狂人

2026-05-28 14:16:47

赌王三太前儿媳庆生状态大好，与何猷启育有两女，对方已低调再婚

赌王三太前儿媳庆生状态大好，与何猷启育有两女，对方已低调再婚

阿裤趣闻君

2026-05-28 11:51:56

75岁姜昆近况：与46岁单身爱女相依为命，日子过得让人羡慕

75岁姜昆近况：与46岁单身爱女相依为命，日子过得让人羡慕

娱说瑜悦

2026-04-04 15:38:01

杨鹤通直播发表不当言论，德云社回应

杨鹤通直播发表不当言论，德云社回应

韩小娱

2026-05-28 18:39:17

印度超50℃，每天热死几百人！莫迪丢下国民，自己跑国外“避暑”

印度超50℃，每天热死几百人！莫迪丢下国民，自己跑国外“避暑”

小陆搞笑日常

2026-05-28 13:17:18

特斯拉中国宣布新功能，终于要来了！

特斯拉中国宣布新功能，终于要来了！

XCiOS俱乐部

2026-05-28 15:06:23

华国锋上报十三名不予释放人员，毛主席简短批示，令众人默然不语

华国锋上报十三名不予释放人员，毛主席简短批示，令众人默然不语

唠叨说历史

2026-05-27 15:11:20

一天闪崩83%！马云密友“钱多多”，深陷“杀猪盘”质疑

一天闪崩83%！马云密友“钱多多”，深陷“杀猪盘”质疑

包不同

2026-05-29 00:38:39

入侵前兆！荷兰战舰海空一体强闯中国领土，我军主动使用电磁压制

入侵前兆！荷兰战舰海空一体强闯中国领土，我军主动使用电磁压制

共工之锚

2026-05-28 12:30:57

登上太空仅2天，就炸出一堆牛鬼蛇神，香港母亲黎家盈刺痛了谁？

登上太空仅2天，就炸出一堆牛鬼蛇神，香港母亲黎家盈刺痛了谁？

凉羽亭

2026-05-27 23:13:55

爱自然，更爱你，绝世美女

疾跑的小蜗牛

2026-05-28 21:17:30

喜欢把家里打扫得很干净的人，往往会有这3种命运，很准！

喜欢把家里打扫得很干净的人，往往会有这3种命运，很准！

品读时刻

2026-02-12 00:06:27

AI产业主平台领航智能+时代

15329文章数 66892关注度

往期回顾全部

科技要闻

利润跌27%：快手只剩“可灵”这张牌？

头条要闻

男子疑遭家暴跳楼身亡母亲：儿媳说"你不配活在世上"

头条要闻

男子疑遭家暴跳楼身亡母亲：儿媳说"你不配活在世上"

体育要闻

唐斯经历的一切，此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起选装天神之眼B承诺一年城市领航兜底

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

手机

健康

公开课

军事航空

本地新闻

用剪纸的方式，打开江苏扬州

手机要闻

红米K100 Pro Max与荣耀Magic9标准版，均传出新消息！

专家教你辨认“正规外泌体”！

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

美锁定伊朗打击新目标考虑重启军事行动

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版