网易首页 > 网易号 > 正文 申请入驻

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

0
分享至

  新智元报道

  编辑:LRST

  【新智元导读】多模态对齐模型借助对比学习在检索与生成任务中大放异彩。最新趋势是用冻结的大语言模型替换自训文本编码器,从而在长文本与大数据场景中降低算力成本。LIFT首次系统性地剖析了此范式的优势来源、数据适配性、以及关键设计选择,在组合语义理解与长文本任务上观察到大幅提升。

  多模态对齐模型近年来凭借对比学习范式在图像检索、文生图等任务中表现出色。然而,主流框架(如 CLIP)需要从零训练文本和图像编码器,导致计算成本高昂,尤其在处理长文本或大规模数据时更加明显。

  近期,相关工作尝试将预训练的大语言模型(LLM)作为文本编码器融入多模态对齐框架,并在分类和检索任务上观察到性能提升。

  然而,性能提升背后的机制尚不清晰,几个关键问题仍未得到系统解答:

  能力提升的本质:LLM文本编码器的加入究竟增强了多模态模型的哪些具体能力?

  数据特征的适配:在哪些类型的训练数据上,LLM文本编码器表现更优,原因为何?

  关键组件的贡献:LLM文本编码器的哪些设计选择对跨模态对齐至关重要?

  训练流程的简化:若使用LLM作为固定文本编码器,传统对比学习框架能否进一步优化?

  来自UC伯克利和香港大学的研究团队在最新工作LIFT(Language-Image Alignment with Fixed Text Encoders)中,对上述问题进行了系统性解答。

  论文链接:https://arxiv.org/pdf/2506.04209

  项目代码:https://github.com/Jingfeng0705/LIFT

  该方法采用极简训练范式——直接冻结预训练LLM作为文本编码器,仅优化图像编码器。

  LIFT首次阐明了LLM文本嵌入驱动语言-视觉对齐的关键机制,并为未来高效多模态模型的设计提供了全新思路。

  能力提升的本质

  「组合语义」理解大幅提升

  大量实验证明,CLIP及其变体缺乏「组合语义」理解(如词序、空间关系、物体-物体关系, 物体-属性关联等)。

  学界普遍认为,对比预训练促使从零训练的编码器倾向于学习「捷径」,即丢弃与组合语义相关的特征。

  在面向组合语义的SugarCrepe测试集上,LIFT相较CLIP在短文本训练场景下平均准确率提升6.8%,长文本训练场景下进一步提升至7.9%,在「添加属性」、「替换属性」与「替换关系」等子任务中优势尤为显著。

  这表明,LLM的自回归训练能有效避免对比学习的组合语义盲区,更精准地建模物体间以及物体与其属性间的关联。

  团队进一步以LIFT和CLIP作为图像编码器训练LLaVA式多模态大模型进行对比,以短文本训练的LIFT赢得6个LLaVA下游任务中的5项,而在长文本训练场景下全部取胜。

  LIFT在MMBench的细粒度感知与关系推理子任务上取得最大增益,这表明LIFT的组合语义理解优势可无缝迁移到大型多模态模型,显著提升物体定位、属性识别及物理关系判断等视觉任务能力。

  数据特征的适配

  在合成长文本中优势显著

  由多模态模型合成的长文本在语言-视觉对齐中正发挥日益重要的作用,因其能提供更丰富的图像细节信息。

  现有研究已发现,LLM文本编码器在处理此类长文本时不仅效率更高,还能带来性能提升。

  LIFT通过一系列实验再次证实这一现象,并进一步揭示了其背后的深层原因:预训练LLM文本编码器对合成长文本的句法相似性具有更强的鲁棒性。

  团队发现,合成文本通常遵循固定句法模板,这会扭曲原始文本分布,并分散从零训练的文本编码器对核心语义的关注。

  通过研究从Recap-DataComp-1B合成数据集中随机抽取的图像文本对,团队发现CLIP的文本编码器容易赋予句法相似但语义迥异的图像标题对高相似度。

  相比之下,LIFT采用海量文本预训练的LLM文本编码器能有效抵抗句法干扰,更精准地聚焦语义内容,赋予这些生成文本对更合理的相似度评分。

  关键组件的贡献

  对比微调至关重要

  在LLM文本编码器逐渐超越传统文本编码器的过程中,文本嵌入提取方式、对比微调等策略是最为关键的设计要素。为探究哪些设计真正有助于语言-视觉对齐,团队选取了五种7B规模的LLM作为LIFT的文本编码器进行对比实验。

  结果显示,未经微调的原始LLM表现显著落后,在ImageNet-1K零样本分类任务中平均准确率下降22.8%,这表明LLM本身难以提供高质量的文本嵌入,对比微调对于语言-视觉对齐至关重要。

  三种微调后的模型均取得良好且相近的表现,既验证了对比微调的有效性,也说明简单的 隐状态 已能有效表征文本,复杂的嵌入提取方法可能并非必要

  训练流程的简化

  极简Cosine Similarity Loss

  CLIP依赖基于余弦相似度的InfoNCE对比损失来防止模式坍缩,但其计算量和显存需求会随批次大小呈平方级增长,且严重依赖大批量负样本。

  而预训练的LLM文本编码器解决了模式坍缩问题,因此团队尝试改用仅计算正向图像文本对的极简余弦相似度损失来实现对齐。

  这种损失函数使FLOPs和显存需求降至线性复杂度,完全摆脱了对负样本和大批次的依赖。

  实验表明,在组合语义理解和LLaVA下游任务上,简化后的损失函数与InfoNCE表现相当;使用长文本训练时,该损失函数甚至在中英MMBench测试中显著领先。

  然而,其在零样本分类与检索任务中准确率有所下降。

  团队认为这一差距源于缺乏负样本导致表征区分度不足,证明对比损失函数在分类和检索任务中仍具有独特优势。

  总结与后续工作

  LIFT采用极简的训练范式,结合系统测试与消融实验,首次剖析了LLM文本嵌入驱动语言-视觉对齐的关键机制,归纳出四大核心发现:

  相比从零训练的文本编码器, LLM文本编码器带来的多模态模型性能提升主要来自于更强的组合语义理解能力;

  面对句法模板化、语义信息丰富的合成长文本,LLM编码器具备更强的鲁棒性与判别力;

  在语言-视觉对齐中,对比微调对于LLM文本编码器至关重要,而复杂的嵌入提取方式并非必要, 隐状态即可胜任;

  在固定文本编码器后,用仅含正样本的极简线性余弦损失即可替代InfoNCE,对组合语义理解、LLaVA下游任务无损甚至有益。

  未来,团队将把该简化范式与自监督等视觉表征学习策略结合,进一步细化并丰富语义联结。

  此外,当前对齐仍主要停留在低阶统计层面,如何实现局部视觉特征与对应语义的深度耦合,将成为下一阶段的核心研究方向。

  参考资料:

  https://arxiv.org/pdf/2506.04209

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从69.8元跌至16.8元,长城汽车跌了近5年

从69.8元跌至16.8元,长城汽车跌了近5年

中国能源网
2026-05-28 17:32:45
中日一旦开战,谁会帮我们?俄巴朝各怀心思,真正的底牌只有一张

中日一旦开战,谁会帮我们?俄巴朝各怀心思,真正的底牌只有一张

古史青云啊
2026-05-24 09:40:58
田径亚青赛男子百米代泓宇反超日本对手夺冠  陈歆璇女子百米摘银

田径亚青赛男子百米代泓宇反超日本对手夺冠 陈歆璇女子百米摘银

威猛孟巍
2026-05-29 02:09:05
特朗普或现场观战尼克斯总决赛 27年等一回

特朗普或现场观战尼克斯总决赛 27年等一回

坠入温柔晚风
2026-05-29 01:59:46
重庆一男子疑遭妻子家暴后跳楼,警方不立案后父母提刑事自诉告儿媳

重庆一男子疑遭妻子家暴后跳楼,警方不立案后父母提刑事自诉告儿媳

澎湃新闻
2026-05-28 12:06:30
发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

LULU生活家
2026-04-24 19:12:24
告天下子女:再孝顺,也不要为年过70岁的老父老母,做这三件事

告天下子女:再孝顺,也不要为年过70岁的老父老母,做这三件事

梦史
2026-04-03 03:44:15
生育大局已定:不出意外的话,2026年起中国人口将迎三大转折点

生育大局已定:不出意外的话,2026年起中国人口将迎三大转折点

游古史
2026-05-27 16:47:33
国家卫健委明确!住院不用整夜守医院,白天治疗晚上能回家

国家卫健委明确!住院不用整夜守医院,白天治疗晚上能回家

健身狂人
2026-05-28 14:16:47
赌王三太前儿媳庆生状态大好,与何猷启育有两女,对方已低调再婚

赌王三太前儿媳庆生状态大好,与何猷启育有两女,对方已低调再婚

阿裤趣闻君
2026-05-28 11:51:56
75岁姜昆近况:与46岁单身爱女相依为命,日子过得让人羡慕

75岁姜昆近况:与46岁单身爱女相依为命,日子过得让人羡慕

娱说瑜悦
2026-04-04 15:38:01
杨鹤通直播发表不当言论,德云社回应

杨鹤通直播发表不当言论,德云社回应

韩小娱
2026-05-28 18:39:17
印度超50℃,每天热死几百人!莫迪丢下国民,自己跑国外“避暑”

印度超50℃,每天热死几百人!莫迪丢下国民,自己跑国外“避暑”

小陆搞笑日常
2026-05-28 13:17:18
特斯拉中国宣布新功能,终于要来了!

特斯拉中国宣布新功能,终于要来了!

XCiOS俱乐部
2026-05-28 15:06:23
华国锋上报十三名不予释放人员,毛主席简短批示,令众人默然不语

华国锋上报十三名不予释放人员,毛主席简短批示,令众人默然不语

唠叨说历史
2026-05-27 15:11:20
一天闪崩83%!马云密友“钱多多”,深陷“杀猪盘”质疑

一天闪崩83%!马云密友“钱多多”,深陷“杀猪盘”质疑

包不同
2026-05-29 00:38:39
入侵前兆!荷兰战舰海空一体强闯中国领土,我军主动使用电磁压制

入侵前兆!荷兰战舰海空一体强闯中国领土,我军主动使用电磁压制

共工之锚
2026-05-28 12:30:57
登上太空仅2天,就炸出一堆牛鬼蛇神,香港母亲黎家盈刺痛了谁?

登上太空仅2天,就炸出一堆牛鬼蛇神,香港母亲黎家盈刺痛了谁?

凉羽亭
2026-05-27 23:13:55
爱自然,更爱你,绝世美女

爱自然,更爱你,绝世美女

疾跑的小蜗牛
2026-05-28 21:17:30
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
2026-05-29 02:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15329文章数 66892关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

本地
手机
健康
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

手机要闻

红米K100 Pro Max与荣耀Magic9标准版,均传出新消息!

专家教你辨认“正规外泌体”!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美锁定伊朗打击新目标 考虑重启军事行动

无障碍浏览 进入关怀版