网易首页 > 网易号 > 正文 申请入驻

RAE终极形态?北大&阿里提出UniLIP: CLIP拓展到重建、生成和编辑

0
分享至



本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学 2022 级博士生,发表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要关注统一的多模态理解和生成。指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 和 ICLR 2023 最佳论文奖。

统一多模态模型要求视觉表征必须兼顾语义(理解)和细节(生成 / 编辑)。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器,面临理解与重建的权衡:直接量化 CLIP 特征会损害理解性能;而为冻结的 CLIP 训练解码器,又因特征细节缺失而无法精确重建。例如,RAE 使用冻结的 DINOv2 重建,PSNR 仅 19.23。



为解决这一核心矛盾,UniLIP 提出创新的 CLIP 微调框架,通过两阶段重建训练与自蒸馏损失,在不损失模型原有理解性能的同时,实现了卓越的图像重建能力。UniLIP 可直接替换 MLLM(如 InternVL)中的原有 CLIP 模块(如 InternViT),并保持甚至略微提升其理解性能

不同于 RAE 仅在 ImageNet 上进行了实验,UniLIP 进行了大规模的生成和编辑训练。UniLIP 仅用1B 和 3B 参数的模型,便在GenEval (0.90)、WISE (0.63) 和 ImgEdit (3.94)等多个基准上取得了 SOTA 性能,媲美甚至超越了更大规模的模型。



  • 论文链接:https://www.arxiv.org/pdf/2507.23278
  • 开源代码:https://github.com/nnnth/UniLIP
  • 开源模型:https://huggingface.co/kanashi6/UniLIP-3B

方法细节



CLIP 无损适应图像重建

为解决 CLIP 特征因细节缺失导致的重建模糊问题,UniLIP 提出了一种创新的两阶段训练方案,旨在增强其像素级重建能力,同时不损害其卓越的语义理解力。该方案基于一个包含 CLIP、像素解码器及投影层的自编码器架构。

第一阶段:解码器对齐。 此阶段冻结 CLIP,仅训练像素解码器和投影层,使其学习从固定的 CLIP 特征中重建图像。训练目标为:



第二阶段:自蒸馏微调。 由于原始 CLIP 特征缺乏像素细节,第一阶段的重建质量受限。因此,此阶段将共同训练 CLIP,并通过自蒸馏方法约束其特征,防止其偏离原始分布,从而在注入细节的同时保留语义。训练目标为:





通过此方案,UniLIP 克服了语义理解与像素重建的内在权衡,其理解能力甚至在部分基准上得到增强(见下表)。对于生成与编辑任务,UnLIP 特征带来了三大优势:

(1)高保真压缩:实现 32 倍图像压缩,并能通过轻量级解码器高质量恢复。

(2)强文本对齐:继承 CLIP 的对齐能力,确保对文本指令的精准响应。

(3)完备特征表示:同时编码高级语义与像素细节,为高保真编辑提供完整信息。



用于图像生成和编辑的双条件架构



UniLIP 借鉴了 MetaQuery 范式,但突破了其在图像编辑任务中的信息瓶颈。传统方法仅用固定数量的查询嵌入(Query Embeddings)连接 MLLM 与扩散模型,这在传递参考图像丰富的像素级细节时力不从心,常导致编辑结果细节退化或内容不一致。

为此,UniLIP 提出了一种双条件架构。该架构在查询嵌入之外,额外引入 MLLM 的多模态隐藏状态作为第二个条件,共同引导 DiT 的交叉注意力模块。这有效地补充了缺失的像素级信息。这种设计成功地将复杂任务解耦:MLLM 专注于高级推理和意图理解,DiT 则基于这套无损传递的、兼具高级语义与底层细节的丰富线索,进行高保真度的图像合成。最终,UniLIP 在图像生成与编辑任务上均实现了卓越性能。

实验结果

模型架构

UniLIP 包括 1B 和 3B 两个模型变体,它们分别由 InternVL3 (1B/2B) 与 SANA (0.6B/1.6B) 集成而来。在架构上,UniLIP 直接采用 InternVL3 的 InternViT 作为 CLIP 编码器,并结合 DC-AE 的像素解码器。连接器则设计为 6 层,结构与 LLM 保持一致,并使用了 256 个可学习查询。

训练数据

UniLIP 的生成数据来自 BLIP3-o,包括 38M 的预训练数据和 60k 的指令微调数据。UniLIP 的编辑预训练数据来自 GPT-Image-Edit-1.5M,指令微调数据来自包含 46K 编辑数据的 ShareGPT-4o-Image。

图像重建



在 256x256 分辨率下,UniLIP 不仅超越了此前的量化方法,其更高的下采样率也带来了生成效率优势。在 448x448 分辨率下,与使用扩散解码器的 Emu2 相比,UniLIP 由于打开 CLIP 进行重建训练取得显著优势。

多模态理解



UniLIP 可以直接替换 InternVL 的视觉编码器在理解基准上进行测试。得益于重建训练对原始能力的有效保持,UniLIP 实现了同规模最好的理解性能,并且超越了 Tar (7B) 和 VILA-U (7B) 等采用量化 CLIP 特征的更大模型。

图像生成



在 GenEval (0.90) 和 WISE (0.63) 图像生成基准上,UniLIP 凭借卓越的文图对齐能力,不仅超越了同规模模型,还达到了与 BAGEL 等更大模型相当的水平。

图像编辑



在 ImgEdit-Bench 图像编辑基准上,UniLIP 以 3.94 的高分超越了 OmniGen2 等先进模型。其强大性能归功于 UniLIP 特征的丰富细节与精准语义对齐能力。UniLIP 创新的双条件架构充分利用了这些特征,确保了编辑的精确性和非编辑区的一致性。

可视化结果



在生成任务中,UniLIP 可以生成美观且严格遵循用户提示的图像;而在编辑任务中,UniLIP 可以在准确修改图像的同时保持周围区域的一致性。

结论

通过精心设计的两阶段训练与自蒸馏约束,UniLIP 有效解决了语义理解与像素细节保留的矛盾。此外,其创新的双条件架构无缝连接了 MLLM 与扩散模型,确保了生成和编辑任务中的高保真度与一致性。UniLIP 在多个基准上展示的卓越性能,为下一代统一多模态模型提供了新的范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有趣!开赛前提出夺冠,现提前无缘季后赛,老板向球迷郑重致歉

有趣!开赛前提出夺冠,现提前无缘季后赛,老板向球迷郑重致歉

南海浪花
2026-04-18 15:43:59
英法宣布牵头霍尔木兹海峡安全通航行动,已有12国愿提供军事资源,“美国和伊朗均未参会”

英法宣布牵头霍尔木兹海峡安全通航行动,已有12国愿提供军事资源,“美国和伊朗均未参会”

大象新闻
2026-04-18 14:43:03
全国景区为啥都卖臭豆腐、打铁花?圈内人不说的潜规则!

全国景区为啥都卖臭豆腐、打铁花?圈内人不说的潜规则!

沈理职谈
2026-04-06 16:27:46
卢拉:特朗普无权早上一醒来就威胁一个国家

卢拉:特朗普无权早上一醒来就威胁一个国家

参考消息
2026-04-17 19:21:50
贾浅浅被查,拼爹失败!

贾浅浅被查,拼爹失败!

新浪财经
2026-04-14 15:56:51
浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

独角showing
2025-12-31 21:08:57
真有人会讨厌自己小孩嘛 网友说想把又蠢又坏的9岁儿子送到少管所

真有人会讨厌自己小孩嘛 网友说想把又蠢又坏的9岁儿子送到少管所

侃神评故事
2026-04-18 19:35:03
拒绝接受兴奋剂检测,前温网冠军面临最高4年禁赛处罚

拒绝接受兴奋剂检测,前温网冠军面临最高4年禁赛处罚

全景体育V
2026-04-18 05:47:06
陪睡陪玩算什么?继人体盛宴、舔手指后,千万网红再曝娱乐圈内幕

陪睡陪玩算什么?继人体盛宴、舔手指后,千万网红再曝娱乐圈内幕

刘蕳爱下厨
2026-04-19 04:26:29
伊朗一仗点醒普京,俄罗斯或不再是世界大国,中国不是第二强?

伊朗一仗点醒普京,俄罗斯或不再是世界大国,中国不是第二强?

阿雹娱乐
2026-04-16 07:46:23
赵岩昊遭王博当众怒吼径直离场,胡金秋拉都拉不住,谁之过?

赵岩昊遭王博当众怒吼径直离场,胡金秋拉都拉不住,谁之过?

砚底沉香
2026-04-18 20:15:25
别再以为"合村并镇"只是并村子!山东这次是以镇为单位,整体整合

别再以为"合村并镇"只是并村子!山东这次是以镇为单位,整体整合

三农雷哥
2026-04-18 17:20:03
骑士灭猛龙总分1-0:哈登22+10总分超伯德 米切尔32分创历史第一

骑士灭猛龙总分1-0:哈登22+10总分超伯德 米切尔32分创历史第一

醉卧浮生
2026-04-19 05:51:10
张婉婷直播对齐溪开火那几句话信息量炸了!齐溪七年不生另有隐情

张婉婷直播对齐溪开火那几句话信息量炸了!齐溪七年不生另有隐情

小娱乐悠悠
2026-04-17 11:38:27
140年来最强厄尔尼诺正在酝酿?地球或今年冲击高温极限?国家气候中心回应

140年来最强厄尔尼诺正在酝酿?地球或今年冲击高温极限?国家气候中心回应

澎湃新闻
2026-04-18 11:03:07
票房破44亿只是开始!于和伟、梁朝伟、周润发要掀起一波新高潮了

票房破44亿只是开始!于和伟、梁朝伟、周润发要掀起一波新高潮了

八斗小先生
2026-04-18 14:57:45
张兰沉默了,马筱梅直接下通知要同住,还给她戴了好奶奶的高帽子

张兰沉默了,马筱梅直接下通知要同住,还给她戴了好奶奶的高帽子

小娱乐悠悠
2026-04-16 12:44:58
女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

另子维爱读史
2026-01-26 18:39:06
何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

扒点半吃瓜
2026-03-10 07:00:13
澳大利亚在日本最大的国防出口交易中订购 3 艘升级版最上护卫舰

澳大利亚在日本最大的国防出口交易中订购 3 艘升级版最上护卫舰

深度Militaire
2026-04-19 07:00:37
2026-04-19 07:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12792文章数 142632关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

媒体:特朗普对伊朗发动攻击 美国遭遇四大挫败

头条要闻

媒体:特朗普对伊朗发动攻击 美国遭遇四大挫败

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

艺术
旅游
健康
手机
军事航空

艺术要闻

夜色下的欧洲

旅游要闻

申城周末开启“繁花”模式:前滩800米欧式花街变身庄园 全城百个橱窗联动“拥抱”春天

干细胞抗衰4大误区,90%的人都中招

手机要闻

华为Pura X Max:被曝24日开卖!华为Pura 90:发售日成谜!

军事要闻

解放军护卫舰与外舰缠斗20小时 细节披露

无障碍浏览 进入关怀版