网易首页 > 网易号 > 正文 申请入驻

CVPR 2026 | 生成模型与视觉编码器真的共享潜空间吗,UNE给出新的统一解释

0
分享至

生成模型(Generative Models)和视觉编码器(Vision Encoders)通常被看作两条相对独立的发展路线。前者从高斯噪声出发生成图像,后者则把图像映射为语义表示,两类模型的训练目标、优化方式和下游用途都不相同。本文介绍一篇来自以色列理工学院研究团队的最新工作(发表在 CVPR 2026上):通用正态嵌入(Universal Normal Embedding, UNE)。

该工作指出,这两类模型可能会共享一个更底层的几何结构,即潜空间的高斯特性。UNE假设编码器嵌入和扩散模型的 DDIM 噪声,都可以视作同一个潜在高斯源的线性噪声投影。围绕这一假设,作者构建了 NoiseZoo 数据集,并在 CelebA 上系统分析了编码器表示与扩散噪声的统计性质、线性可分性和可编辑性。实验表明,扩散模型中的初始噪声并非纯粹的随机变量,而是可以和编码器表示共享显著的语义结构,这为统一视觉理解与视觉生成提供了新的几何视角。


论文题目: The Universal Normal Embedding 文章链接: https://arxiv.org/abs/2603.21786 项目主页: https://rbetser.github.io/UNE/
一、研究背景

在计算机视觉领域,生成模型与表征学习长期沿着不同方向演进。扩散模型、流模型和变分自编码器更关注如何从潜变量生成出高质量图像,自监督编码器和多模态编码器则更关注如何得到可迁移、可线性探测的语义表示。虽然这两类模型都依赖潜空间,但学术界通常把它们理解为两种不同的数学对象,具体分为以下几个方面:

(1)生成模型中的噪声通常被视为采样起点。对于扩散模型而言,初始噪声的主要作用是作为生成过程的随机源。

(2)编码器表示则表现出较强的语义线性。诸如 CLIP[1]、DINO 等模型的嵌入空间已经被大量工作证明具有线性可分性,许多高层语义属性都可以用简单的线性探针恢复出来

(3)越来越多的实验表明,不同模型的潜空间可能存在可拼接性。无论是生成模型之间,还是不同编码器之间,研究者都观察到某些简单的线性映射足以在它们之间建立对齐关系,这暗示它们可能共享某种更基础的潜在几何。

(4)如果生成噪声和编码器嵌入真的来自同一底层结构,那么视觉理解与视觉生成之间的关系就不只是同属视觉模型,而是可以在同一潜在空间中被统一解释。

基于这些观察,本文提出了 UNE 假设。作者认为,存在一个理想的高斯潜空间,自然图像通过信息保持映射与该空间相连,而不同模型所学习到的潜表示,只是这个共享空间在不同架构和训练目标下形成的观测视图。如果这一假设成立,那么扩散噪声中的语义可分性、线性编辑能力,以及编码器与生成模型之间的几何对齐,就都可以放到同一个框架中进行解释

二、本文方法

本文方法的核心目标,是给生成模型潜空间与编码器表示建立一个统一的几何解释。作者不是去设计一个新的生成器或编码器,而是提出一个潜在假设,并通过数学建模和实验验证来检验这一假设是否合理。整体方法可以分为三个部分,分别是 UNE 假设本身、语义方向的线性分析与编辑机制,以及跨模型共享子空间的恢复。

2.1 通用正态嵌入

作者首先定义了一个理想潜空间 ,其潜变量服从标准正态分布:


其中 是该理想空间的维度。UNE 假设认为,自然图像数据域与这一潜在高斯空间之间存在信息映射关系,并且图像中的语义属性在这个空间中具有较简单的几何形式,例如线性可分。


上图展示了 UNE 空间的动机,其表明,不同模型虽然训练目标不同,但它们最终学到的潜表示可能都只是同一个高斯潜空间的不同视图。沿着这一思路,论文进一步提出诱导正态嵌入(Induced Normal Embedding, INE)的概念,用来描述某个具体模型实际产生的潜表示。对于模型 而言,其潜特征 可以被写成底层潜变量 的噪声线性投影:


其中 为线性映射矩阵, 为噪声项。这个表达式表明,不同模型虽然输出不同维度、不同形式的表示,但这些表示背后可能仍然共享同一组潜在语义方向。UNE 对应一个理想的共享高斯源,而 INE 对应每个模型能观测到的具体投影。


上图进一步展示了这种几何关系。在作者的设定里,语义属性在底层空间中沿某些线性方向展开,不同模型只是在投影之后保留了这些方向的不同部分因此它们依然可能拥有一致的语义结构。

2.2 线性语义方向与属性编辑

如果潜空间近似高斯,并且语义属性与潜变量联合服从高斯分布,那么属性在给定潜特征时的条件期望可以写成线性形式:


其中 表示某个语义属性, 和 为对应参数。这个结果意味着,在 UNE 及其诱导视图 INE 中,很多语义属性都可以用一条线性方向来描述。于是,使用简单的线性分类器或线性回归器,就可以从潜空间中提取年龄、微笑、性别等属性基于这一点,本文将属性编辑写成潜空间中的线性位移:


其中 控制编辑强度,只要找到某个语义方向,模型就可以沿着该方向移动,从而在不修改模型参数的情况下完成属性编辑。不过,现实中的属性方向往往会受到数据偏差影响。例如“胡子”方向可能同时带来年龄、脸型等变化。为缓解这一问题,作者加入了正交化策略如果希望改变属性 而不影响属性 ,可以把 投影到 的正交补空间中:


这一操作的作用,是从一个语义方向中去掉与另一语义方向重合的分量,从而得到更干净的编辑方向。

2.3 共享子空间恢复与多视图融合

如果不同模型的潜在表示真的是同一个底层高斯空间的投影,那么从多个模型的观测中恢复共享子空间就非常简单为此,作者考虑了 个模型在同一组图像上得到的潜表示矩阵 ,并希望找到一个共享表示 ,使得每个模型都能通过线性变换解释这个共享结构:


这一目标可以通过最小化下式来实现:


同时施加下面的约束条件:


来保证共享表示具备标准化性质。基于这一过程,UNE可以恢复不同模型都符合的低维语义核心,并检验这些共享维度是否真的保留了主要语义信息

三、实验结果

本文的实验主要验证了四个核心问题:(1)不同潜空间是否真的近似高斯,(2)扩散噪声中是否存在和编码器一致的线性语义,(3)线性方向是否足以支持可控编辑,以及(4)不同模型之间是否存在低维共享核心。作者围绕这四个问题构建了 NoiseZoo 数据集,并在 CelebA 验证集上进行了系统分析。

3.1 NoiseZoo 与潜空间高斯性检验

NoiseZoo 主要基于 CelebA 数据集进行构建。对于每张图像,作者提取了扩散模型 DDIM 得到的噪声表示,以及多个视觉编码器的嵌入表示。随后使用 Anderson-Darling、D'Agostino-Pearson 和 Shapiro-Wilk 三种统计检验,对这些潜空间做了 5000 次随机投影测试,以评估它们是否接近高斯分布。


上表结果显示,扩散模型潜空间的正态性接受率非常接近理论预期,像 SD 1.5、SD 2.1 这样的模型在多个检验下都接近 95%。编码器的接受率虽然略低,但 CLIP、DINOv3 等模型大多也保持在 80% 以上,明显高于非高斯对照分布。这说明无论是编码器表示还是生成噪声,都表现出显著的高斯化趋势,在统计层面支持了 UNE 假设

3.2 线性分类结果与跨空间对齐

在确认潜空间具有高斯趋势后,作者进一步检验了在这些空间中是否存在一致的线性语义。具体做法是在各模型潜空间上训练 40 个 CelebA 属性的线性分类器,并比较不同模型在这些属性上的分类表现


上图中的雷达结果展示了这一实验的总体趋势。可以看到,扩散模型的 DDIM 噪声虽然通常被视作随机变量,但在年龄、发色、是否微笑等属性上的线性分类效果,与 CLIP、DINO 等语义编码器具有高度一致性


上表进一步比较了跨空间映射后的性能变化,结果显示,把生成噪声通过线性映射转换到编码器嵌入空间后,属性分类精度几乎没有明显损失,下降幅度小于 0.3%。这表明两类空间之间并不只是都能分类,而是共享了一套近似一致的几何结构。

3.3 在线性方向上的可控编辑

如果扩散噪声中的语义方向不仅能被分类器识别,而且能直接用于生成控制,那么 UNE 假设的意义就不只停留在解释层面。为此,作者在 Stable Diffusion 1.5 的噪声空间中直接施加线性位移,测试是否可以在不修改模型结构和权重的前提下完成属性编辑


上图展示了在多种属性方向上的编辑效果。实验表明,沿着对应语义方向移动后,模型能够较稳定地改变年龄、性别表达、微笑等属性,而整体图像质量和身份连续性基本保持不变。这验证了潜空间中的线性语义方向不只是可探测的,也具有直接的生成控制能力

3.4 共享低维核心空间分析

最后,作者使用 GCCA[2] 从多个模型的潜表示中恢复共享子空间,并分析不同维度下保留下来的语义信息量。


上图展示了共享空间维度变化对分类性能的影响。实验表明,只需要 16 维左右的共享核心,就能够保留多个模型中大部分可线性分类的语义信息,其效果与单模型做 PCA 压缩后的结果相近。这表明,不同模型虽然潜空间维度和训练目标差异很大,但它们对图像语义的共同描述,很可能集中在一个相对低维的高斯子空间中。

四、总结

本文提出的通用正态嵌入假设(UNE),为生成模型与视觉编码器之间的关系提供了一个统一解释。围绕这一假设,作者进一步引入诱导正态嵌入(INE),用来描述具体模型对共享潜空间的不同观测形式。通过 NoiseZoo 数据集、正态性检验、线性分类、属性编辑以及 GCCA 共享子空间恢复等实验,本文系统展示了扩散噪声和编码器表示之间的统计一致性与语义一致性。整体来看,这项工作说明生成模型中的初始噪声并不是无结构的随机起点,而是一种与编码器表示高度相关的语义特征,这为统一理解视觉生成与视觉表征提供了新的潜空间几何框架。

参考

[1] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models From Natural Language Supervision. In: ICML, 2021.

[2] Jon R Kettenring. Canonical analysis of several sets of variables. Biometrika, 58(3):433–451, 1971.

Illustration From IconScout By IconScout Store

报名截止至 5 月 19 日晚 8 点,席位有限~

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
880元一双的PANE德训鞋成“上海土特产”:外籍顾客占比60-80%,多产品缺货需等待两三周

880元一双的PANE德训鞋成“上海土特产”:外籍顾客占比60-80%,多产品缺货需等待两三周

蓝鲸新闻
2026-05-15 12:24:24
广东一小孩玩耍钻进服装厂货箱,被衣物掩埋,大人未察觉按压后拖走箱子…

广东一小孩玩耍钻进服装厂货箱,被衣物掩埋,大人未察觉按压后拖走箱子…

广东活动
2026-05-15 12:08:16
王室彻底被激怒!哈里为梅根向王室提无理要求,威廉王子不再留情面

王室彻底被激怒!哈里为梅根向王室提无理要求,威廉王子不再留情面

小鱼爱鱼乐
2026-05-13 16:44:55
活塞G6伤情报告出炉,骑士传来坏消息,NBA新纪录诞生

活塞G6伤情报告出炉,骑士传来坏消息,NBA新纪录诞生

世界体育圈
2026-05-15 08:45:25
受暴雨天气影响 广东地区部分铁路列车将停运

受暴雨天气影响 广东地区部分铁路列车将停运

新快报新闻
2026-05-15 11:24:17
油价大降近5毛/升,今年“最大油价下跌”后,5月21日油价或再跌

油价大降近5毛/升,今年“最大油价下跌”后,5月21日油价或再跌

油价早知道
2026-05-15 09:49:34
马斯克带着儿子现身人民大会堂,拍照时还扛在肩上,也太宠孩子啦

马斯克带着儿子现身人民大会堂,拍照时还扛在肩上,也太宠孩子啦

八八尚语
2026-05-14 23:07:33
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
大瓜!马克龙被妻子打耳光,是跟42岁美女演员互发暧昧短信,被抓包了?!

大瓜!马克龙被妻子打耳光,是跟42岁美女演员互发暧昧短信,被抓包了?!

英国那些事儿
2026-05-14 23:29:50
“空军一号”下的中国军人,何以“稳如磐石”?

“空军一号”下的中国军人,何以“稳如磐石”?

大象新闻
2026-05-14 16:54:12
1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

干史人
2026-04-14 21:10:03
笑死!马斯克像个“好奇宝宝”,360度转圈拍人民大会堂。网友:没发朋友圈等于白来...

笑死!马斯克像个“好奇宝宝”,360度转圈拍人民大会堂。网友:没发朋友圈等于白来...

品牌新
2026-05-14 17:08:48
全新兰德酷路泽发布仅19万,国人已经看不上了!

全新兰德酷路泽发布仅19万,国人已经看不上了!

米粒说车唯一呀
2026-05-15 11:46:42
男子酒后执意要开车,女友劝阻无效后下车走人,警方调查发现其并非第一次酒驾,已被刑事立案侦查

男子酒后执意要开车,女友劝阻无效后下车走人,警方调查发现其并非第一次酒驾,已被刑事立案侦查

极目新闻
2026-05-14 22:36:50
果不其然,检调约谈高金素梅,对李乾龙、尹乃菁出手,绿营露马脚

果不其然,检调约谈高金素梅,对李乾龙、尹乃菁出手,绿营露马脚

坠入二次元的海洋
2026-05-15 12:52:30
48集《主角》直到胡三元刑满释放,才知,花彩香骗了所有人、米兰精明

48集《主角》直到胡三元刑满释放,才知,花彩香骗了所有人、米兰精明

TVB的四小花
2026-05-15 00:35:37
张艺谋也没想到,养了27年的陈婷,竟会亲手摘掉张艺谋妻子的认证

张艺谋也没想到,养了27年的陈婷,竟会亲手摘掉张艺谋妻子的认证

混沌录
2026-05-14 15:58:14
卖家胜诉后强制执行遇困境,河北一法院法警:打九折每月可付200万,不打折每月付50万

卖家胜诉后强制执行遇困境,河北一法院法警:打九折每月可付200万,不打折每月付50万

山西经济日报
2026-05-14 10:31:34
36辆70亿神话之后:一辆印度设计师的"叛逃"之作

36辆70亿神话之后:一辆印度设计师的"叛逃"之作

时光慢邮啊
2026-05-14 07:01:55
大s悲剧即将重演?45岁小沈阳身体亮起红灯,给所有明星提了醒

大s悲剧即将重演?45岁小沈阳身体亮起红灯,给所有明星提了醒

草莓解说体育
2026-05-15 04:13:39
2026-05-15 14:11:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2377文章数 596关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

特朗普访华"二号位"系美国驻华大使 其曾受超规格礼遇

头条要闻

特朗普访华"二号位"系美国驻华大使 其曾受超规格礼遇

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间:女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

亲子
健康
家居
旅游
时尚

亲子要闻

女子花大价钱入住月子中心,多名月嫂的行为让她无法理解

专家揭秘干细胞回输的安全风险

家居要闻

110㎡淡而有致的生活表达

旅游要闻

中国游、中国购“热力”值爆表 “政策红利+服务升级”让外国游客解锁多彩中国

冰凉一夏 | 比没穿还舒服,这些贴身衣物我囤了5件

无障碍浏览 进入关怀版