网易首页 > 网易号 > 正文 申请入驻

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

0
分享至



作者来自 Nanyang Technological University(MMLab) 与 SenseTime Research,提出 Prism Hypothesis(棱镜假说) 与 Unified Autoencoding(UAE),尝试用 “频率谱” 的统一视角,把语义编码器与像素编码器的表示冲突真正 “合并解决”。



  • 论文标题:The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
  • 代码仓库:https://github.com/WeichenFan/UAE
  • 论文地址:https://arxiv.org/pdf/2512.19693

背景:为什么 “懂语义” 和 “还原细节” 总是很难兼得?

在视觉基础模型里,我们经常同时依赖两类能力:

  • 语义理解:像 DINOv2 / CLIP 这类 “语义编码器” 更擅长类别、属性、关系等抽象信息;
  • 像素保真:像 SD 系列 VAE 这类 “像素编码器” 更擅长纹理、边缘、小字等细节重建。

但现实问题是:很多系统被迫把两套表示 “拼在一起用”:语义一套、像素一套,训练效率下降、表示互相干扰、而且很难得到一个既 “语义强” 又 “细节强” 的统一潜空间。

论文把这种矛盾归结为一个更本质的问题:世界的信息到底如何被表示,才能既共享语义,又保留各自模态的细粒度。

核心洞察:Prism Hypothesis(棱镜假说)




论文给出了一个非常直观的统一解释:

  • 可以把真实世界的输入看成投影到同一条 “特征频谱” 上的不同切片;
  • 低频更像 “全局结构 / 语义”(类别、布局、关系);
  • 高频更像 “局部细节 / 质感”(纹理、边缘、微小文字)。





为了验证,作者做了两类证据:

1. 能量谱分析:语义编码器(如 DINOv2、CLIP)能量更集中在低频,而像素型编码器(如 SD-VAE)保留更多中高频细节。

2. 频率过滤下的检索鲁棒性:文本 - 图像检索的 R@5 在低通情况下较稳定,但在高通 / 去掉低频基座后会明显崩塌、趋近随机,说明跨模态语义对齐主要来自共享低频基座。

方法:Unified Autoencoding(UAE)怎么把两种表示 “合成一套”?





围绕 “低频语义基座 + 高频细节残差” 的思路,UAE 的核心是把一个统一编码器学成多频段潜变量,并把 “语义该管什么、细节该放哪里” 结构化地拆开。

1) Unified Encoder:从语义编码器初始化,走向统一潜空间

以 DINOv2 为例,UAE 的统一编码器从预训练语义模型初始化,进入后续频域处理。

2) Residual Split Flow:在频域做 “可控的分带分解”

UAE 用 FFT 做频段投影(平滑径向 mask),并采用迭代残差拆分,把潜变量拆成多个频带:

  • 低频带(低频)承载语义 / 全局结构
  • 更高 band(高频)逐步承载边缘、纹理等细节残差

同时强调分解的可逆性与空间一致性。

3) Frequency Band Modulator:只 “扰动细节”,再做频带融合给解码器

训练时对高频带进行噪声扰动以增强鲁棒性;然后把各频带在通道维拼接,融合后作为解码器唯一输入。

4) Semantic-wise Loss:语义只约束低频,细节放开学像素

为了既继承语义先验、又扩展到高频细节,UAE 的语义对齐损失只施加在最低频的前 K 个 band 上:

  • 低频对齐 ;
  • 高频不强行对齐;

论文也明确把 UAE 定位为 tokenizer,并强调其 “能与现有 diffusion transformers 无缝对齐”。

实验结果:一个潜空间,同时要 “语义” 也要 “细节”

重建质量(ImageNet / MS-COCO)

在 256×256 重建任务上,UAE(DINOv2-L)在 ImageNet 上达到 PSNR=33.08、SSIM=0.94、rFID=0.16,在 MS-COCO 上达到 PSNR=32.84、SSIM=0.94、rFID=0.17。

同时,论文指出在相同 DINOv2 编码器设置下,UAE 相比 RAE 基线在 PSNR/SSIM 更高,并且 rFID 下降超过 90%。





生成能力(ImageNet 类条件生成)

在 ImageNet 256×256 类条件生成上,UAE 达到 gFID=1.68、IS=301.6。

语义理解(Linear Probing)

在 ImageNet-1K 上,UAE 在 ViT-B 骨干下达到 Top-1=83.0%,与 RAE 持平。





特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
莱温斯基:1995年,我的蓝裙子被总统克林顿脱下,就在白宫办公室

莱温斯基:1995年,我的蓝裙子被总统克林顿脱下,就在白宫办公室

史不语
2026-05-06 08:50:06
瓜帅:每场比赛都要努力去赢,我们薪水很高这必须要做到

瓜帅:每场比赛都要努力去赢,我们薪水很高这必须要做到

懂球帝
2026-05-11 06:09:12
果不其然,特朗普访华又生变数?中方提的要求,美方竟然一口回绝

果不其然,特朗普访华又生变数?中方提的要求,美方竟然一口回绝

说历史的老牢
2026-05-10 05:43:22
考比伦杯七连冠!孙颖莎独得2分力挽狂澜,国乒3-2险胜日本

考比伦杯七连冠!孙颖莎独得2分力挽狂澜,国乒3-2险胜日本

全景体育V
2026-05-10 21:38:35
仅退款榴莲后续,商家向误伤女孩道歉,店铺销量爆增,涨粉近5万

仅退款榴莲后续,商家向误伤女孩道歉,店铺销量爆增,涨粉近5万

夜深爱杂谈
2026-05-09 23:33:25
浙江一加油站92号汽油6.6元/升被质疑“便宜没好货”,回应:优惠力度大

浙江一加油站92号汽油6.6元/升被质疑“便宜没好货”,回应:优惠力度大

潇湘晨报
2026-05-10 17:11:17
不想访华了?美方对华狮子大开口,脚踩涉台红线,中方戳破美幻想

不想访华了?美方对华狮子大开口,脚踩涉台红线,中方戳破美幻想

荣亭小吏
2026-05-10 21:49:12
别碰!别吃!别养!一只就携带100条虫,看到赶紧远离

别碰!别吃!别养!一只就携带100条虫,看到赶紧远离

齐鲁壹点
2026-05-08 06:35:47
好家伙《主角》刚开播就差评满天飞,理由一个比一个令人匪夷所思

好家伙《主角》刚开播就差评满天飞,理由一个比一个令人匪夷所思

阿伧说事
2026-05-10 23:28:53
财大气粗!上海高层:代表俱乐部再次郑重承诺 夺冠奖金一分不少

财大气粗!上海高层:代表俱乐部再次郑重承诺 夺冠奖金一分不少

狼叔评论
2026-05-10 12:14:13
巴西免签了,但你可能根本去不了

巴西免签了,但你可能根本去不了

BT财经
2026-05-08 08:24:02
都说流行拍短视频用老婆打窝!大家看这大哥算拿老婆打窝的天花板了吧?

都说流行拍短视频用老婆打窝!大家看这大哥算拿老婆打窝的天花板了吧?

经典段子
2026-05-10 22:35:16
女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

狸猫之一的动物圈
2026-05-10 10:17:09
莎莎自己赛后还委屈吐槽过:每个人打我都特别凶

莎莎自己赛后还委屈吐槽过:每个人打我都特别凶

小光侃娱乐
2026-02-28 04:15:03
NBA季后赛:首个四强诞生!他们0-4遭横扫,尼克斯闯进东决!

NBA季后赛:首个四强诞生!他们0-4遭横扫,尼克斯闯进东决!

小徐讲八卦
2026-05-11 06:23:47
手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

职场资深秘书
2026-05-10 13:51:21
一场2-3,让意甲争四格局大乱,4队最多相差3分,米兰3场不胜

一场2-3,让意甲争四格局大乱,4队最多相差3分,米兰3场不胜

足球狗说
2026-05-11 05:35:57
Redis创始人开源ds4:几千行C代码让DeepSeek V4跑在MacBook上

Redis创始人开源ds4:几千行C代码让DeepSeek V4跑在MacBook上

小星球探索
2026-05-10 17:11:04
震惊!网传南昌某楼盘业主群集体抬价、下架房源,称团结就是力量

震惊!网传南昌某楼盘业主群集体抬价、下架房源,称团结就是力量

火山詩话
2026-05-10 06:17:24
别被孙颖莎的“大心脏”骗了!台湾解说惊呼背后,藏着3大真相

别被孙颖莎的“大心脏”骗了!台湾解说惊呼背后,藏着3大真相

格斗社
2026-04-03 20:24:03
2026-05-11 06:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142646关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

数码
艺术
本地
手机
公开课

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

艺术要闻

全国最值得去的八大最美古镇

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

小米本月发新机?待发新品汇总

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版