网易首页 > 网易号 > 正文 申请入驻

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

0
分享至



作者来自 Nanyang Technological University(MMLab) 与 SenseTime Research,提出 Prism Hypothesis(棱镜假说) 与 Unified Autoencoding(UAE),尝试用 “频率谱” 的统一视角,把语义编码器与像素编码器的表示冲突真正 “合并解决”。



  • 论文标题:The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
  • 代码仓库:https://github.com/WeichenFan/UAE
  • 论文地址:https://arxiv.org/pdf/2512.19693

背景:为什么 “懂语义” 和 “还原细节” 总是很难兼得?

在视觉基础模型里,我们经常同时依赖两类能力:

  • 语义理解:像 DINOv2 / CLIP 这类 “语义编码器” 更擅长类别、属性、关系等抽象信息;
  • 像素保真:像 SD 系列 VAE 这类 “像素编码器” 更擅长纹理、边缘、小字等细节重建。

但现实问题是:很多系统被迫把两套表示 “拼在一起用”:语义一套、像素一套,训练效率下降、表示互相干扰、而且很难得到一个既 “语义强” 又 “细节强” 的统一潜空间。

论文把这种矛盾归结为一个更本质的问题:世界的信息到底如何被表示,才能既共享语义,又保留各自模态的细粒度。

核心洞察:Prism Hypothesis(棱镜假说)




论文给出了一个非常直观的统一解释:

  • 可以把真实世界的输入看成投影到同一条 “特征频谱” 上的不同切片;
  • 低频更像 “全局结构 / 语义”(类别、布局、关系);
  • 高频更像 “局部细节 / 质感”(纹理、边缘、微小文字)。





为了验证,作者做了两类证据:

1. 能量谱分析:语义编码器(如 DINOv2、CLIP)能量更集中在低频,而像素型编码器(如 SD-VAE)保留更多中高频细节。

2. 频率过滤下的检索鲁棒性:文本 - 图像检索的 R@5 在低通情况下较稳定,但在高通 / 去掉低频基座后会明显崩塌、趋近随机,说明跨模态语义对齐主要来自共享低频基座。

方法:Unified Autoencoding(UAE)怎么把两种表示 “合成一套”?





围绕 “低频语义基座 + 高频细节残差” 的思路,UAE 的核心是把一个统一编码器学成多频段潜变量,并把 “语义该管什么、细节该放哪里” 结构化地拆开。

1) Unified Encoder:从语义编码器初始化,走向统一潜空间

以 DINOv2 为例,UAE 的统一编码器从预训练语义模型初始化,进入后续频域处理。

2) Residual Split Flow:在频域做 “可控的分带分解”

UAE 用 FFT 做频段投影(平滑径向 mask),并采用迭代残差拆分,把潜变量拆成多个频带:

  • 低频带(低频)承载语义 / 全局结构
  • 更高 band(高频)逐步承载边缘、纹理等细节残差

同时强调分解的可逆性与空间一致性。

3) Frequency Band Modulator:只 “扰动细节”,再做频带融合给解码器

训练时对高频带进行噪声扰动以增强鲁棒性;然后把各频带在通道维拼接,融合后作为解码器唯一输入。

4) Semantic-wise Loss:语义只约束低频,细节放开学像素

为了既继承语义先验、又扩展到高频细节,UAE 的语义对齐损失只施加在最低频的前 K 个 band 上:

  • 低频对齐 ;
  • 高频不强行对齐;

论文也明确把 UAE 定位为 tokenizer,并强调其 “能与现有 diffusion transformers 无缝对齐”。

实验结果:一个潜空间,同时要 “语义” 也要 “细节”

重建质量(ImageNet / MS-COCO)

在 256×256 重建任务上,UAE(DINOv2-L)在 ImageNet 上达到 PSNR=33.08、SSIM=0.94、rFID=0.16,在 MS-COCO 上达到 PSNR=32.84、SSIM=0.94、rFID=0.17。

同时,论文指出在相同 DINOv2 编码器设置下,UAE 相比 RAE 基线在 PSNR/SSIM 更高,并且 rFID 下降超过 90%。





生成能力(ImageNet 类条件生成)

在 ImageNet 256×256 类条件生成上,UAE 达到 gFID=1.68、IS=301.6。

语义理解(Linear Probing)

在 ImageNet-1K 上,UAE 在 ViT-B 骨干下达到 Top-1=83.0%,与 RAE 持平。





特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1935年,刘文辉如果炸了泸定桥,红军结果会怎样?他为什么没有炸

1935年,刘文辉如果炸了泸定桥,红军结果会怎样?他为什么没有炸

文史达观
2025-10-13 06:45:06
这不是选举,而是一场生死之战:美国选民的真实觉醒

这不是选举,而是一场生死之战:美国选民的真实觉醒

斌闻天下
2026-05-11 08:31:49
厅级干部已经成为了高危职业

厅级干部已经成为了高危职业

风向观察
2026-05-04 14:17:07
57年中央为何修改“南昌起义”领导人排名?周总理:有2点不合适

57年中央为何修改“南昌起义”领导人排名?周总理:有2点不合适

春秋砚
2026-04-25 13:45:05
脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

大风新闻
2026-05-10 15:28:26
明星套现离场,留下85亿窟窿,华谊兄弟被谁“抽”干了?

明星套现离场,留下85亿窟窿,华谊兄弟被谁“抽”干了?

帅真商业
2026-05-06 21:23:01
马竞截胡失败,曼联后来居上!巴西铁闸点头,卡塞米罗替身到位

马竞截胡失败,曼联后来居上!巴西铁闸点头,卡塞米罗替身到位

体坛鉴春秋
2026-05-11 12:50:44
仅退款榴莲后续,商家向误伤女孩道歉,店铺销量爆增,涨粉近5万

仅退款榴莲后续,商家向误伤女孩道歉,店铺销量爆增,涨粉近5万

阿伧说事
2026-05-11 10:03:34
大丫头无缘破不胜魔咒!蒯曼1-3日本最强削球手,国乒陷入绝境

大丫头无缘破不胜魔咒!蒯曼1-3日本最强削球手,国乒陷入绝境

钉钉陌上花开
2026-05-10 20:32:26
何穗过首个母亲节,晒和宝宝合照,外婆织的小衣服太暖了

何穗过首个母亲节,晒和宝宝合照,外婆织的小衣服太暖了

东方不败然多多
2026-05-11 09:41:40
刚刚!所有东莞人突然收到广东地震局短信!怎么回事?

刚刚!所有东莞人突然收到广东地震局短信!怎么回事?

东莞潮事儿
2026-05-11 10:58:59
奥斯梅恩土超封神!59球16助+2年3冠,阿森纳有意却遇两大难题!

奥斯梅恩土超封神!59球16助+2年3冠,阿森纳有意却遇两大难题!

田先生篮球
2026-05-10 12:29:12
4只皮皮虾1035元,官方回应是否“带客吃回扣”

4只皮皮虾1035元,官方回应是否“带客吃回扣”

中国新闻周刊
2026-05-09 19:38:06
看了两集央视《主角》,我想说,刘浩存把央视年代剧大门踹烂了

看了两集央视《主角》,我想说,刘浩存把央视年代剧大门踹烂了

秋姐居
2026-05-11 09:38:39
不再藏着掖着让人猜了! 中国自由泳天后和蛙泳世界名将恋情公开

不再藏着掖着让人猜了! 中国自由泳天后和蛙泳世界名将恋情公开

威猛孟巍
2026-05-11 01:44:19
汪峰森林北分手了?女方回应堪比教科书!网友:段位碾压章子怡

汪峰森林北分手了?女方回应堪比教科书!网友:段位碾压章子怡

奇怪的鲨鱼们
2026-05-11 05:13:32
小玥儿发动态站队徐家,点赞大 S 具俊晔合照,汪小菲脸面挂不住

小玥儿发动态站队徐家,点赞大 S 具俊晔合照,汪小菲脸面挂不住

小祁谈历史
2026-05-11 09:49:11
7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

柏年说政经
2026-05-10 18:00:03
中国大学“校史虚构大赛”:谁在争抢“第一”?

中国大学“校史虚构大赛”:谁在争抢“第一”?

深度报
2026-05-09 23:35:25
广东全员抵京备战G3:胡明轩乖巧合影,徐杰人气火爆,焦泊乔热聊

广东全员抵京备战G3:胡明轩乖巧合影,徐杰人气火爆,焦泊乔热聊

二哥聊球
2026-05-11 12:21:35
2026-05-11 13:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12965文章数 142648关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

谢霆锋没想到,王菲靠张艺谋重返巅峰

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

全球化成国内车企未来胜负手,谁是出海最强"水手"?

态度原创

教育
本地
亲子
房产
旅游

教育要闻

奔赴一场英法教育之旅,遇见更好的未来

本地新闻

用苏绣的方式,打开江西婺源

亲子要闻

孩子心疼父母,反而是对家的伤害?

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

旅游要闻

济南“泉水游”爆火背后:解码历下如何擦亮“泉水长涌”金名片

无障碍浏览 进入关怀版