网易首页 > 网易号 > 正文 申请入驻

北大联合小红书提出Uni-Instruct:ImageNet生图FID进入1.0时代!

0
分享至



近年来,单步扩散模型因其出色的生成性能和极高的推理效率,在图像生成、文本到视频、图像编辑等领域大放异彩。目前主流的训练方法是通过知识蒸馏,最小化学生模型与教师扩散模型之间的分布差异。然而,现有的方法主要集中在两条平行的理论技术路线上:

  • 基于 KL 散度最小化的方法(如 Diff-Instruct[1],DMD[2] 等):收敛速度快,但可能存在模式崩溃问题,进而导致生成性能差。
  • 基于分数散度最小化的方法(如 SIM[3],SiD[4] 等):蒸馏性能更好,但训练收敛较慢。

这两条路线似乎在理论上是割裂的。那么,我们能否将它们统一在一个共同的理论框架下?如果可以,这个统一的框架能否带来更强的模型性能?

来自北京大学、小红书 hi lab 等机构的华人研究者共同提出了名为 Uni-Instruct 的单步生成大一统理论框架,目前已被 NeurIPS 2025 接收。该框架不仅从理论上统一了超过 10 种现有的单步扩散模型蒸馏方法,更是在多项任务上取得了当前最佳(SoTA)性能。



  • 论文标题:Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
  • 论文地址:https://arxiv.org/abs/2505.20755v4
  • 代码:
  • https://github.com/a-little-hoof/Uni_Instruct
  • 论文单位:北京大学未来技术学院、国家生物医学成像中心、北京大学前沿交叉学科研究院、小红书 hi-lab
  • 论文作者:Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun

其中,经过基于展开的 Jeffrey-KL 散度(Expanded Jeffrey-KL divergence)用 Uni-Instruct 蒸馏得到的一步生图模型在 ImageNet-64 数据集上取得了历史历史最低 1.02 的单步生成 FID 指标,远超了 1000 步采样的扩散模型(参见图 2 右表)。

核心贡献:Uni-Instruct 理论框架

研究者们提出了一个名为 Uni-Instruct 的统一理论框架,其核心是创新的f-散度扩散展开定理(diffusion expansion theory of the f-divergence family)。



简单来说,该定理推广了 De Bruijin 等式,将静态的数据空间教师模型与单步模型之间 f-散度扩展为沿扩散过程的动态散度积分。

虽然原始的展开形式难以直接优化,但团队通过引入新的梯度等价定理,推导出了一个等价且可计算的损失函数。



最令人惊喜的是,这个最终的损失函数梯度,恰好是Diff-Instruct(DI)梯度和 Score Implicit Matching(SIM)梯度的一个加权组合!



通过选择不同的 f-散度函数(如 KL 散度、卡方散度等),Uni-Instruct 能够恢复出包括 Diff-Instruct[1]、DMD[2]、f-distill[5]、SIM[3]、SiD[4] 在内的十余种现有方法的损失函数。这不仅为理解现有工作提供了全新的高层视角,也标志着单步扩散模型理论大一统。





图注 1: Uni-Instruct 一步生成器在不同基准数据集上的生成效果。左:CIFAR10(无条件);中:CIFAR10(有条件);右:ImageNet 64x64(有条件)。可以看到,生成样本的质量和多样性都非常出色。



图注 2: Uni-Instruct 一步生成模型在不同基准数据集上的评测效果。左:CIFAR10(无条件);右:ImageNet 64x64(有条件)。可以看到,生成样本的质量和多样性都非常出色。Uni-Instruct 模型在两个评测榜单上都取得了巨大性能和效率优势。

实验结果

Uni-Instruct 在多个主流基准测试中取得了破纪录的性能:

  • CIFAR10:
  • 无条件生成 FID 达到1.46。
  • 条件生成 FID 达到1.38。
  • ImageNet 64x64:
  • 条件生成 FID 达到1.02,效果显著优于采样步数为 79 步的教师模型(1.02 vs 2.35)!

这些结果全面超越了 Diff-Instruct、Score Implicit Matching、f-distill、SiDA、DMD、Consistency Model 等之前的所有一步生成模型,甚至远超需要 1000 步采样的标准扩散模型。

更广泛的应用:

文本到 3D 生成


Uni-Instruct 的威力不止于 2D 图像。研究者们将其成功应用于文本到 3D 生成任务,作为一种知识迁移方法,用以指导 NeRF 模型的优化。

实验结果表明,相比于 SDS 和 VSD 等现有方法,Uni-Instruct 能够在生成 3D 内容的质量和多样性上取得更优异的效果。



图注 3:左图:ProlificDreamer 右图:Uni-Instruct

总结与展望

Uni-Instruct 提供了一个坚实的理论基础,成功地将十余种看似不同的扩散模型蒸馏方法囊括在一个统一的框架之下。这种理论大一统不仅带来了对高效扩散模型的深刻理解,其卓越的实证性能也为高效生成模型的未来研究开辟了新的道路。这项工作是高效生成模型领域的一次重要理论突破,我们期待它能激发更多关于扩散模型知识迁移和高效生成的前沿探索!

本工作由北京大学计算科学成像实验室本科生王翼飞与博士生柏为民合作完成。本论文的通讯作者罗维俭在北京大学数学院取得博士学位,现供职于小红书 hi lab 任多模态大模型研究员。末位作者为北京大学未来技术学院孙赫助理教授。

[1] Luo, Weijian, et al. "Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models." Advances in Neural Information Processing Systems 36 (2023): 76525-76546.

[2] Yin, Tianwei, et al. "One-step diffusion with distribution matching distillation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.

[3] Luo, Weijian, et al. "One-step diffusion distillation through score implicit matching." Advances in Neural Information Processing Systems 37 (2024): 115377-115408.

[4] Zhou, Mingyuan, et al. "Score identity distillation: Exponentially fast distillation of pretrained diffusion models for one-step generation." Forty-first International Conference on Machine Learning. 2024.

[5] Xu, Yilun, Weili Nie, and Arash Vahdat. "One-step Diffusion Models with $f$-Divergence Distribution Matching." arXiv preprint arXiv:2502.15681 (2025)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本将为乌克兰购买美国武器!加入欧盟或被纳入俄乌协议

日本将为乌克兰购买美国武器!加入欧盟或被纳入俄乌协议

项鹏飞
2026-02-10 21:03:34
引用7000次也回不去硅谷:Meta顶级华人科学家再入境被拒,那个“收割天才”的时代结束了

引用7000次也回不去硅谷:Meta顶级华人科学家再入境被拒,那个“收割天才”的时代结束了

留学生日报
2026-02-11 15:14:40
达赖和班禅,到底谁地位在藏民心中更高?

达赖和班禅,到底谁地位在藏民心中更高?

小豫讲故事
2026-02-11 06:00:09
特朗普罕见承认:我犯了个大错!

特朗普罕见承认:我犯了个大错!

看看新闻Knews
2026-02-10 17:11:03
希罗和未婚妻出席活动!她被誉为洛杉矶翘臀女王 美媒:人生赢家

希罗和未婚妻出席活动!她被誉为洛杉矶翘臀女王 美媒:人生赢家

Emily说个球
2026-02-11 13:17:57
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
消失的彭加木:一场精心计划的逃亡?隐藏在罗布泊中的离奇秘密

消失的彭加木:一场精心计划的逃亡?隐藏在罗布泊中的离奇秘密

史之铭
2026-02-10 15:35:39
曼联一人被嘘离场恐失主力位置!卡里克考虑变阵,谢什科理应首发

曼联一人被嘘离场恐失主力位置!卡里克考虑变阵,谢什科理应首发

罗米的曼联博客
2026-02-11 11:28:10
朱元璋见知县用烂泥筑堤,勃然大怒,知县却淡淡回复三个字

朱元璋见知县用烂泥筑堤,勃然大怒,知县却淡淡回复三个字

哄动一时啊
2026-02-09 22:06:33
出口突破832万辆,究竟是谁在狂买中国车?

出口突破832万辆,究竟是谁在狂买中国车?

牲产队
2026-02-05 19:16:07
胡兵54岁,身家过亿,独居,北京国贸720平豪宅,衣帽间像专卖店

胡兵54岁,身家过亿,独居,北京国贸720平豪宅,衣帽间像专卖店

百态人间
2026-02-05 15:34:25
大胜20分到溃败!哈登被低估,杜兰特赛后明牌,并向火箭提出要求

大胜20分到溃败!哈登被低估,杜兰特赛后明牌,并向火箭提出要求

巴叔GO聊体育
2026-02-11 15:42:21
不能错过!2月11日晚16:00比赛!中央5套CCTV5、CCTV5+直播节目表

不能错过!2月11日晚16:00比赛!中央5套CCTV5、CCTV5+直播节目表

林子说事
2026-02-11 19:12:05
能看见此文,则说明你已具备无量福报

能看见此文,则说明你已具备无量福报

金沛的国学笔记
2026-02-07 17:50:24
艰难赢6分,强硬赢2分!撕掉伪强队标签后,你们离总冠军很近了

艰难赢6分,强硬赢2分!撕掉伪强队标签后,你们离总冠军很近了

老梁体育漫谈
2026-02-11 00:27:38
防火防盗防闺蜜!她与男友同床共枕5年,男友怒砸5亿娶闺蜜

防火防盗防闺蜜!她与男友同床共枕5年,男友怒砸5亿娶闺蜜

仙味少女心
2026-02-10 18:25:43
7年败光2个亿,邹市明冉莹颖共同发文,俩人终究还是踏出这一步

7年败光2个亿,邹市明冉莹颖共同发文,俩人终究还是踏出这一步

大嘴爱哔哔
2026-02-11 04:15:53
换座风波升级!辛芷蕾倪妮聊天疑似讨论座位,微表情才是一出好戏

换座风波升级!辛芷蕾倪妮聊天疑似讨论座位,微表情才是一出好戏

八卦南风
2026-02-11 14:38:37
银行内部实话:存款达这个金额,会被系统盯上

银行内部实话:存款达这个金额,会被系统盯上

小陆搞笑日常
2026-02-10 03:30:26
青岛市文化和旅游局原党组书记、局长潘峰严重违纪违法被开除党籍和公职

青岛市文化和旅游局原党组书记、局长潘峰严重违纪违法被开除党籍和公职

黄河新闻网吕梁频道
2026-02-11 16:04:57
2026-02-11 20:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12290文章数 142565关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

中方回应"若中加达成贸易协议中方会终止加冰球运动"

头条要闻

中方回应"若中加达成贸易协议中方会终止加冰球运动"

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

房产
教育
数码
艺术
时尚

房产要闻

177亿元,砸向超级城更!海南这座城,正式起飞!

教育要闻

“白眼狼”都是父母养出来的?孩子不懂感恩,父母到底错在哪?

数码要闻

i7胜i9的低噪声猛机!雷神猎刃 超竞版测评

艺术要闻

康生草书为何远胜郭沫若,因为他练过这幅字

冬季穿出高级感,全靠这3个招数简单好懂,中年女人赶紧照搬

无障碍浏览 进入关怀版