网易首页 > 网易号 > 正文 申请入驻

北大联合小红书提出Uni-Instruct:ImageNet生图FID进入1.0时代!

0
分享至



近年来,单步扩散模型因其出色的生成性能和极高的推理效率,在图像生成、文本到视频、图像编辑等领域大放异彩。目前主流的训练方法是通过知识蒸馏,最小化学生模型与教师扩散模型之间的分布差异。然而,现有的方法主要集中在两条平行的理论技术路线上:

  • 基于 KL 散度最小化的方法(如 Diff-Instruct[1],DMD[2] 等):收敛速度快,但可能存在模式崩溃问题,进而导致生成性能差。
  • 基于分数散度最小化的方法(如 SIM[3],SiD[4] 等):蒸馏性能更好,但训练收敛较慢。

这两条路线似乎在理论上是割裂的。那么,我们能否将它们统一在一个共同的理论框架下?如果可以,这个统一的框架能否带来更强的模型性能?

来自北京大学、小红书 hi lab 等机构的华人研究者共同提出了名为 Uni-Instruct 的单步生成大一统理论框架,目前已被 NeurIPS 2025 接收。该框架不仅从理论上统一了超过 10 种现有的单步扩散模型蒸馏方法,更是在多项任务上取得了当前最佳(SoTA)性能。



  • 论文标题:Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
  • 论文地址:https://arxiv.org/abs/2505.20755v4
  • 代码:
  • https://github.com/a-little-hoof/Uni_Instruct
  • 论文单位:北京大学未来技术学院、国家生物医学成像中心、北京大学前沿交叉学科研究院、小红书 hi-lab
  • 论文作者:Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun

其中,经过基于展开的 Jeffrey-KL 散度(Expanded Jeffrey-KL divergence)用 Uni-Instruct 蒸馏得到的一步生图模型在 ImageNet-64 数据集上取得了历史历史最低 1.02 的单步生成 FID 指标,远超了 1000 步采样的扩散模型(参见图 2 右表)。

核心贡献:Uni-Instruct 理论框架

研究者们提出了一个名为 Uni-Instruct 的统一理论框架,其核心是创新的f-散度扩散展开定理(diffusion expansion theory of the f-divergence family)。



简单来说,该定理推广了 De Bruijin 等式,将静态的数据空间教师模型与单步模型之间 f-散度扩展为沿扩散过程的动态散度积分。

虽然原始的展开形式难以直接优化,但团队通过引入新的梯度等价定理,推导出了一个等价且可计算的损失函数。



最令人惊喜的是,这个最终的损失函数梯度,恰好是Diff-Instruct(DI)梯度和 Score Implicit Matching(SIM)梯度的一个加权组合!



通过选择不同的 f-散度函数(如 KL 散度、卡方散度等),Uni-Instruct 能够恢复出包括 Diff-Instruct[1]、DMD[2]、f-distill[5]、SIM[3]、SiD[4] 在内的十余种现有方法的损失函数。这不仅为理解现有工作提供了全新的高层视角,也标志着单步扩散模型理论大一统。





图注 1: Uni-Instruct 一步生成器在不同基准数据集上的生成效果。左:CIFAR10(无条件);中:CIFAR10(有条件);右:ImageNet 64x64(有条件)。可以看到,生成样本的质量和多样性都非常出色。



图注 2: Uni-Instruct 一步生成模型在不同基准数据集上的评测效果。左:CIFAR10(无条件);右:ImageNet 64x64(有条件)。可以看到,生成样本的质量和多样性都非常出色。Uni-Instruct 模型在两个评测榜单上都取得了巨大性能和效率优势。

实验结果

Uni-Instruct 在多个主流基准测试中取得了破纪录的性能:

  • CIFAR10:
  • 无条件生成 FID 达到1.46。
  • 条件生成 FID 达到1.38。
  • ImageNet 64x64:
  • 条件生成 FID 达到1.02,效果显著优于采样步数为 79 步的教师模型(1.02 vs 2.35)!

这些结果全面超越了 Diff-Instruct、Score Implicit Matching、f-distill、SiDA、DMD、Consistency Model 等之前的所有一步生成模型,甚至远超需要 1000 步采样的标准扩散模型。

更广泛的应用:

文本到 3D 生成


Uni-Instruct 的威力不止于 2D 图像。研究者们将其成功应用于文本到 3D 生成任务,作为一种知识迁移方法,用以指导 NeRF 模型的优化。

实验结果表明,相比于 SDS 和 VSD 等现有方法,Uni-Instruct 能够在生成 3D 内容的质量和多样性上取得更优异的效果。



图注 3:左图:ProlificDreamer 右图:Uni-Instruct

总结与展望

Uni-Instruct 提供了一个坚实的理论基础,成功地将十余种看似不同的扩散模型蒸馏方法囊括在一个统一的框架之下。这种理论大一统不仅带来了对高效扩散模型的深刻理解,其卓越的实证性能也为高效生成模型的未来研究开辟了新的道路。这项工作是高效生成模型领域的一次重要理论突破,我们期待它能激发更多关于扩散模型知识迁移和高效生成的前沿探索!

本工作由北京大学计算科学成像实验室本科生王翼飞与博士生柏为民合作完成。本论文的通讯作者罗维俭在北京大学数学院取得博士学位,现供职于小红书 hi lab 任多模态大模型研究员。末位作者为北京大学未来技术学院孙赫助理教授。

[1] Luo, Weijian, et al. "Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models." Advances in Neural Information Processing Systems 36 (2023): 76525-76546.

[2] Yin, Tianwei, et al. "One-step diffusion with distribution matching distillation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.

[3] Luo, Weijian, et al. "One-step diffusion distillation through score implicit matching." Advances in Neural Information Processing Systems 37 (2024): 115377-115408.

[4] Zhou, Mingyuan, et al. "Score identity distillation: Exponentially fast distillation of pretrained diffusion models for one-step generation." Forty-first International Conference on Machine Learning. 2024.

[5] Xu, Yilun, Weili Nie, and Arash Vahdat. "One-step Diffusion Models with $f$-Divergence Distribution Matching." arXiv preprint arXiv:2502.15681 (2025)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朴志洙:我们没有任何遗憾,已经拼尽全力了

朴志洙:我们没有任何遗憾,已经拼尽全力了

懂球帝
2025-11-02 18:04:05
黄金税出来之后,电商平台的金条出现大幅度涨价

黄金税出来之后,电商平台的金条出现大幅度涨价

映射生活的身影
2025-11-02 18:32:57
黄金又出大事了,目前已经有个人想要出售黄金,但是金店拒绝回收

黄金又出大事了,目前已经有个人想要出售黄金,但是金店拒绝回收

流苏晚晴
2025-11-02 16:32:42
医生聊完都想去看心理医生:有些母亲的杀伤力,远超想象

医生聊完都想去看心理医生:有些母亲的杀伤力,远超想象

柚妈充电屋
2025-11-01 17:59:04
发布会变感谢会,李霄鹏赛后向各方致谢

发布会变感谢会,李霄鹏赛后向各方致谢

懂球帝
2025-11-02 20:52:06
罗氏虾、基围虾都是“激素”泡大的?其实这3种虾才是“问题虾”

罗氏虾、基围虾都是“激素”泡大的?其实这3种虾才是“问题虾”

健身狂人
2025-11-02 07:59:00
雷达失灵47分钟!伊万卡、姆巴佩游艇密会,17岁差藏权力游戏

雷达失灵47分钟!伊万卡、姆巴佩游艇密会,17岁差藏权力游戏

罗氏八卦
2025-11-02 11:50:39
男单大爆冷!松岛辉空4:1世界亚军,晋级决赛,国乒男单全军覆没

男单大爆冷!松岛辉空4:1世界亚军,晋级决赛,国乒男单全军覆没

国乒二三事
2025-11-02 20:41:07
家猫一生都被关在家里面,它会寂寞吗?其实它比咱想的要开心多了

家猫一生都被关在家里面,它会寂寞吗?其实它比咱想的要开心多了

向航说
2025-11-02 02:45:03
神舟二十号3名航天员将回家,神二十二确定1人驻留超1年,为何?

神舟二十号3名航天员将回家,神二十二确定1人驻留超1年,为何?

林子说事
2025-11-02 14:59:56
云南玉昆1-0青岛西海岸!产生4大不可思议+2个不争事实,揪出最差

云南玉昆1-0青岛西海岸!产生4大不可思议+2个不争事实,揪出最差

球场新视角1号
2025-11-02 21:33:18
突发,周末大利好!下周,这4个方向或是主线!空仓满仓看

突发,周末大利好!下周,这4个方向或是主线!空仓满仓看

风风顺
2025-11-02 19:30:06
刚下飞机交警来电:你车撞人了,需赔偿30万!我:车在博物馆展出

刚下飞机交警来电:你车撞人了,需赔偿30万!我:车在博物馆展出

秋风专栏
2025-10-29 11:45:27
月租18万压垮香港烧鹅名店!老板哭诉:像在帮房东打工……

月租18万压垮香港烧鹅名店!老板哭诉:像在帮房东打工……

港漂圈
2025-11-02 19:06:06
张柏芝合照也太夸张了吧!宁静,刘嘉玲都被她比下去了

张柏芝合照也太夸张了吧!宁静,刘嘉玲都被她比下去了

手工制作阿歼
2025-11-02 13:43:13
王传福投出深水炸弹,比亚迪王炸新车一炮而红

王传福投出深水炸弹,比亚迪王炸新车一炮而红

象视汽车
2025-11-02 07:00:05
王艺迪4-2战胜朱芊曦,晋级蒙彼利埃决赛与温特争冠

王艺迪4-2战胜朱芊曦,晋级蒙彼利埃决赛与温特争冠

懂球帝
2025-11-02 19:49:06
朱珠现身机场,吐司羽绒配牛仔裤,身材绝美,时尚教科书来袭!

朱珠现身机场,吐司羽绒配牛仔裤,身材绝美,时尚教科书来袭!

娱乐领航家
2025-11-02 00:00:03
小米员工晒自家地库:两位邻居跟自己买同款YU7 同一个颜色、同一排车位

小米员工晒自家地库:两位邻居跟自己买同款YU7 同一个颜色、同一排车位

三言科技
2025-11-02 13:30:07
郑丽文:尊重2300万台湾人意愿,绝不能武统!洪秀柱:当然可以打

郑丽文:尊重2300万台湾人意愿,绝不能武统!洪秀柱:当然可以打

刚哥说法365
2025-11-01 17:15:20
2025-11-02 22:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

游戏
本地
数码
时尚
公开课

逆水寒手游国际服爆火?实时预约突破500万,网友:不愧是顶流!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

数码要闻

放心用!AMD确认:RDNA 1、RDNA 2继续获得Day 0游戏支持

最近很火的发型,原来这么简单!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版