网易首页 > 网易号 > 正文 申请入驻

斯坦福大学教授Stefano Ermon:如何利用扩散模型实现可控生成

0
分享至

来源:智源社区

导读

在最新报告中,斯坦福大学副教授Stefano Ermon讲解了过去几年团队基于分数的扩散模型方面所做的工作,介绍了扩散模型进展的核心思想以及前沿技术,并为我们展示了许多生动的应用案例。

Stefano Ermon

斯坦福大学计算机科学学院副教授,伍兹环境研究所Fellow。他主要研究在图形模型中的可伸缩技术以及精确推理,数据统计建模,大规模组合优化和不确定性下的鲁班决策,特别是在新兴的计算可持续领域。

近年来,扩散模型在语音、音频、图像等领域大放异彩,如何实现可控生成成为业界关注的核心。

如下图所示,给定描述:“泰迪熊穿着戏服,站在太和殿前唱京剧”,系统根据文字输入返回相应的图像。

这项技术的基础是模型能够理解自然图像结构的模型,理解哪些像素序列是合理的,哪些是不可能的。生成式人工智能的工具有很多有趣的例子,如概率模型和自然图像数据分布的生成模型。但我们以前无法做到这一点,因为一个复杂的生成模型的概率分布实际上非常复杂,是在非常高维度空间上的概率分布。

如何构建一个足够灵活的分布,捕获复杂分布的特性?可以选择简单的统计模型(如高斯分布),把图像X整合为像素矢量的输入,并将其映射为标量值。不过,高斯分布并不能代表像自然图像的数据分布这样复杂的情况,所以需要引入深度神经网络来表示这个复杂的函数,将图像作为输入,并将其映射为一个概率值。必须以某种方式改变神经网络的结构,确保输出为非负值。另外,还需要确保所有可能的输入到这个函数的概率和为1。为了确保归一化,一般要除以归一化常数,它是所有可能输入的非归一化概率的积分。

因此,我们选择不使用必须归一化的概率密度函数,而是使用它们的梯度,即所谓的分数函数(score function),这是一种对数密度函数的梯度。

如上图所示,如果X的密度P是两个高斯的混合物,这里的颜色代表模型概率。这里有两个高斯。一个在右上方,一个在左下方,相应的分数是一个充满梯度的向量,指向高概率区域。分数的每一点都在提供方向,遵循这个方向可以最快速地提高概率。

该方法使我们可以灵活定义模型,并可以直接绕过归一化常数的问题。同时,它能帮助模型获得非常高质量的图像,这也是图像、视频、语音等生成模型背后的技术。

为什么对分数进行建模

效果更好

从数学上来看,取上图左边的表达式的对数,和它相对于X的梯度,在这种情况下,X是一维的,它由两个组成部分,其中f_θ部分是神经网络的输出。

而对数分区函数是一个常数(曲线下的面积),并不依赖于x。通过取梯度,消除了对归一化常数的依赖性。所以可以直接使用一个任意的神经网络来模拟右边的函数(分数模型)。这使我们能够使用更强大的神经网络来开发图像的概率模型。

而对于训练数据,如果不使用密度函而是利用梯度,当只能接触到样本和一堆训练实例时,我们可以通过估计梯度的基本矢量场得出分数函数,使它能很好地近似于真实数据生成过程的分数函数。

Ermon 通过神经网络定义了一个分数模型。尝试为神经网络找到合适的参数,让这个函数尽可能地接近梯度的真实矢量场。然后将模型得到的矢量场,与真实矢量场进行比较。如果差异很小,就说明矢量场近似真实。在实践中,可以通过对误差的范数进行平均得到标量值,在数学上,这被称为缺陷散度(deficient divergence)。但由于真实矢量场很难获取,影响了对缺陷散度的评估。

相比直接比较梯度的矢量场,Ermon选择比较它们的随机投影。如果矢量场匹配,那么随机投影也应该匹配。当选择大量不同的方向时,就可以得到一个相当好的近似值。通过比较随机投影,可以得到一个目标函数,它的计算效率更高,且基本上不依赖于数据的维度,所以可以扩展到非常高维的数据集,保留了很多分数匹配、一致性和渐进正态性的良好特性。

如何实现可控生成

从数据分布中抽取样本并得出梯度的真实矢量场的良好近似是可能的。那么如何使用该对象生成新的样本?可以随机初始化粒子,沿着梯度试图走向高概率区域。但这并不是一个有效的抽样策略,因为有时会陷入局部最优。这里利用郎之万动力学(也称为Langevin MCMC)的抽样算法,该算法按照梯度进行工作,并在每一步加入噪声。

事实证明,如果不是只遵循梯度,而是在每一步上添加噪音,只要时间足够长,就会渐进地产生基础分布的样本。但它在高维情况下不一定有效。所以要在数据中添加噪声,从而形成新的扰动密度。但这并不是从干净的数据密度中取样,而是从它的一个近似中取样。且这个近似被人为地用噪声干扰了。所以会生成像下图右边的小狗那种带有噪声的图像,这显然不够理想。因此,Ermon考虑了多个噪声水平,比如向图像中添加越来越大的噪声,直到图像中的结构被完全破坏。

在完成了所有梯度的矢量场的估计之后,可以通过使用郎之万动力学的变体来产生样本,并随机初始化样本,然后跟随有大量噪声干扰的数据分布的梯度,向高概率区域移动;再用这些样本来初始化第二个Langevin chain,注意在这里要减少噪音的数量。如此重复,直到噪声水平小到与从真正干净的分布中采样相同。Ermon等人2019年在ICLR上发表的工作可以说明这套程序如何在一些常见的图像数据集上生成样本。这项工作在学术数据集图像质量方面首次击败GAN,是当时生成建模领域的最先进的技术。

扩散模型为什么有用

总结来讲,扩散模型以一种非常自然的方式控制生成过程。假设有一个已经训练好的模型,可以生成猫和狗的图像,现在要求只生成与最后一个标签狗相对应的图像。而分类器能分辨出一张图片上是狗还是猫,是否有可能从图像的后验分布中取样,给定相应的类是狗?

后验分布的分数是先验模型的分数x加上可能直接获得的y的概率p的分数。如果有一个预训练好的分数模型,用来展示出图像的分数是什么样子的,就可以把它与想要的模型的分数结合起来,得到一个后验分布的分数,然后将这两部分相加,就可以得到一个可以从后验分布中取样的模型。

这种模型可以被用于许多不同的应用。例如,语言引导的图像生成,医学成像等。实践证明,它优于为任务训练的特定深度学习方法,而且在更通用还能提供更好的性能,所以这种技术可以在其他各种大量的数据集、音频、材料设计、文本转换速度、形状生成等方面得到最先进的结果。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
9年亡命作恶108起、残杀13人、施暴99人!1962-2002云贵悍匪始末

9年亡命作恶108起、残杀13人、施暴99人!1962-2002云贵悍匪始末

墨策史
2026-05-31 00:40:08
成都多家茶馆被同一个号码举报“无证泡茶” 商家怀疑遭“职业索赔”报警获受理

成都多家茶馆被同一个号码举报“无证泡茶” 商家怀疑遭“职业索赔”报警获受理

封面新闻
2026-05-31 18:34:39
我将担任市委书记,去参加同学聚会,做副县长的同学不停炫耀

我将担任市委书记,去参加同学聚会,做副县长的同学不停炫耀

乔生桂
2025-07-31 13:01:57
全网震撼!张凌赫粉丝活生生挤爆玻璃大门!多人流血受伤+摔倒在玻璃渣上!

全网震撼!张凌赫粉丝活生生挤爆玻璃大门!多人流血受伤+摔倒在玻璃渣上!

魔都囡
2026-06-01 03:23:43
华为Mate 80系列天猫618开门红销量火爆(6月1日)

华为Mate 80系列天猫618开门红销量火爆(6月1日)

小柱解说游戏
2026-06-01 13:37:29
北京挖出大太监李莲英之墓,开棺后,考古人员被吓得浑身发抖

北京挖出大太监李莲英之墓,开棺后,考古人员被吓得浑身发抖

历史人文2
2026-04-05 11:30:03
著名音乐家姚峰:女儿姚贝娜病逝11年,他至今还为自己的失误懊悔

著名音乐家姚峰:女儿姚贝娜病逝11年,他至今还为自己的失误懊悔

小椰的奶奶
2026-06-01 13:58:22
从弃将到近亿元先生!阿根廷天才2年身价暴涨13倍 皇马回购赚翻了

从弃将到近亿元先生!阿根廷天才2年身价暴涨13倍 皇马回购赚翻了

万花筒体育球球
2026-05-31 17:03:36
你无意中发现了不得的事?网友:大保健里遇见嫂子

你无意中发现了不得的事?网友:大保健里遇见嫂子

夜深爱杂谈
2026-05-28 07:59:33
“谁敢质疑最高领袖?”——伊朗强硬派掀桌子,革命47年来头一遭

“谁敢质疑最高领袖?”——伊朗强硬派掀桌子,革命47年来头一遭

民间胡扯老哥
2026-05-31 11:57:37
22岁全票西决MVP!文班亚马一纪录前无古人

22岁全票西决MVP!文班亚马一纪录前无古人

茅塞盾开本尊
2026-05-31 23:10:40
今天,鞠萍姐姐退休了

今天,鞠萍姐姐退休了

澎湃新闻
2026-05-31 22:52:29
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
香港偶遇46岁容祖儿 弯腰驼背走路肚子只剩一张皮 鞋跟高都有20cm

香港偶遇46岁容祖儿 弯腰驼背走路肚子只剩一张皮 鞋跟高都有20cm

科学发掘
2026-06-01 06:03:49
国家统计局今日启动入户调查

国家统计局今日启动入户调查

澎湃新闻
2026-06-01 08:10:06
赌王儿子何猷君法国大婚!晚宴曝光儿女当花童,奚梦瑶蓝裙很惊艳

赌王儿子何猷君法国大婚!晚宴曝光儿女当花童,奚梦瑶蓝裙很惊艳

娱乐圈圈圆
2026-06-01 00:20:26
尴尬!单亲妈妈忏悔“去父留子”,陷入三餐不继、情绪崩溃的困境

尴尬!单亲妈妈忏悔“去父留子”,陷入三餐不继、情绪崩溃的困境

火山詩话
2026-05-31 10:42:17
主持人问王新军,秦海璐贤惠吗,王:追我时天天做饭,后来不做了

主持人问王新军,秦海璐贤惠吗,王:追我时天天做饭,后来不做了

杰丝聊古今
2026-05-31 04:22:46
1949年韩先楚回湖北老家,对发小说:你要是参加革命,比我有出息

1949年韩先楚回湖北老家,对发小说:你要是参加革命,比我有出息

史之铭
2026-06-01 02:48:58
广厦0-3落后再传坏消息!胡金秋膝盖重伤,夺冠命运走向上海队

广厦0-3落后再传坏消息!胡金秋膝盖重伤,夺冠命运走向上海队

老吴说体育
2026-06-01 12:42:26
2026-06-01 14:32:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4783文章数 37472关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

家居
艺术
亲子
教育
本地

家居要闻

自信舒展 高背座椅

艺术要闻

吴镇写竹,清清爽爽

亲子要闻

2025年我国批准儿童用药138个,创历史新高

教育要闻

广东财经大学:值得填报吗?热门专业就业现状及报考分析#搜索千校视频计划

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版