网易首页 > 网易号 > 正文 申请入驻

Diffusion Model一发力,GAN就过时了???

0
分享至

金磊 Alex 发自 凹非寺
量子位 | 公众号 QbitAI
  • 曾经大红大紫的GAN已过时

马里兰大学副教授Tom Goldstein最近发表的一个推文,可谓是一石激起千层浪。

就连科技圈的大佬们也纷纷前来关注:

话题里“剑指”的关键词则是Diffusion Model,用Tom的话来说就是:

  • 在2021年,它甚至可以说是闻所未闻

但其实这个算法并不陌生,因为它正是AI作画神器DALL·E的核心。

而且DALL·E的作者打一开始就“没看上”GAN,直接将其放弃。

无独有偶,同样的话题在国内也引发了不小的讨论:

那么图像生成领域的这波“后浪推前浪”,究竟是为何?

咱们这就来盘一盘。

什么是Diffusion Model?

Diffusion Model这次被拉进聚光灯之下,不得不归功于各类“AI一句话作图”神器的火爆。

例如OpenAI家的DALL·E 2:

谷歌家的Imagen:

不难看出,这些近期大流行的图像生成神器,不论是真实程度亦或是想象、理解能力,都是比较符合人类的预期。

因此它们也成为了这届网友们把玩的“新宠”(当年GAN出道的时候也是被玩坏了)。

而如此能力背后的关键,便是Diffusion Model。

它的研究最早可以追溯到2015年,当时,斯坦福和伯克利的研究人员发布了一篇名为Deep Unsupervised Learning using Nonequilibrium Thermodynamics的论文:

但这篇研究和目前的Diffusion Model非常不一样;而真正使其发挥作用的研究是2020年,一项名为Denoising Diffusion Probabilistic Models的研究:

我们可以先来看一下各类生成模型之间的对比:

不难看出,Diffusion Model和其它模型的不同点在于,它的latent code(z)和原图是同尺寸大小的。

若是简单来概括Diffusion Model,就是存在一系列高斯噪声(T轮),将输入图片x0变为纯高斯噪声xT。

再细分来看,Diffusion Model首先包含一个前向过程(Forward diffusion process)。

这个过程的目的,就是往图片上添加噪声;但在这一步中还无法实现图片生成。

其次是一个逆向过程(Reverse diffusion process),这个过程可以理解为Diffusion的去噪推断过程。

最后在训练阶段,则是通过对真实数据分布下,最大化模型预测分布的对数似然。

上述的过程是基于DDPM这项研究展开。

不过知乎用户“我想唱high C”(TSAIL博士)认为:

  • DDPM提出的时候,领域里的研究者其实并不完全清楚这个模型背后的数学原理,所以文章里的描述没有探寻到更本质的数学原理。

在他看来,直到斯坦福大学Yang Song等在Score-Based Generative Modeling through Stochastic Differential Equations中,才首次揭示了diffusion model的连续版本对应的数学背景。

并且将统计机器学习中的denoising score matching方法与DDPM中的去噪训练统一起来。

更多细节过程可以参考文末链接中的论文详情。

那么接下来需要探讨的一个问题是:

为什么GAN这么快会被取代?

用OpenAI的一篇论文内容来讲,用Diffusion Model生成的图像质量明显优于GAN模型

DALL·E是个多模态预训练大模型,“多模态”和“大”字都说明,训练这个模型的数据集十分庞大冗杂。

发表这篇推特的Tom Goldstein教授提到,GAN模型训练过程有个难点,就是众多损失函数的鞍点(saddle-point)的最优权重如何确定,这其实是个蛮复杂的数学问题。

在多层深度学习模型的训练过程中,需通过多次反馈,直至模型收敛。

但在实际操作中发现,损失函数往往不能可靠地收敛到鞍点,导致模型稳定性较差。即使有研究人员提出一些技巧来加强鞍点的稳定性,但还是不足以解决这个问题。

尤其面对更加复杂、多样化的数据,鞍点的处理就变得愈加困难了。

与GAN不同,DALL·E使用Diffusion Model,不用在鞍点问题上纠结,只需要去最小化一个标准的凸交叉熵损失(convex cross-entropy loss),而且人已经知道如何使其稳定。

这样就大大简化了模型训练过程中,数据处理的难度。说白了,就是用一个新的数学范式,从新颖的角度克服了一道障碍。

此外,GAN模型在训练过程中,除了需要“生成器”,将采样的高斯噪声映射到数据分布;还需要额外训练判别器,这就导致训练变得很麻烦了。

和GAN相比,Diffusion Model只需要训练“生成器”,训练目标函数简单,而且不需要训练别的网络(判别器、后验分布等),瞬间简化了一堆东西。

目前的训练技术让Diffusion Model直接跨越了GAN领域调模型的阶段,而是直接可以用来做下游任务。

△Diffusion Model直观图

从理论角度来看,Diffusion Model的成功在于训练的模型只需要“模仿”一个简单的前向过程对应的逆向过程,而不需要像其它模型那样“黑盒”地搜索模型。

并且,这个逆向过程的每一小步都非常简单,只需要用一个简单的高斯分布(q(x(t-1)| xt))来拟合。

这为Diffusion Model的优化带来了诸多便利,这也是它经验表现非常好的原因之一。

Diffushion Model是否就是完美?

不见得。

从趋势上来看,Diffushion Model领域确实正处于百花齐放的状态,但正如“我想唱high C”所述:

  • 这个领域有一些核心的理论问题还需要研究,这给我们这些做理论的人提供了个很有价值的研究内容。>
    并且,哪怕对理论研究不感兴趣,由于这个模型已经很work了,它和下游任务的结合也才刚刚起步,有很多地方都可以赶紧占坑。
  • 我相信Diffusion Model的加速采样肯定会在不久的将来彻底被解决,从而让Diffusion Model占据深度生成模型的主导。

而对于Diffusion Model的有效性以及很快取代GAN这件事,马毅教授认为充分地说明了一个道理:

  • 几行简单正确的数学推导,可以比近十年的大规模调试超参调试网络结构有效得多。

不过对于这种“前浪推后浪”的火热,马毅教授也有不一样的观点:

  • 希望年轻的研究员端正研究的目的和态度,千万不要被目前热的东西忽悠。
  • 包括Diffusion Process,这其实也是好几百年old的想法,只是老树发新芽,找到新的应用。

“我想唱high C”知乎回答:

https://www.zhihu.com/question/536012286/answer/2533146567

[1]https://twitter.com/tomgoldsteincs/status/1560334207578161152?s=21&t=QE8OFIwufZSTNi5bQhs0hQ
[2]https://www.zhihu.com/question/536012286
[3]https://arxiv.org/pdf/2105.05233.pdf
[4]https://arxiv.org/abs/1503.03585
[5]https://arxiv.org/abs/2006.11239
[6]https://arxiv.org/abs/2011.13456
[7]https://weibo.com/u/3235040884?topnav=1&wvr=6&topsug=1&is_all=1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
进化成功!场均23+10+7+正负值+113,现役第二中锋啊,他才23岁

进化成功!场均23+10+7+正负值+113,现役第二中锋啊,他才23岁

球童无忌
2025-11-11 16:57:51
莱蒂齐亚王后闪耀晚宴,黑白配晚礼服绝美,遗憾未佩戴王冠

莱蒂齐亚王后闪耀晚宴,黑白配晚礼服绝美,遗憾未佩戴王冠

红袖说事
2025-11-13 08:26:46
尊界S800断层领先!国内70万以上超豪华轿车10月销量排行榜公布

尊界S800断层领先!国内70万以上超豪华轿车10月销量排行榜公布

热点科技
2025-11-11 18:05:16
李湘现身长沙机场被偶遇,穿着粉色西服,戴着墨镜,网友:富态!

李湘现身长沙机场被偶遇,穿着粉色西服,戴着墨镜,网友:富态!

小咪侃娱圈
2025-11-13 09:03:11
全运会!首个决赛名额出炉,刘诗雯拼尽全力,高远无谓失误致丢局

全运会!首个决赛名额出炉,刘诗雯拼尽全力,高远无谓失误致丢局

老汆古装影视解说
2025-11-13 12:33:57
全红婵比赛结束父母来团聚,深夜发文引争议

全红婵比赛结束父母来团聚,深夜发文引争议

揽星河的笔记
2025-11-12 15:58:01
如何看待欧盟强制拆除华为等设备?

如何看待欧盟强制拆除华为等设备?

黄海峰
2025-11-12 09:43:04
英超陷入法律战!新规引发热议,曼城、曼联双雄带头反对

英超陷入法律战!新规引发热议,曼城、曼联双雄带头反对

夜白侃球
2025-11-13 11:23:14
中国首例「5胞胎」现状曝光:个个年满20岁,父亲过劳去世,如今现状却让人唏嘘

中国首例「5胞胎」现状曝光:个个年满20岁,父亲过劳去世,如今现状却让人唏嘘

麦子熟了
2025-11-11 21:45:07
全运会乒乓首金!四川小将脱颖而出,赛后谈到偶像,网友:有眼光

全运会乒乓首金!四川小将脱颖而出,赛后谈到偶像,网友:有眼光

说历史的老牢
2025-11-12 11:31:00
51岁徐静蕾近况曝光:没结婚但有伴侣,定居美国6年,吃成胖美人

51岁徐静蕾近况曝光:没结婚但有伴侣,定居美国6年,吃成胖美人

东方不败然多多
2025-11-13 12:31:10
杜润旺:杜导很辛苦床头放了很多药;很多老队友不知还能否继续合作

杜润旺:杜导很辛苦床头放了很多药;很多老队友不知还能否继续合作

懂球帝
2025-11-13 08:22:19
又有大的来了!福建舰刚入列,中方就打出天大阳谋,美国担忧成真

又有大的来了!福建舰刚入列,中方就打出天大阳谋,美国担忧成真

傲傲讲历史
2025-11-12 17:31:48
孙中山小女儿孙婉晚年在澳门走投无路,邓小平得知下令:予以照顾

孙中山小女儿孙婉晚年在澳门走投无路,邓小平得知下令:予以照顾

红色先驱
2025-11-11 18:27:12
中央农办、农业农村部:不允许城镇居民到农村购买农房、宅基地,不允许退休干部到农村占地建房

中央农办、农业农村部:不允许城镇居民到农村购买农房、宅基地,不允许退休干部到农村占地建房

政知新媒体
2025-11-12 10:13:49
1976年她的墓葬出土,证明不是神话人物,而是真实存在的

1976年她的墓葬出土,证明不是神话人物,而是真实存在的

老呶侃史
2025-11-10 16:25:57
宝妈高铁堵道后续:知情人透原因,正脸被扒黑皮胖脸,已全网社死

宝妈高铁堵道后续:知情人透原因,正脸被扒黑皮胖脸,已全网社死

鋭娱之乐
2025-11-10 20:55:45
演都不演了!张颂文救人事件被曝光才2天,恶心的一幕就出现了!

演都不演了!张颂文救人事件被曝光才2天,恶心的一幕就出现了!

叨唠
2025-11-13 07:30:06
湖人29分惨败雷霆,亚历山大30+9!东契奇低迷,湖人需解决三难题

湖人29分惨败雷霆,亚历山大30+9!东契奇低迷,湖人需解决三难题

老梁体育漫谈
2025-11-13 13:07:02
独行侠114-123不敌太阳掉至西部倒二,布克24+9,阿伦23分

独行侠114-123不敌太阳掉至西部倒二,布克24+9,阿伦23分

懂球帝
2025-11-13 12:15:05
2025-11-13 13:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
11663文章数 176329关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

"3女带4孩续面"案下月开庭 面馆老板:不接受法院调解

头条要闻

"3女带4孩续面"案下月开庭 面馆老板:不接受法院调解

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

一场演唱会,戳穿岳云鹏圈中地位

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

本地
亲子
数码
健康
公开课

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

亲子要闻

婴儿百日宴被咬后续:腿部牙印淤青,宝妈崩溃发声,奶奶有责任!

数码要闻

Q3国内消费级XR设备销量达16.9万台 雷鸟领跑AR市场

血液科专家揭秘白血病七大误区

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版