网易首页 > 网易号 > 正文 申请入驻

重磅!OpenAI发布全新模型sCM:图像生成速度提升50倍,视频实时生成将不再是梦

0
分享至

OpenAI刚刚宣布了一项重大技术突破,推出了名为sCM的新型连续时间一致性模型。sCM将开启视频,图像、三维模型、音频等实时、高质量、跨领域的生成式人工智能新阶段

Diffusion models虽然在生成式 AI 领域混得风生水起,但采样速度慢一直是它的硬伤。要走几十步甚至几百步才能生成一张图片,效率低到让人抓狂!虽然也有一些蒸馏技术,例如直接蒸馏、对抗蒸馏、渐进式蒸馏和变分分数蒸馏(VSD),可以加速采样,但它们都有各自的局限性,例如计算成本高、训练复杂、样本质量下降等现在,OpenAI 推出了全新的 sCM 模型,只需两步采样,速度提升 50 倍,性能直逼甚至超越扩散模型

sCM作为其前期一致性模型研究的延续和改进,简化了理论框架,实现了大规模数据集的稳定训练,同时保持了与领先扩散模型Diffusion models 相当的样本质量,但仅需两步采样即可完成生成过程,OpenAI同时发布了相关研究论文

paper:https://arxiv.org/pdf/2410.11081

sCM是什么?

sCM 和 Diffusion Models 不是完全不同的两种模型,sCM 实际上是基于扩散模型的一种改进模型

更准确地说,sCM 是一种一致性模型 (Consistency Model),它借鉴了扩散模型的原理,并对其进行了改进,使其能够在更少的采样步骤下生成高质量的样本

sCM 的核心是学习一个函数 fθ(xt, t),它能够将带噪声的图像 xt 映射到其在 PF-ODE 轨迹上的下一个时间步的清晰版本。这个过程并不是一步到位地去除所有噪声,而是根据 PF-ODE 的方向,将图像向更清晰的方向移动一步。在两步采样的情况下,sCM 会进行两次这样的映射,最终得到一个相对清晰的图像。

因此,sCM 和扩散模型的关系可以概括为以下几点:

sCM 是基于扩散模型的改进:sCM 依赖于扩散模型的 PF-ODE 来定义训练目标和采样路径,它并不是一个完全独立的模型

sCM 关注单步去噪:sCM 的训练目标是学习一个能够在单个时间步内进行有效去噪的函数,而不是像扩散模型那样进行多步迭代去噪

sCM 采样速度更快:由于 sCM 只需要进行少量采样步骤(例如两步),因此其采样速度比扩散模型快得多

sCM 并非一步到位:sCM 的单步去噪并非一步到位地去除所有噪声,而是沿着 PF-ODE 的轨迹向更清晰的方向移动一步,多次迭代操作最终达到去噪效果

sCM:两步到位,速度起飞!

OpenAI 基于之前的 consistency models 研究,并吸取了 EDM 和流匹配模型的优点,提出了 TrigFlow,一个统一的框架。这个框架牛逼的地方在于,它简化了理论公式,让训练过程更稳定,还把扩散过程、扩散模型参数化、PF-ODE、扩散训练目标以及 CM 参数化都整合成更简单的表达式了!这为后续的理论分析和改进奠定了坚实的基础

基于 TrigFlow,OpenAI 开发出了 sCM 模型,甚至可以在 ImageNet 512x512 分辨率上训练 15 亿参数的模型,简直是史无前例!这是目前最大的连续时间一致性模型!

sCM 最牛逼的地方在于,它只需两步采样,就能生成与扩散模型质量相当的图像,速度提升 50 倍!例如,最大的 15 亿参数模型,在单个 A100 GPU 上生成一张图片只需 0.11 秒,而且还没做任何优化!如果再进行系统优化,速度还能更快,简直是打开了实时生成的大门!

取样时间在单个 A100 GPU 上测量,批量大小 = 1

sCM 到底有多强?

OpenAI 用 FID (Fréchet Inception Distance 它是一种用于评估生成模型生成图像质量的指标)分数(越低越好)和有效采样计算量(生成每个样本所需的总计算成本)来评估 sCM 的性能。结果显示,sCM 两步采样的质量与之前最好的方法相当,但计算量却不到 10%!

在 ImageNet 512x512 上,sCM 的 FID 分数甚至比一些需要 63 步的扩散模型还要好!在 CIFAR-10 上达到了 2.06 的 FID,ImageNet 64x64 上达到了 1.48,ImageNet 512x512 上达到了 1.88,与最好的扩散模型的 FID 分数差距在 10% 以内.

sCM 的核心改进:

除了 TrigFlow 框架,sCM 还引入了以下几个关键改进,以解决连续时间一致性模型训练不稳定的问题:

改进的时间条件策略(Identity Time Transformation):使用Cnoise(t) = t而不是Cnoise (t) = log(σα tan(t)),避免了当 t 趋近于 T 时出现的数值不稳定问题

位置时间嵌入 (Positional Time Embeddings):使用位置嵌入代替傅里叶嵌入,避免了傅里叶嵌入带来的不稳定性

自适应双归一化 (Adaptive Double Normalization):解决了 AdaGN 层在 CM 训练中带来的不稳定性问题,同时保留了其表达能力

自适应权重 (Adaptive Weighting):根据数据分布和网络结构自动调整训练目标的权重,避免了手动调参的麻烦

切线归一化/裁剪 (Tangent Normalization/Clipping):控制梯度方差,进一步提高训练稳定性

JVP 重新排列 (JVP Rearrangement) 和 Flash Attention 的 JVP 计算:提升了大规模模型训练的数值精度和效率

渐进式退火:让训练过程更稳定,更容易扩展到大规模模型

扩散微调和切线预热:通过从预训练的扩散模型进行微调和逐步预热切线函数的第二项,进一步加速收敛并提高稳定性

sCM 的工作原理:

sCM 模型的核心思想是一致性,它试图让模型在相邻时间步的输出保持一致。通过学习 PF-ODE 的单步解,sCM 可以直接将噪声转换成清晰的图像,一步到位!

上图中的路径形象地说明了这一差异:蓝线表示扩散模型的渐进采样过程,而红色曲线则表示一致性模型更直接、更快速的采样过程。利用一致性训练或一致性蒸馏等技术,可以训练一致性模型,使其生成高质量样本的步骤大大减少,这对需要快速生成样本的实际应用非常有吸引力

sCM 模型通过从预训练的扩散模型中蒸馏知识进行学习。一个关键的发现是:

随着模型规模的扩大,sCM 模型的改进程度与“教师”扩散模型的改进程度成正比。具体来说,样本质量的相对差异(用 FID 分数的比率衡量)在几个数量级的模型规模上保持一致,这导致样本质量的绝对差异随着规模的扩大而减小

此外,增加 sCM 的采样步骤可以进一步缩小质量差距。值得注意的是,来自 sCM 的两步样本已经可以与来自“教师”扩散模型的样本相媲美(FID 分数的相对差异小于 10%),而“教师”模型需要数百步才能生成样本

sCM 与 VSD 的比较:

与变分分数蒸馏(VSD)相比,sCM 生成的样本更加多样化,并且在高引导尺度下更不容易出现模式坍塌,从而获得更好的 FID 分数

sCM 的局限性:

最好的 sCM 模型仍然需要预训练的扩散模型来进行初始化和蒸馏,因此在图像质量上与“老师”模型相比还是略逊一筹

FID 分数并不完美,有时候 FID 分数接近并不代表实际图像质量也接近,反之亦然。所以,评估 sCM 的质量还是要根据具体应用场景来判断

one more thing

OpenAI说的很清楚:

We believe these advancements will unlock new possibilities for real-time, high-quality generative AI across a wide range of domains

ChatGPT 11月30就两岁了,Sora还没有落地但开发主管都离职了跑路了,但是sCM的发布说明OpenAI内部还在憋大招,sam altman也在暗示ChatGPT两岁生日该发布点什么,也许就是实时高质量视频生成大杀器sora?

实时高质量视频生成大杀器sora有可能吗?

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金价猛烈下跌,历史罕见!国内金饰克价跌破心理底线,引发全网震惊!

金价猛烈下跌,历史罕见!国内金饰克价跌破心理底线,引发全网震惊!

白浅娱乐聊
2026-03-23 01:34:08
难以置信!浙江55岁母亲称,庆幸儿子选择不婚不育,告别催婚内耗

难以置信!浙江55岁母亲称,庆幸儿子选择不婚不育,告别催婚内耗

火山詩话
2026-03-21 14:59:59
撕破脸!巴拿马总统公开痛骂长和,138亿仲裁案突然反转这下慌了

撕破脸!巴拿马总统公开痛骂长和,138亿仲裁案突然反转这下慌了

陈博世财经
2026-03-22 14:09:07
强烈呼吁日本:给卸任首相涨点退休金,太丢人了,连保姆都雇不起

强烈呼吁日本:给卸任首相涨点退休金,太丢人了,连保姆都雇不起

雪中风车
2026-03-22 08:51:54
上海春节后首次重返20℃,下周气温比前期整体上升一小个台阶

上海春节后首次重返20℃,下周气温比前期整体上升一小个台阶

澎湃新闻
2026-03-22 18:12:29
伊朗媒体称伊官员提出停战六项条件

伊朗媒体称伊官员提出停战六项条件

界面新闻
2026-03-22 20:15:15
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
岛国片中那些被破解的无码作品,女主角人美灯大,姿势硬核

岛国片中那些被破解的无码作品,女主角人美灯大,姿势硬核

全是纪录片
2026-03-22 21:50:35
庄子的启示:人活着,最厉害的本事,不是“有用”,而是“无用”

庄子的启示:人活着,最厉害的本事,不是“有用”,而是“无用”

金沛的国学笔记
2026-03-21 12:09:39
代码遭驳回后,AI智能体自主发布抹黑文章攻击开发者

代码遭驳回后,AI智能体自主发布抹黑文章攻击开发者

IT之家
2026-03-22 15:54:47
微信正在杀死比赛!可以接入原生龙虾了,安卓、iOS都支持(附教程)

微信正在杀死比赛!可以接入原生龙虾了,安卓、iOS都支持(附教程)

沃垠AI
2026-03-22 16:51:06
被裁员我爽快离开,月底董事长懵了,谁把公司唯一的精算师裁了

被裁员我爽快离开,月底董事长懵了,谁把公司唯一的精算师裁了

奶茶麦子
2026-03-22 11:37:07
马卡:姆巴佩女友观看马德里德比,所处包厢是姆巴佩曾待过的

马卡:姆巴佩女友观看马德里德比,所处包厢是姆巴佩曾待过的

懂球帝
2026-03-23 06:00:18
世乒赛第二次选拔结束,国乒第7人诞生!王艺迪、陈熠出局

世乒赛第二次选拔结束,国乒第7人诞生!王艺迪、陈熠出局

十点街球体育
2026-03-22 21:07:21
特斯拉和比亚迪的差距是多少?老驾驶员:上了高速你就懂了

特斯拉和比亚迪的差距是多少?老驾驶员:上了高速你就懂了

阿尢说历史
2026-03-22 18:51:06
3000多条评论热议,南通这条老街满眼“店铺出租”,到底怎么了?

3000多条评论热议,南通这条老街满眼“店铺出租”,到底怎么了?

好通网
2026-03-23 08:48:00
全国买家正在涌入上海

全国买家正在涌入上海

魔都财观
2026-03-23 07:40:20
何猷君带娃看东超决赛,俩孩子正脸曝光,儿子像妈妈,女儿像爸爸

何猷君带娃看东超决赛,俩孩子正脸曝光,儿子像妈妈,女儿像爸爸

阿库财经
2026-03-22 21:16:40
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
张靓颖自曝医美失败脸僵笑不出来,网友:娱乐圈最高级的公关

张靓颖自曝医美失败脸僵笑不出来,网友:娱乐圈最高级的公关

师维
2026-03-22 23:02:13
2026-03-23 09:47:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

科技要闻

雷军、蔡崇信最新发声,提到同一件事

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

连续暴跌 乱世黄金失灵?

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

房产
健康
旅游
公开课
军事航空

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

转头就晕的耳石症,能开车上班吗?

旅游要闻

石家庄正定古城花海古韵引客来 成为京津冀周边踏春出游的热门之选

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗回应美方威胁:将在战场上坚决对抗

无障碍浏览 进入关怀版