网易首页 > 网易号 > 正文 申请入驻

比扩散模型快50倍!OpenAI发布多模态模型实时生成进展

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

两位清华校友,在OpenAI发布最新研究——

生成图像,但速度是扩散模型的50倍

路橙、宋飏再次简化了一致性模型,仅用两步采样,就能使生成质量与扩散模型相媲美。

他们成功将连续时间一致性模型的训练规模扩展到了前所未有的15亿参数,并实现了在512×512分辨率的ImageNet数据集上的训练。

参数15亿模型在单张A100 GPU上无需任何推理优化即可在0.11秒内生成一个样本

团队还表示通过定制系统优化,可以进一步加速,为实时生成图像、音频和视频提供新的可能

值得一提的是,论文仅有的两位作者还都是清华校友

该项研究发布后得到大量网友点赞转发。

把正在休假的Openai总裁Greg Brockman都炸出来了:

多模态模型正迈向实时生成

那么,sCM是如何实现的?

两步采样,50倍加速

一致性模型是一种快速的扩散模型替代方案。

当前扩散模型的采样方法通常需要数十到数百个连续步骤才能生成单个样本,这限制了其实时应用的效率和可扩展性。

逐步通过大量去噪步骤生成样本的扩散模型不同,它旨在一步直接将噪声转换为无噪声样本。

OpenAI最新这项研究提出了一种改进连续时间一致性模型(Continuous-time Consistency Models)的综合方法,主要包含题目中提到的三个关键点:简化、稳定和扩展

论文指出,现有一致性模型主要采用离散时间步训练,这种方法会引入额外的超参数并容易产生离散化误差。尽管连续时间公式可以避免这些问题,但之前的工作中连续时间一致性模型始终面临训练不稳定的挑战。

为此,论文首先提出了TrigFlow,巧妙地统一了EDM(Exponential Diffusion Model)和Flow Matching两种方法。

TrigFlow使扩散过程、扩散模型参数化、PF-ODE、扩散训练目标和一致性模型参数化都能够拥有简洁的表达式,如下所示。

在此基础上,研究人员深入分析了导致训练连续时间一致性模型不稳定的原因

在TrigFlow框架的基础上引入了几项理论上的改进,重点是参数化、网络架构和训练目标。

连续时间一致性模型训练的关键是:

取决于:

经过进一步分析,研究人员发现不稳定源自于时间导数:

并据此提出了三个关键改进:

  • 采用恒等时间变换c_noise(t)=t代替原有的对数正切变换,避免了t接近π/2时的数值不稳定性;
  • 使用位置时间嵌入替代傅里叶嵌入,减少了导数震荡;
  • 引入自适应双重归一化层替代AdaGN,在保持模型表达能力的同时提高了训练稳定性。

此外,论文还改进了训练目标,包括切向量归一化和自适应权重等技术。

以上种种改进使得研究人员成功将时间一致性模型的训练规模扩展到15亿参数,并在多个基准数据集上表现优异。

CIFAR-10上的FID(越低越好)为2.06,ImageNet 64×64上为1.48,ImageNet 512×512上为1.88。

特别值得注意的是,这些模型只需要两步采样就能达到接近最好的扩散模型的生成质量(FID差距在10%以内),而计算开销仅为后者的10%

研究人员还比较了改进后的一致性模型与变分分数蒸馏(VSD)方法的区别,发现一致性模型能产生更多样的样本,并且在更高的引导水平下表现更好。

他们还有一个关键发现,随着teacher扩散模型的规模扩大,sCM的改进也呈比例增加

用FID分数的比率来衡量样本质量的相对差异在模型大小不同的规模上是一致的,这意味着当模型规模增加时,样本质量的绝对差异会减小。

此外,增加sCM的采样步骤可以进一步减少质量差距。

作者简介

路橙

去年在清华大学TSAIL实验室,在朱军教授指导下获得博士学位;2019年获清华大学计算机科学与技术系学士学位。

现在他是OpenAI研究科学家,对大规模深度生成模型和强化学习算法感兴趣。

喜欢在数学理论和实际应用技巧之间找到理想的平衡点。

他对一致性模型、扩散模型、归一化流和基于能量的模型及其在图像生成、3D 生成和强化学习中的应用有丰富的研究经验。

宋飏

宋飏在清华大学获数学和物理学士学位后,在斯坦福大学获得了计算机科学博士学位,导师Stefano Ermon。

其研究目标是开发能够理解、生成并处理多种形态高维数据的强大AI模型。

目前,宋飏专注于改进生成模型,包括它们的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。

他对探索生成模型作为科学发现工具的潜力也很感兴趣。

参考链接:
[1]https://x.com/OpenAI/status/1849139783362347293
[2]https://luchengthu.github.io/
[3]https://yang-song.net/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制

喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制

策略述
2026-02-27 13:13:49
原来不是AI!郭士强场边抢断富永启生视频曝光,球迷都看乐了!

原来不是AI!郭士强场边抢断富永启生视频曝光,球迷都看乐了!

篮球资讯达人
2026-02-27 11:57:39
“手机将全面涨价”,冲上热搜

“手机将全面涨价”,冲上热搜

南方都市报
2026-02-27 14:31:12
两位英雄驾机撞向俄军!不是所有乌克兰人都是扎波罗热哥萨克的种

两位英雄驾机撞向俄军!不是所有乌克兰人都是扎波罗热哥萨克的种

鹰眼Defence
2026-02-27 12:55:26
男子打扫前租客房间发现遗留白色行李箱,打开后吓得手心直冒汗:10捆印着“建行”字样的纸钞,“少说有100万”,民警一查,180度大反转

男子打扫前租客房间发现遗留白色行李箱,打开后吓得手心直冒汗:10捆印着“建行”字样的纸钞,“少说有100万”,民警一查,180度大反转

极目新闻
2026-02-27 08:08:34
洗涤公司要求员工每天工作19小时,离职扣1个月工资?公司:收的货多没办法;劳动监察:将核实

洗涤公司要求员工每天工作19小时,离职扣1个月工资?公司:收的货多没办法;劳动监察:将核实

大风新闻
2026-02-27 11:54:03
南京市档案馆查到谷爱凌外婆冯国珍的珍贵历史档案,确定其为南京户籍

南京市档案馆查到谷爱凌外婆冯国珍的珍贵历史档案,确定其为南京户籍

极目新闻
2026-02-27 10:42:46
各大银行盯上了压岁钱:孩子存1000元比你存20万利息高, 银行正将儿童金融服务,从节日营销升级为核心战略

各大银行盯上了压岁钱:孩子存1000元比你存20万利息高, 银行正将儿童金融服务,从节日营销升级为核心战略

每日经济新闻
2026-02-27 13:42:07
央视直播中国男篮VS中国台北队,开球时间确定,为何在马尼拉比赛

央视直播中国男篮VS中国台北队,开球时间确定,为何在马尼拉比赛

体育大学僧
2026-02-27 11:18:32
32000分里程碑!杜兰特40+8末节连献关键球 431场30+追平科比

32000分里程碑!杜兰特40+8末节连献关键球 431场30+追平科比

颜小白的篮球梦
2026-02-27 11:09:21
曝中国拟对“肥宅快乐水”征税,国外早有先例,既促进健康又增加税收

曝中国拟对“肥宅快乐水”征税,国外早有先例,既促进健康又增加税收

知识圈
2026-02-26 18:51:01
《小说选刊》杂志社原总编辑冯立三逝世

《小说选刊》杂志社原总编辑冯立三逝世

澎湃新闻
2026-02-27 16:42:48
外交部:中方支持伊朗政府和人民维护国家稳定和正当权益

外交部:中方支持伊朗政府和人民维护国家稳定和正当权益

每日经济新闻
2026-02-26 16:15:19
米哈游确认员工下班后猝死,律师分析如何认定是否工伤

米哈游确认员工下班后猝死,律师分析如何认定是否工伤

南方都市报
2026-02-27 16:51:38
当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

牛锅巴小钒
2026-02-25 15:15:15
中国禁止手机搭载WiFi的禁令,为何无疾而终了?

中国禁止手机搭载WiFi的禁令,为何无疾而终了?

世界圈
2026-02-25 19:18:53
哈佛研究揭示:高智商孩子常具两种脸部特征不是迷信是脑科学真相

哈佛研究揭示:高智商孩子常具两种脸部特征不是迷信是脑科学真相

一口娱乐
2026-02-27 12:42:23
巴拿马总统称巴接管长和运营港口后中国不会反制,外交部回应

巴拿马总统称巴接管长和运营港口后中国不会反制,外交部回应

澎湃新闻
2026-02-27 15:36:35
全球警戒!美军疯狂换装M7,一场针对大国的火力革命,已经开始!

全球警戒!美军疯狂换装M7,一场针对大国的火力革命,已经开始!

璠爷财事通
2026-02-26 19:00:04
万达继续出售资产 20亿元转让上海颛桥万达广场

万达继续出售资产 20亿元转让上海颛桥万达广场

财联社
2026-02-27 12:50:11
2026-02-27 18:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12209文章数 176397关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

女子遇诈骗怎么也学不会操作 结果骗子当场被"整破防"

头条要闻

女子遇诈骗怎么也学不会操作 结果骗子当场被"整破防"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
房产
教育
家居
军事航空

转头就晕的耳石症,能开车上班吗?

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

教育要闻

未雨绸缪?多地明确:开学不强制作业检查,不得因作业未完成处罚学生!你家寒假作业怎样了?

家居要闻

素色肌理 品意式格调

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版