网易首页 > 网易号 > 正文 申请入驻

李飞飞团队新作:简单调整生成顺序,大幅提升像素级图像生成质量

0
分享至


文章转载于量子位
作者:闻乐

长期以来,AI生图被一个经典矛盾困扰。

潜空间模型效率高,但细节有损耗;像素空间模型保真度高,却容易结构混乱、速度慢。

要么快要没准,大家几乎默认这是架构带来的取舍问题,没法彻底解决。

但扩散模型生图,顺序真的对吗?

李飞飞团队最新论文提出的Latent Forcing方法直接打破了这一共识,他们发现生成的质量瓶颈不在架构,而在顺序


简单说就像画画必须先打草稿再填色,AI也需要一个「先定结构、后填细节」的强制逻辑。

Latent Forcing仅通过重排生成轨迹,像素扩散模型不仅找回了效率,更在多项指标上刷新SOTA。

1

传统方法瓶颈

在深入了解Latent Forcing之前,咱先来说说当前两大方法的瓶颈。

传统像素级扩散模型之所以画图会画歪,是因为它在降噪过程中,高频的纹理细节往往会干扰低频的语义结构。

模型常常在还没搞清楚物体的整体轮廓时,就被迫去预测局部的像素颜色,其实这在本质上就违背了视觉生成的自然逻辑。

为了解决这个问题,行业此前大多转向潜空间。

它通过预训练的tokenizer把图像压到低维空间,生成速度飞起。

但潜空间模型必须依赖一个预训练的解码器,但这不仅会引入重建误差,也让模型失去了端到端建模原始数据的能力。


于是李飞飞团队思考——

能不能既保留像素级的无损精度,又获得潜空间的结构引导?

1

先打个草稿

Latent Forcing的答案是——

对扩散轨迹重新排序


怎么做的呢?

在不改变基础Transformer架构的前提下,引入了双时间变量机制。

在训练和生成过程中,模型会同时处理像素和潜变量。不同的是,团队为两者定制了独立的降噪节奏:

  • 潜变量先行:在生成初期,潜变量会率先完成降噪,在大尺度上确立图像的语义骨架;

  • 像素填色:在结构确定后,像素部分再跟进进行精细化降噪。


这么一看,潜变量就像是一个临时的草稿本。

生成结束时,这个草稿本直接丢弃,最终输出仍是100%无损的原始像素图像,没有任何decoder。

整个过程端到端、可扩展,几乎不增加计算量(token数量不变,速度接近原生DiT)。

这种先latent后pixel的细微调整,在ImageNet榜单上展现了出色的表现。

在相同计算规模,训练80个epochs的条件下,Latent Forcing在ImageNet-256任务中,条件生成的FID分数较此前最强的像素级模型JiT+REPA,从18.60降到9.76,接近腰斩。


在200个epoch的最终模型(ViT‑L 规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数。

创下像素空间扩散Transformer新的SOTA。


过去学术界普遍认为,必须通过更高倍率的有损压缩才能换取好的FID表现。

Latent Forcing则用数据反驳了这一观点——

在保持100%原始像素精度的情况下,我们依然能跑出超越有损模型的性能。

Latent Forcing项目由李飞飞领衔。

第一作者Alan Baade是李飞飞的学生,斯坦福计算机系博士生,在扩散模型和生成建模方向有深入研究。


其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。

此外,密歇根大学教授Justin Johnson作为合作作者参与其中。

论文地址:https://arxiv.org/abs/2602.11401

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李家诚怒告周秀娜,十年沉默终爆发,徐子淇护夫赔偿捐慈善

李家诚怒告周秀娜,十年沉默终爆发,徐子淇护夫赔偿捐慈善

梦想总会变成真
2026-02-15 10:33:56
广州男子买菜偶遇双脚被截断乞丐,这竟是失踪12年的同学。

广州男子买菜偶遇双脚被截断乞丐,这竟是失踪12年的同学。

南权先生
2026-02-13 15:26:13
军用罐头,为何宁愿让战士刀劈斧砍,也不要拉环?

军用罐头,为何宁愿让战士刀劈斧砍,也不要拉环?

观锐器
2025-12-29 19:18:48
担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

天天热点见闻
2026-02-15 08:24:58
汕头一酒店春节涨至4200元一晚?工作人员:今天最新价格为1650元,还有房

汕头一酒店春节涨至4200元一晚?工作人员:今天最新价格为1650元,还有房

极目新闻
2026-02-11 22:26:02
谷爱凌为中国夺牌后,让人恶心的一幕出现了!国际雪联被迫道歉

谷爱凌为中国夺牌后,让人恶心的一幕出现了!国际雪联被迫道歉

十点街球体育
2026-02-14 22:50:51
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
足总杯:1-2大冷门,英超球队遭低级别英甲球队逆转,惨遭淘汰

足总杯:1-2大冷门,英超球队遭低级别英甲球队逆转,惨遭淘汰

侧身凌空斩
2026-02-15 01:01:43
确认是假货!涉及多个大牌,网友:天塌了,我说怎么那么便宜?

确认是假货!涉及多个大牌,网友:天塌了,我说怎么那么便宜?

浙江之声
2026-02-13 13:11:59
你知道什么是降维打击吗?网友:符合高中学历的认知

你知道什么是降维打击吗?网友:符合高中学历的认知

带你感受人间冷暖
2026-02-13 21:51:11
被透支的晚年!母亲被两个女儿“瓜分”带娃,终以悲剧收场

被透支的晚年!母亲被两个女儿“瓜分”带娃,终以悲剧收场

深度报
2026-02-14 21:26:52
57岁王菲现身马年春晚彩排,十几位保镖跟着她,天后气场超级强大

57岁王菲现身马年春晚彩排,十几位保镖跟着她,天后气场超级强大

阿废冷眼观察所
2026-02-15 01:33:30
特朗普发现被骗勃然大怒,美财长送中国两句话,钓鱼岛情况突变

特朗普发现被骗勃然大怒,美财长送中国两句话,钓鱼岛情况突变

策略述
2026-02-15 11:10:12
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
情人节遇冷!票房勉强过亿,网友:时代变了,舔狗没落遇返程高峰

情人节遇冷!票房勉强过亿,网友:时代变了,舔狗没落遇返程高峰

火山詩话
2026-02-15 07:06:00
恭喜!新援铁卫斩获曼城生涯处子球 2000万英镑买他堪称神来之笔

恭喜!新援铁卫斩获曼城生涯处子球 2000万英镑买他堪称神来之笔

雪狼侃体育
2026-02-15 13:45:09
星星回陈晓老家过年?陈妍希情人节机场送别儿子,母子分隔太心酸

星星回陈晓老家过年?陈妍希情人节机场送别儿子,母子分隔太心酸

每一次点击
2026-02-14 17:37:10
又戴高帽,“中国一个电话就能搞定”

又戴高帽,“中国一个电话就能搞定”

观察者网
2026-02-15 10:03:06
海南陵水一游客不慎被海浪卷走 派出所3名警员合力救回

海南陵水一游客不慎被海浪卷走 派出所3名警员合力救回

红星新闻
2026-02-15 11:01:14
C919需求超9000架,第二总装厂为何选址陕西

C919需求超9000架,第二总装厂为何选址陕西

星落山间
2026-02-13 23:18:53
2026-02-15 14:28:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2867文章数 10437关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

上海水果摊主被黄仁勋带火:不认识他 给了我600元红包

头条要闻

上海水果摊主被黄仁勋带火:不认识他 给了我600元红包

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

亲子
数码
教育
家居
公开课

亲子要闻

一位优秀保姆的下户

数码要闻

AirTag太贵?小米Tag来了:更薄更强,还支持苹果查找

教育要闻

放弃推门课?校长管理的“信任成本”该加还是减

家居要闻

中古雅韵 乐韵伴日常

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版