网易首页 > 网易号 > 正文 申请入驻

李飞飞团队新作:简单调整生成顺序,大幅提升像素级图像生成质量

0
分享至


文章转载于量子位
作者:闻乐

长期以来,AI生图被一个经典矛盾困扰。

潜空间模型效率高,但细节有损耗;像素空间模型保真度高,却容易结构混乱、速度慢。

要么快要没准,大家几乎默认这是架构带来的取舍问题,没法彻底解决。

但扩散模型生图,顺序真的对吗?

李飞飞团队最新论文提出的Latent Forcing方法直接打破了这一共识,他们发现生成的质量瓶颈不在架构,而在顺序


简单说就像画画必须先打草稿再填色,AI也需要一个「先定结构、后填细节」的强制逻辑。

Latent Forcing仅通过重排生成轨迹,像素扩散模型不仅找回了效率,更在多项指标上刷新SOTA。

1

传统方法瓶颈

在深入了解Latent Forcing之前,咱先来说说当前两大方法的瓶颈。

传统像素级扩散模型之所以画图会画歪,是因为它在降噪过程中,高频的纹理细节往往会干扰低频的语义结构。

模型常常在还没搞清楚物体的整体轮廓时,就被迫去预测局部的像素颜色,其实这在本质上就违背了视觉生成的自然逻辑。

为了解决这个问题,行业此前大多转向潜空间。

它通过预训练的tokenizer把图像压到低维空间,生成速度飞起。

但潜空间模型必须依赖一个预训练的解码器,但这不仅会引入重建误差,也让模型失去了端到端建模原始数据的能力。


于是李飞飞团队思考——

能不能既保留像素级的无损精度,又获得潜空间的结构引导?

1

先打个草稿

Latent Forcing的答案是——

对扩散轨迹重新排序


怎么做的呢?

在不改变基础Transformer架构的前提下,引入了双时间变量机制。

在训练和生成过程中,模型会同时处理像素和潜变量。不同的是,团队为两者定制了独立的降噪节奏:

  • 潜变量先行:在生成初期,潜变量会率先完成降噪,在大尺度上确立图像的语义骨架;

  • 像素填色:在结构确定后,像素部分再跟进进行精细化降噪。


这么一看,潜变量就像是一个临时的草稿本。

生成结束时,这个草稿本直接丢弃,最终输出仍是100%无损的原始像素图像,没有任何decoder。

整个过程端到端、可扩展,几乎不增加计算量(token数量不变,速度接近原生DiT)。

这种先latent后pixel的细微调整,在ImageNet榜单上展现了出色的表现。

在相同计算规模,训练80个epochs的条件下,Latent Forcing在ImageNet-256任务中,条件生成的FID分数较此前最强的像素级模型JiT+REPA,从18.60降到9.76,接近腰斩。


在200个epoch的最终模型(ViT‑L 规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数。

创下像素空间扩散Transformer新的SOTA。


过去学术界普遍认为,必须通过更高倍率的有损压缩才能换取好的FID表现。

Latent Forcing则用数据反驳了这一观点——

在保持100%原始像素精度的情况下,我们依然能跑出超越有损模型的性能。

Latent Forcing项目由李飞飞领衔。

第一作者Alan Baade是李飞飞的学生,斯坦福计算机系博士生,在扩散模型和生成建模方向有深入研究。


其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。

此外,密歇根大学教授Justin Johnson作为合作作者参与其中。

论文地址:https://arxiv.org/abs/2602.11401

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

垚垚分享健康
2026-03-26 13:09:39
奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

懂球帝
2026-03-26 11:24:21
巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

懂球帝
2026-03-26 11:02:09
一路走好!中医大师黄贵华疑因心脏骤停去世,和张雪峰有相同习惯

一路走好!中医大师黄贵华疑因心脏骤停去世,和张雪峰有相同习惯

冷紫葉
2026-03-26 18:24:16
英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

潇湘晨报
2026-03-26 16:25:20
美军继续调兵,伊朗已在哈尔克岛布雷备战!鸽派将军们坚持打下去

美军继续调兵,伊朗已在哈尔克岛布雷备战!鸽派将军们坚持打下去

鹰眼Defence
2026-03-26 16:06:38
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

沧海旅行家
2026-03-26 13:11:41
高速停车区卫生间,满地手纸无从下脚;甘肃高速回应:是个待开发停车区,已打扫干净

高速停车区卫生间,满地手纸无从下脚;甘肃高速回应:是个待开发停车区,已打扫干净

大风新闻
2026-03-26 18:19:03
蛊惑人心 1:独狼瘸东

蛊惑人心 1:独狼瘸东

金昔说故事
2026-03-26 19:57:07
经济学家巴曙松被带走调查?港交所回应

经济学家巴曙松被带走调查?港交所回应

澎湃新闻
2026-03-25 20:01:16
60年前,金门战役里被俘的3000名我军将士,如今都怎么样了

60年前,金门战役里被俘的3000名我军将士,如今都怎么样了

老范谈史
2026-03-17 09:58:57
纪念张雪峰的三个理由

纪念张雪峰的三个理由

阿亮评论
2026-03-25 09:20:28
骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

鱼崖大话篮球
2026-03-26 11:49:12
A股最惨股票!43个跌停从106元跌到0.07元,股民被连根拔起

A股最惨股票!43个跌停从106元跌到0.07元,股民被连根拔起

财经市界
2026-03-10 08:42:16
小米把这套系统藏了15年,今天终于拔了插头

小米把这套系统藏了15年,今天终于拔了插头

我是一个粉刷匠2
2026-03-26 10:29:50
以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社
2026-03-26 12:29:02
大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

魔都姐姐杂谈
2026-03-26 10:53:11
“14天12板”!000908,复牌后上演“地天板”

“14天12板”!000908,复牌后上演“地天板”

大众证券报
2026-03-26 17:58:54
浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

独角showing
2025-12-31 21:08:57
男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

念洲
2026-03-26 13:12:32
2026-03-26 20:31:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
房产
教育
手机
时尚

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

2026人工智能时代下的教育课堂变革

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

皮衣+裙,高级到炸

无障碍浏览 进入关怀版