网易首页 > 网易号 > 正文 申请入驻

清华大学团队首次实现自回归模型一步生成图像

0
分享至


这项由清华大学电子工程系与微软研究院合作完成的研究发表于2025年的ICLR会议,有兴趣深入了解的读者可以通过论文编号arXiv:2412.17153v3查询完整论文。

自回归模型就像一位严谨的画家,必须按照固定顺序一笔一画地完成作品。当它要生成一张图片时,需要先画第一个像素点,然后根据这个点的信息画第二个点,再根据前两个点画第三个点,如此反复直到整张图片完成。这种"一个接一个"的工作方式虽然保证了每个细节都恰到好处,却让生成速度变得极其缓慢。比如目前最先进的LlamaGen模型生成一张256×256像素的图片需要256步,耗时约5秒钟。

然而,清华大学的研究团队提出了一个看似不可能的问题:能否让这位严谨的画家学会一步到位地完成整幅作品,同时还保持原有的精细度?经过深入研究,他们开发出了名为"蒸馏解码"(Distilled Decoding,简称DD)的创新方法,成功实现了这个看似不可能的目标。

这项突破性研究的核心创新在于巧妙地结合了自回归模型和流匹配技术。研究团队发现,传统的并行生成方法之所以失败,是因为它们错误地假设图像中的不同部分可以独立生成。这就像试图让多个厨师同时做一道复杂的菜,却不让他们互相沟通协调,最终的结果往往是一团糟。

为了解决这个根本问题,研究团队设计了一个全新的训练方式。他们首先让预训练的自回归模型按照原有方式生成图像,但在每个生成步骤中引入了流匹配技术。流匹配就像一座桥梁,能够在高斯噪声分布和目标图像分布之间建立确定性的映射关系。简单来说,它能将随机噪声"翻译"成有意义的图像内容,而且这个翻译过程是完全确定的——给定相同的噪声输入,总是能得到相同的输出。

基于这个巧妙的设计,研究团队训练了一个新的神经网络,让它学会直接从完整的噪声序列映射到完整的图像序列。这就像培训一位新画家,让他学会一眼就能看出整张图片的最终样子,然后一步到位地完成创作。更重要的是,这个训练过程完全不需要原始训练数据,只需要预训练模型就足够了,这让DD方法在实际应用中更加便利。

研究团队在最先进的图像生成模型VAR和LlamaGen上验证了DD的效果。结果令人印象深刻:对于VAR模型,DD将生成步数从10步压缩到1步,速度提升6.3倍,同时图像质量指标FID仅从4.19上升到9.96。对于LlamaGen模型,DD更是实现了惊人的217.8倍速度提升,将256步压缩到1步,FID从4.11上升到11.35。相比之下,其他加速方法在如此激进的步数压缩下完全失效,FID分数飙升到100以上。

这项研究的影响远不止于技术层面的突破。在文本到图像生成任务中,DD同样表现出色。研究团队在LAION-COCO数据集上的实验显示,DD能够将LlamaGen的生成步数从256步压缩到2步,速度提升93倍,而图像质量只有轻微下降。这意味着用户可以根据实际需求在速度和质量之间灵活权衡。

DD方法的另一个重要优势是其灵活性。与传统的固定步数生成方法不同,DD允许用户根据需要选择不同的生成步数。想要极速生成?选择1步模式。追求更高质量?可以选择2步或更多步数。这种灵活性是传统自回归模型所不具备的。

从技术角度来看,DD的成功源于对自回归生成本质的深刻理解。研究团队认识到,传统并行生成方法失败的根本原因在于忽视了图像不同部分之间的条件依赖关系。他们通过理论分析证明,当试图在一步中生成所有像素时,传统方法只能学到数据集中各个位置像素的平均分布,这必然导致生成质量的急剧下降。

DD方法通过流匹配技术巧妙地绕过了这个根本性障碍。流匹配不仅提供了从噪声到数据的确定性映射,还保证了生成分布与原始自回归模型分布的一致性。这种设计使得DD在理论上能够完美复现原始模型的生成能力,同时实现大幅度的速度提升。

在实验设计方面,研究团队进行了全面而系统的评估。他们不仅测试了不同规模的模型(从111M到1.09B参数),还在多个评估指标上进行了对比,包括FID、IS、Precision和Recall等。实验结果一致表明,DD在各种设置下都能保持稳定的性能提升。

特别值得注意的是,DD方法还展现出良好的可扩展性。随着模型规模的增大,DD的性能也相应提升,这表明该方法能够充分利用大模型的优势。这一特性对于未来更大规模模型的应用具有重要意义。

研究团队还探索了DD与原始模型结合使用的可能性。他们发现,在DD生成的基础上,可以选择性地使用原始自回归模型对部分区域进行精细化处理,从而在速度和质量之间找到更好的平衡点。这种混合策略为实际应用提供了更多选择。

从更广阔的视角来看,DD方法挑战了长期以来关于自回归模型必然缓慢的认知。它证明了通过巧妙的技术设计,可以在不牺牲生成质量的前提下大幅提升生成速度。这为自回归模型在实际应用中的推广奠定了重要基础。

当然,DD方法也存在一些局限性。目前的研究主要集中在图像生成领域,对于文本生成等其他模态的应用还需要进一步探索。此外,虽然DD大幅提升了生成速度,但生成质量仍然受到原始模型性能的限制。研究团队也坦诚地指出了这些挑战,并提出了未来可能的改进方向。

DD方法的成功还启发了对计算效率与模型性能关系的重新思考。长期以来,人们普遍认为更多的计算步数必然带来更好的性能,但DD的成功表明,通过合理的技术设计,可以用更少的计算资源实现相当甚至更好的效果。这种思维转变对整个AI领域都具有重要启示意义。

总的来说,这项研究不仅在技术层面实现了重要突破,更在概念层面为自回归模型的发展开辟了新的方向。DD方法的成功证明了理论创新与工程实践相结合的威力,也为未来更高效、更实用的AI模型设计提供了宝贵经验。随着技术的不断完善和推广,我们有理由相信,这种快速生成技术将为图像创作、内容生产等领域带来革命性的变化。

说到底,DD方法的真正价值不仅在于其技术先进性,更在于它为普通用户带来的实际便利。当AI图像生成从几秒钟的等待变成几乎实时的响应时,创作者的工作流程将发生根本性改变,创意表达也将变得更加流畅自然。这种从量变到质变的转化,正是技术进步的真正意义所在。对于有兴趣深入了解技术细节的读者,建议查阅原始论文以获得更全面的信息。

Q&A

Q1:蒸馏解码DD方法是如何实现一步生成图像的?

A:DD方法通过结合自回归模型和流匹配技术实现一步生成。它首先用流匹配在噪声和图像之间建立确定性映射关系,然后训练一个新的神经网络学会从完整噪声序列直接映射到完整图像序列,避免了逐步生成的耗时过程。

Q2:DD方法相比传统加速方法有什么优势?

A:传统并行生成方法假设图像不同部分可以独立生成,导致质量急剧下降。DD方法通过流匹配保持了原始模型的分布特性,在大幅提升速度的同时维持了较好的图像质量,还支持灵活的步数选择。

Q3:DD方法对图像生成质量的影响有多大?

A:以LlamaGen为例,DD将生成步数从256步压缩到1步,速度提升217.8倍,而图像质量指标FID仅从4.11上升到11.35。相比之下,其他加速方法在相同条件下的FID分数会飙升到100以上,完全失效。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刺杀特朗普?

刺杀特朗普?

新动察
2026-03-06 08:35:43
非洲19岁女孩远嫁河南48岁农民,生俩混血儿,称:我每天都在享福

非洲19岁女孩远嫁河南48岁农民,生俩混血儿,称:我每天都在享福

谈史论天地
2026-03-06 09:52:47
盘锦一人干翻整小区,叔叔蹲守后主力找监控,小区曝光,群里炸锅

盘锦一人干翻整小区,叔叔蹲守后主力找监控,小区曝光,群里炸锅

奇思妙想草叶君
2026-03-06 19:05:37
女子退婚不退彩礼,男子将硫酸倒进小舅子嘴里,让他用彩礼钱整容

女子退婚不退彩礼,男子将硫酸倒进小舅子嘴里,让他用彩礼钱整容

阅微札记
2026-03-06 11:40:57
212票对219票,限制特朗普战争权力法案被否!特朗普接见梅西时放话:先解决伊朗,之后解决古巴只是“早晚的事”!梅西懵了……

212票对219票,限制特朗普战争权力法案被否!特朗普接见梅西时放话:先解决伊朗,之后解决古巴只是“早晚的事”!梅西懵了……

每日经济新闻
2026-03-07 00:09:59
谢谢谢娜,贡献出26年内娱的第一个笑话!

谢谢谢娜,贡献出26年内娱的第一个笑话!

娱乐圈笔娱君
2026-03-04 14:03:54
4亿成本,片方分账3200万,亏损超3.5亿,2026年最惨电影诞生了

4亿成本,片方分账3200万,亏损超3.5亿,2026年最惨电影诞生了

电影票房预告片
2026-03-05 23:47:12
国际油价站上90美元!美油涨超12%

国际油价站上90美元!美油涨超12%

每日经济新闻
2026-03-07 07:01:07
金价重现历史了!要有心理准备,下月,金价或将重现2015年历史!

金价重现历史了!要有心理准备,下月,金价或将重现2015年历史!

牛锅巴小钒
2026-03-06 20:23:41
我国初中、高中、高等教育三个阶段的学龄人口将分别于2026年、2029年、2032年达峰

我国初中、高中、高等教育三个阶段的学龄人口将分别于2026年、2029年、2032年达峰

大象新闻
2026-03-06 18:47:02
女子实名举报某团外卖:不上大额券就让我变成“凌晨营业”,你们真黑!

女子实名举报某团外卖:不上大额券就让我变成“凌晨营业”,你们真黑!

回旋镖
2026-03-06 21:13:59
重力炸弹即将大规模上场,波斯面临更大的压力

重力炸弹即将大规模上场,波斯面临更大的压力

高博新视野
2026-03-06 17:49:29
女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”,网友:四个字认错五个,当事人:没有文化确实不行

女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”,网友:四个字认错五个,当事人:没有文化确实不行

扬子晚报
2026-03-06 17:44:56
卫星图像显示中东5处雷达系统遭袭

卫星图像显示中东5处雷达系统遭袭

财联社
2026-03-07 07:03:04
四川丈夫哽咽护妻:母亲没回老家,亲戚要求删视频,岳母出面硬刚

四川丈夫哽咽护妻:母亲没回老家,亲戚要求删视频,岳母出面硬刚

离离言几许
2026-03-06 19:30:27
第二个闫学晶?39岁何洁哭诉:辞掉保姆司机,独自养4娃累到脱相

第二个闫学晶?39岁何洁哭诉:辞掉保姆司机,独自养4娃累到脱相

离离言几许
2026-03-05 15:27:36
一舞封神后,被东莞首富收入囊中,如今已是7岁孩子的妈妈

一舞封神后,被东莞首富收入囊中,如今已是7岁孩子的妈妈

娱说瑜悦
2026-03-06 18:13:06
伊朗军方称不会关闭霍尔木兹海峡

伊朗军方称不会关闭霍尔木兹海峡

国际在线
2026-03-07 06:50:02
终于打穿了!美国航母神话,彻底崩了!

终于打穿了!美国航母神话,彻底崩了!

大嘴说天下
2026-03-06 17:08:45
1.5亿惊天摊牌!克洛普硬刚皇马,曼联截胡藏惊天棋局

1.5亿惊天摊牌!克洛普硬刚皇马,曼联截胡藏惊天棋局

卿子书
2026-03-06 09:18:28
2026-03-07 07:39:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7486文章数 553关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

伊朗大规模发射新一代导弹 摧毁美军大量设施、装备

头条要闻

伊朗大规模发射新一代导弹 摧毁美军大量设施、装备

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

游戏
亲子
本地
艺术
公开课

曝下代Xbox靠纯算力制霸!性能“爆杀”PS6

亲子要闻

儿童鼻出血的常见问题,儿科医生解答

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

艺术要闻

陈独秀写给青年毛泽东的对联,一语双关,陈氏书法“天花板”!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版