网易首页 > 网易号 > 正文 申请入驻

腾讯突破传统图像生成:不再需要"翻译"就能直接创造连续画面

0
分享至

这项由腾讯公司微信AI团队的邵晨泽、孟凡东和周杰三位研究者共同完成的突破性研究,发表在2025年第42届机器学习国际会议(ICML 2025)上。有兴趣深入了解的读者可以通过论文代码库https://github.com/shaochenze/EAR访问完整研究资料。

要理解这项研究的重要意义,我们可以从一个简单的类比开始。传统的AI图像生成就像是让一个外国人画画,他必须先把你的要求翻译成自己的语言,再用有限的颜色盒子里的颜色来作画。这个"翻译"过程不可避免地会丢失一些细节和色彩层次。而腾讯这项新研究就像是教会了AI直接用无限丰富的调色板来作画,不再需要任何"翻译"步骤。

在传统方法中,计算机需要先把连续的图像信息转换成离散的"代币"(就像把连续的彩虹色彩切分成有限的几种颜色),然后再用这些有限的代币来重新组合生成图像。这个过程就像用马赛克拼图来还原一幅油画,总是会丢失一些精细的渐变和细节。腾讯的研究团队发现了一种全新的方法,让AI能够直接处理连续的视觉信息,就像真正的画家一样可以调出任何需要的色彩。

这种突破的核心在于他们建立了一个叫做"连续视觉自回归生成"的框架。自回归听起来很复杂,但其实就是AI一步一步地生成图像的方式,就像画家一笔一笔地完成画作。传统方法需要先把画作"量化"成固定的几种颜色,而新方法让AI可以直接使用无限丰富的色彩。

研究团队的创新之处在于运用了一种叫做"严格适当评分规则"的数学工具。这个概念听起来很学术,但实际上它就像是一个非常诚实的评判系统。当AI生成图像时,这个评判系统会给出最公正的分数,而且它有一个特殊的性质:只有当AI完全诚实地反映真实图像分布时,它才能得到最高分。任何偏离真实的生成都会导致分数下降。

在这个框架下,研究团队主要探索了一种基于"能量分数"的训练方法。能量分数是一种不需要明确计算概率的评分方式,这解决了连续空间中概率计算极其困难的问题。就像评判一个画家的水平,你不需要用复杂的数学公式,而是可以直观地看画作是否生动、是否接近真实。

有趣的是,之前一些看似不同的研究方法,比如GIVT(生成无限词汇表变换器)和扩散损失,实际上都可以在这个新框架下得到统一的解释。GIVT使用的是对数评分,而扩散损失对应的是Hyvarinen评分。这就像发现了不同烹饪方法背后的共同原理一样,为整个领域提供了更深层的理解。

基于这个理论框架,研究团队开发了一种叫做EAR(Energy-based AutoRegression,基于能量的自回归)的具体方法。这个方法的巧妙之处在于,它不需要明确估计概率密度,只需要能够从模型分布中采样即可。这大大降低了实现的复杂度,同时提供了更大的表达能力。

EAR使用的能量损失函数有一个很直观的含义:它鼓励模型生成的样本尽可能接近目标图像,同时保持生成样本之间的多样性。这就像训练一个画家,既要画得像,又要保持创作的多样性,不能总是画出一模一样的作品。

在具体的模型架构上,能量变换器与传统的离散变换器非常相似,主要区别在于输出层。传统方法使用softmax层从有限的词汇表中选择,而能量变换器使用一个小型的多层感知机生成器,它可以接受随机噪声作为额外输入,通过采样过程隐式地表示预测分布。这种设计类似于生成对抗网络中的生成器,但更加简洁高效。

研究团队在设计中还加入了几个重要的技术细节。首先是温度机制,这允许在训练和推理过程中调节生成的多样性和准确性之间的平衡。训练时可以稍微降低多样性来提高质量,推理时可以调节创意水平。其次是无分类器引导技术,这是一种在条件生成中提高质量的标准方法,通过同时考虑有条件和无条件的预测来增强生成效果。

另一个重要创新是支持掩码自回归生成。与传统的从左到右的因果生成不同,掩码自回归允许双向注意力,可以更有效地学习表示。生成时,模型可以以随机顺序预测被掩盖的token,逐步完成整个图像。这种方法在实验中表现出比因果生成更好的效果。

在训练过程中,研究团队发现了一个关键的技术要点:MLP生成器需要使用比主干网络更小的学习率。这是因为生成器的训练稳定性要求更加严格,需要更细致的调优。他们还探索了不同类型和维度的随机噪声对模型性能的影响,发现均匀分布的64维噪声效果最佳。

实验验证是这项研究的重要组成部分。研究团队在ImageNet 256×256基准数据集上进行了全面的评估,这是计算机视觉领域的标准测试平台。他们将EAR方法与多种现有技术进行了比较,包括生成对抗网络、扩散模型和基于向量量化的自回归模型。

结果显示,EAR在生成质量上取得了竞争性的表现。特别值得注意的是,EAR-B(205M参数)获得了2.83的FID分数,EAR-H(937M参数)达到了1.97的FID分数,这些结果在同等规模的模型中表现优异。更重要的是,EAR在推理效率方面显著优于基于扩散的方法,能够在大约1秒内生成高质量图像,而对比方法MAR需要近10倍的时间。

这种效率优势源于EAR和MAR在概率建模方面的根本差异。MAR使用扩散损失训练,需要多次去噪迭代来恢复目标分布,而EAR的能量式监督使其能够在单次前向计算中完成预测。这就像传统方法需要反复修改草稿,而新方法可以一气呵成。

研究团队还进行了详细的消融实验来验证设计选择的合理性。他们发现,严格适当性对于评分规则确实至关重要。在能量损失中,指数系数α的选择需要在(0,2)范围内,α=2时虽然评分规则仍然适当,但不是严格适当的,训练效果显著下降。这验证了理论分析的正确性。

在表达能力方面,研究显示能量变换器相比使用预定义分布(如高斯分布)的方法具有明显优势。预定义分布的方法虽然可以通过调整方差获得一定的生成质量,但与EAR相比仍有显著差距,说明连续token分布的复杂性需要更灵活的建模方法。

连续tokenizer相比离散tokenizer的优势也得到了实验验证。使用相同模型架构时,连续tokenization配合能量损失始终优于离散tokenization配合交叉熵损失。这凸显了连续视觉自回归的巨大潜力。

在技术细节的探索中,研究团队发现学习率的调整对训练稳定性至关重要。使用常规学习率时模型无法收敛,而将MLP生成器的学习率调整为主干网络的0.25倍后,训练过程得到稳定。这个发现为后续研究提供了重要的实践指导。

噪声类型和维度的选择也经过了系统的实验验证。均匀噪声相比高斯噪声表现更好,64维的噪声维度在32、64、128三个选项中效果最佳。这些发现为实际应用提供了具体的参数选择指导。

分类器自由引导在EAR中发挥了重要作用。通过线性增加引导尺度,可以在生成质量和多样性之间取得良好平衡。实验显示,随着引导尺度增加,Inception Score持续提升,而FID在尺度为3.0左右达到最优值,过高的引导尺度会损害生成多样性。

温度机制的实验验证了其在质量-多样性权衡中的有效性。训练温度设为0.99,推理温度设为0.7时获得了最佳效果。这种机制为用户在实际应用中根据需求调节生成特性提供了灵活性。

掩码自回归相比因果自回归显示出明显优势,FID从17.83改善到7.95(无引导情况下),从8.10改善到3.55(有引导情况下)。这验证了双向注意力在视觉生成任务中的价值。

速度-质量权衡分析显示,EAR在推理延迟和生成质量的平衡方面具有显著优势。在固定64个自回归步数的情况下,通过调整模型大小可以在不同的速度-质量工作点之间选择,而MAR即使使用不同的扩散步数也难以达到EAR的效率水平。

这项研究的理论贡献不仅限于技术实现,还为连续视觉自回归生成提供了统一的理论框架。通过严格适当评分规则的视角,可以理解和比较不同的连续生成方法,为未来的研究方向提供了清晰的指导。

实际应用方面,这种技术可以显著改善需要高质量图像生成的各种场景。从艺术创作到内容生成,从数据增强到虚拟环境构建,连续视觉自回归都能提供更精细、更高效的解决方案。特别是在需要实时或近实时生成的应用中,EAR的效率优势将发挥重要作用。

研究团队也诚实地指出了当前方法的局限性和未来改进方向。架构优化仍有很大空间,可以探索更适合连续生成的网络结构。评分规则的选择还可以进一步研究,不同的严格适当评分规则可能在特定任务上有不同的优势。扩展到视频、音频等其他连续模态也是自然的发展方向。

另一个有趣的研究方向是将这种方法应用到语言建模中。虽然文本本质上是离散的,但通过将离散文本转换为潜在向量表示,可能也能从连续建模中受益。这种跨模态的思考体现了研究的深度和广度。

从更宏观的角度来看,这项研究反映了AI生成技术正在从粗糙的拼接向精细的创作演进。就像从马赛克艺术发展到油画技法一样,技术的进步让AI能够处理更加细腻和连续的信息,生成更加自然和逼真的内容。

这种进步不仅体现在技术层面,也反映了我们对生成模型本质理解的深化。通过统一的理论框架,研究者可以更好地理解不同方法之间的关系,从而设计出更有效的算法。这种理论指导实践、实践验证理论的良性循环,正是科学研究的核心价值所在。

最终,这项研究为连续视觉生成开辟了新的技术路径。它不仅在当前任务上取得了优异表现,更重要的是为整个领域提供了新的思考框架和发展方向。随着技术的进一步发展和优化,我们有理由期待看到更加智能、高效和强大的视觉生成系统。

说到底,腾讯这项研究的真正价值在于打破了传统思维的局限。它告诉我们,AI不一定要按照人类设计的"翻译"规则来工作,而是可以直接学习和模拟自然界中连续变化的规律。这种思路的转变,可能会在更多AI应用领域带来突破性进展。对于普通用户来说,这意味着未来我们可能会看到更加精美、生成速度更快的AI绘画工具,让每个人都能轻松创作出专业级别的视觉作品。随着这类技术的成熟和普及,创意表达的门槛将进一步降低,让更多人能够实现自己的艺术想法。有兴趣深入了解技术细节的读者,可以访问研究团队公开的代码库,亲自体验这项创新技术的魅力。

Q&A

Q1:什么是连续视觉自回归生成?它和传统方法有什么不同? A:连续视觉自回归生成是一种让AI直接处理连续图像信息的新方法,就像画家直接用调色板调色一样。传统方法需要先把图像"翻译"成有限的离散代币(像用马赛克块拼图),会丢失细节。新方法跳过了这个"翻译"步骤,能保留更多图像的精细信息,生成质量更高。

Q2:EAR方法会不会取代现有的图像生成技术? A:EAR在某些方面确实有优势,特别是生成速度比扩散模型快近10倍,但不会完全取代所有方法。不同技术各有特点,EAR主要优势在于效率高、质量好,适合需要快速生成的场景。未来可能会看到多种技术并存,在不同应用中发挥各自优势。

Q3:普通人能使用这种技术吗?有什么实际应用? A:目前这还是研究阶段的技术,普通人暂时无法直接使用。但随着技术成熟,预计会集成到各种图像生成工具中,让AI绘画、内容创作、游戏开发等应用变得更快更好。未来可能出现在手机拍照美化、社交媒体内容生成、在线设计工具等日常应用中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本急眼了,美国赚翻了!90万桶美国原油连夜运到东京湾

日本急眼了,美国赚翻了!90万桶美国原油连夜运到东京湾

青烟小先生
2026-04-28 09:34:23
谁能夺得本赛季总冠军?马布里给出答案,看衰如日中天的上海队

谁能夺得本赛季总冠军?马布里给出答案,看衰如日中天的上海队

南海浪花
2026-04-28 08:00:51
可惜,大s永远不会知道了,到最后,护着她两个孩子的是婆婆张兰

可惜,大s永远不会知道了,到最后,护着她两个孩子的是婆婆张兰

喜欢历史的阿繁
2026-04-25 10:15:34
姚高员辞去杭州市市长职务

姚高员辞去杭州市市长职务

新快报新闻
2026-04-27 22:40:05
研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

黯泉
2026-04-01 17:28:39
记协晚宴枪击源于“左翼仇恨”?白宫:长期“系统性妖魔化抹黑”特朗普的后果

记协晚宴枪击源于“左翼仇恨”?白宫:长期“系统性妖魔化抹黑”特朗普的后果

新华社
2026-04-28 09:48:12
跌不动了!RTX 50系批发价止跌企稳:5070不到4900、5060仅需2400

跌不动了!RTX 50系批发价止跌企稳:5070不到4900、5060仅需2400

快科技
2026-04-27 15:58:34
我心属于你:这不是失去自己,是找到了归宿

我心属于你:这不是失去自己,是找到了归宿

疾跑的小蜗牛
2026-04-27 22:06:22
有一种蠢,叫自洽到刀枪不入

有一种蠢,叫自洽到刀枪不入

洞见
2026-04-27 09:09:21
数名医生强调:只要做过白内障手术,术后病人一定关注这几点

数名医生强调:只要做过白内障手术,术后病人一定关注这几点

健康科普365
2026-04-25 17:30:07
大量酒店智能终端流入闲鱼!7寸大屏+安卓8.1,二手50块

大量酒店智能终端流入闲鱼!7寸大屏+安卓8.1,二手50块

闲搞机
2026-04-27 11:05:29
英国国王查尔斯和梅拉尼娅“一拍即合”,观众在白宫致辞中看到他们之间温馨瞬间

英国国王查尔斯和梅拉尼娅“一拍即合”,观众在白宫致辞中看到他们之间温馨瞬间

娱乐小可爱蛙
2026-04-28 09:14:44
教育迎来大洗牌!9月全国统一执行,中小学彻底变天

教育迎来大洗牌!9月全国统一执行,中小学彻底变天

户外阿毽
2026-04-26 18:19:14
要被黑八?东部第一活塞又惜败 坎宁安25+9+6+8失误独木难支

要被黑八?东部第一活塞又惜败 坎宁安25+9+6+8失误独木难支

醉卧浮生
2026-04-28 10:57:54
60岁吴君如近况曝光!与杜德伟分手后嫁陈可辛,19岁女儿比她漂亮

60岁吴君如近况曝光!与杜德伟分手后嫁陈可辛,19岁女儿比她漂亮

代军哥哥谈娱乐
2026-04-27 11:36:17
61岁郭富城行程超负荷!合肥唱跳赶首映,步履蹒跚模样惹全网心疼

61岁郭富城行程超负荷!合肥唱跳赶首映,步履蹒跚模样惹全网心疼

动物奇奇怪怪
2026-04-28 10:17:41
上海迪士尼小镇游客称劝阻吸烟被打后和解,区卫健委:不属于禁烟区域,但有“游烟”相关倡议

上海迪士尼小镇游客称劝阻吸烟被打后和解,区卫健委:不属于禁烟区域,但有“游烟”相关倡议

红星新闻
2026-04-27 16:09:31
独树一帜的钛合金,为何与人类亲密无间?它如何改变人类的生活?

独树一帜的钛合金,为何与人类亲密无间?它如何改变人类的生活?

向航说
2026-04-28 00:55:03
AI爆款短剧《菩提临世》从抖音和红果下架

AI爆款短剧《菩提临世》从抖音和红果下架

新腕儿
2026-04-27 11:15:48
莱温斯基:1995年,我的蓝裙子被总统克林顿脱下,就在白宫办公室

莱温斯基:1995年,我的蓝裙子被总统克林顿脱下,就在白宫办公室

杰丝聊古今
2026-04-11 14:41:31
2026-04-28 11:11:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
18040文章数 49700关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

"探店"网红白冰偷税超900万被查 官方公布案件细节

头条要闻

"探店"网红白冰偷税超900万被查 官方公布案件细节

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

杨幂险遭蒸汽眼罩毁容!伤照曝光…

财经要闻

俞敏洪再遭重击

汽车要闻

领克900大五座正式上市 限时售价25.48万起

态度原创

教育
家居
房产
亲子
本地

教育要闻

戴尔夫妇豪掷10亿美元,这所大学的未来有多亮眼?

家居要闻

江景风格 流动的秩序

房产要闻

信号!海南商业版图,迎来大变局!

亲子要闻

搭档选对能少走一半路

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

无障碍浏览 进入关怀版