网易首页 > 网易号 > 正文 申请入驻

NextStep-1:一次在图像生成上自回归范式的探索

0
分享至



机器之心发布

机器之心编辑部

自回归模型,是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界,从经典的离散序列生成,到结合强大扩散模型的混合范式,每一步都凝聚了社区的智慧。

这些工作,比如 MAR、Fluid、LatentLM 等,为我们带来了巨大的启发,也让我们看到了进一步优化的空间:比如,如何避免离散化带来的信息损失?如何让模型的架构更轻盈、更强大?

带着这些问题,阶跃星辰团队进行了新的尝试,并分享了阶段性成果:NextStep-1

阶跃星辰的初衷是探索一条新的自回归图像生成的路径。NextStep-1 的核心思想是直接在连续的视觉空间中,以自回归方式进行生成

为实现这一点,团队采用了一个轻量的「流匹配头」(Flow Matching Head)。它让模型能够:

  • 学会在连续的视觉空间中直接生成单个图像 Patch,从根本上绕开了作为信息瓶颈的离散化步骤。
  • 模型以自回归的方式,逐一生成所有 patches,最终完成一幅完整的图像。

这一设计带来了另一个显著优势:架构的简洁与纯粹。由于不再需要外部大型扩散模型的 「辅助」,NextStep-1 的整体架构变得高度统一,实现了真正意义上的端到端训练。

阶跃星辰团队认为,NextStep-1 的探索指向了一个有趣且充满潜力的方向。它证明了在不牺牲连续性的前提下,构建一个简洁、高效的自回归模型是完全可行的。

这只是探索的第一步。阶跃星辰选择将 NextStep-1 开源,衷心期待它能引发更多有价值的讨论,并希望能与社区的研究者一起,继续推动生成技术的演进



  • 论文链接:https://arxiv.org/abs/2508.10711
  • GitHub 链接:https://github.com/stepfun-ai/NextStep-1
  • Hugging Face 模型:https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

动因探究:背后的技术支撑

整体架构

NextStep-1 的架构如图 1 所示,其核心是一个强大的 Transformer 骨干网络(14B 参数),辅以一个轻量级的流匹配头(Flow Matching Head,157M 参数),用于直接生成连续的图像 Patch。



图 1 NextStep-1 的架构图

这一结构极其简洁、纯粹,它带来了两大解放:

  • 解放了对离散化的依赖:不再需要图像 Tokenizer 进行离散化,直接在连续空间操作。
  • 解放了对外部扩散模型的依赖:不再需要外接大型扩散模型作为 「解码器」,实现了端到端的自回归训练。

核心发现

在探索 NextStep-1 的过程中,阶跃星辰团队获得了两个关键发现,它们不仅解释了模型为何高效,也为未来的研究提供了新的思路。

发现一:真正的「艺术家」 是 Transformer

在阶跃星辰的框架中,Transformer 是 「主创」,流匹配头更像是「画笔」。团队通过实验发现,流匹配头的尺寸大小( 157M -> 528M),对最终图像质量影响很小。这有力地证明了,核心的生成建模与逻辑推理等 「重活」,完全由 Transformer 承担。流匹配头则作为一个高效轻量的采样器,忠实地将 Transformer 的潜在预测 「翻译」 成图像 Patch。

发现二:Tokenizer 的「炼金术」—— 稳定与质量的关键

在连续视觉 Token 上的操作带来了独特的稳定性挑战,团队发现两个关键 「炼金术」:

  • 通道归一化 (Channel-Wise Normalization) 是稳定性的「压舱石」:通过引入简单的通道归一化,极其有效地稳定了 Token 的统计特性,即使在高 CFG 指导强度下,也能确保生成清晰、无伪影的图像。
  • 「更多噪声」 竟能带来「更好质量」:一个反直觉的发现是,训练 Tokenizer 时加入更多噪声正则化,反而能显著提升最终生成图像的质量。阶跃星辰团队推断,这有助于塑造一个更鲁棒、分布更均匀的潜在空间,为自回归主模型提供更理想的工作平台。

眼见为实:高保真的视觉生成和编辑能力

NextStep-1 实现了高保真的文生图的生成,同时具有强大的图像编辑能力,覆盖多种编辑操作(如物体增删、背景修改、动作修改、风格迁移等),并能理解用户的日常语言指令,实现形式自由的图像编辑。



图 2 展示 NextStep-1 全面的图像生成和编辑能力

硬核实力:权威 Benchmark 下的表现

除了直观的视觉效果,阶跃星辰团队也在多个行业公认的 Benchmark 上对 NextStep-1 进行了严格的评估。结果表明,

  • 综合性能在自回归模型中达到了新的 SOTA(State-of-the-Art)水平
  • 在多个 benchmark 上已能与顶尖的扩散模型(Diffusion Models)直接竞争



表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能



表 2 NextStep-1 在 OneIG 上的性能



表 3 NextStep-1 在 WISE 上的性能



表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

局限性与未来展望

NextStep-1 是阶跃星辰团队对构建简洁的高保真生成模型的一次真诚探索。它证明了,在不牺牲连续性的前提下,构建一个纯粹的端到端自回归模型是完全可行的。阶跃星辰相信,这条 「简洁」 的道路,为多模态生成领域提供了有价值的新视角。

阶跃星辰团队深知这只是探索的开始,前路依然广阔。作为一个对新范式的初步探索,NextStep-1 在展现出巨大潜力的同时,也让团队识别出了一些亟待解决的挑战。我们在此坦诚地列出这些观察,并视其为未来工作的重要方向。

生成过程中不稳定

NextStep-1 成功证明了自回归模型可以在高维连续潜在空间中运行,并达到媲美扩散模型的生成质量,但这条路径也带来了独特的稳定性挑战。观察到,当模型的潜在空间从低维(如 4 通道)扩展到更高维(如 16 通道)时,尽管后者能表达更丰富的细节,但也偶发性地出现了一些生成 「翻车」的情况(如图 3 所示)。



图 3 失败的例子,展示图像生成过程中一些暴露出的问题

虽然其根本原因仍有待进一步探究,但团队推测可能存在以下因素:

  • 局部噪声 / 块状伪影: 可能源于生成后期出现的数值不稳定性。
  • 全局噪声: 可能反映了模型尚未完全收敛,需要更多的训练来优化。
  • 网格状伪影: 可能揭示了当前一维位置编码在精确捕捉二维空间关系上的局限性。

顺序解码带来的推理延迟

自回归模型的顺序解码特性,是其推理速度的主要瓶颈。研究团队对单个 Token 在 H100 GPU 上的延迟进行了理论分析(如表 5 所示),结果表明:

  • 主要瓶颈在于大模型(LLM)骨干网络的顺序解码
  • 流匹配头(Flow Matching Head)的多步采样过程也构成了不可忽视的开销



表 5 H100 上生成每个 token 的理论延迟速度 ( batch size 为 1 )

这一观察指明了两个明确的加速方向:

  • 优化流匹配头:通过减小其参数量、应用模型蒸馏以实现少步生成,或采用更先进的少步采样器。
  • 加速自回归主干:借鉴大语言模型领域的最新进展,如将多 Token 预测等技术,适配到图像 Token 的生成中。

高分辨率生成的挑战

在扩展到高分辨率图像生成方面,与技术生态已相当成熟的扩散模型相比,阶跃星辰团队的框架面临两大挑战:

  • 收敛效率:自回归模型的严格顺序生成特性,在更高分辨率下需要更多的训练步数才能收敛。相比之下,扩散模型在每次迭代中并行地优化整张图像,能更直接地利用二维空间归纳偏置。
  • 技术迁移难度:为高分辨率扩散模型开发的先进技术(如 timestep shift)难以直接迁移。其根本原因在于,流匹配头主要扮演一个轻量级采样器的角色,而核心的生成建模由 Transformer 骨干网络完成,因此单纯修改采样过程对最终输出的影响有限。

因此,基于 patch-wise 的图像自回归模型的高分辨率生成是一个重要探索方向。

监督微调(SFT)的独特挑战

团队观察到,当使用小规模、高质量的数据集进行微调时,训练动态会变得极不稳定

扩散模型通常仅需数千个样本,就能稳定地适应目标数据分布,同时保持良好的泛化生成能力。相比之下,阶跃星辰的 SFT 过程:

  • 依赖大规模数据:只有在百万样本规模的数据集上训练时,才能观察到显著且稳定的提升。
  • 在小数据集上表现脆弱:当使用小规模数据集时,模型会陷入一种 「岌岌可危」 的平衡状态。它要么收效甚微,几乎没有变化;要么突然 「崩溃」,完全过拟合到目标数据分布上,丧失了原有的泛化能力。

因此,如何在一个小规模数据集上,找到一个既能对齐目标风格、又能保留通用生成能力的 「甜蜜点」(sweet spot)检查点,对阶跃星辰团队而言仍然是一个重大的挑战。

阶跃星辰团队相信,坦诚地面对这些挑战,是推动领域前进的第一步。

NextStep-1 的开源是团队为此付出的努力,也希望能成为社区进一步研究的基石。阶跃星辰团队期待与全球的研究者和开发者交流与合作,共同推动自回归生成技术向前发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子来到广西医院,从尿道内取出:圆筒状、笔芯状、竹签状异物!他说:长达20年

男子来到广西医院,从尿道内取出:圆筒状、笔芯状、竹签状异物!他说:长达20年

南国今报
2026-01-24 14:31:01
和平委员会结局或已注定?签字仪式不到20国,中俄英法没一个到场

和平委员会结局或已注定?签字仪式不到20国,中俄英法没一个到场

通文知史
2026-01-23 20:50:03
18岁全红婵正式回归!身高近170cm留长发,与师姐贴肩合影超暖

18岁全红婵正式回归!身高近170cm留长发,与师姐贴肩合影超暖

体育见习官
2025-12-30 09:23:52
赴日中国游客骤减45%,日本转靠欧美游客填补缺口:破4000万大关

赴日中国游客骤减45%,日本转靠欧美游客填补缺口:破4000万大关

土澳的故事
2026-01-20 22:21:57
5万吨镍矿船驶往中国途中沉没

5万吨镍矿船驶往中国途中沉没

财闻
2026-01-24 21:09:14
商业航天: 航天科技集团A股公司梳理

商业航天: 航天科技集团A股公司梳理

风风顺
2026-01-25 01:05:03
哈尔滨停车11分钟收16元!网友怒怼:涨到250元才配振兴东北?

哈尔滨停车11分钟收16元!网友怒怼:涨到250元才配振兴东北?

老马拉车莫少装
2026-01-25 00:06:47
什么情况?出31年首轮等,湖人得到二防阵悍将?

什么情况?出31年首轮等,湖人得到二防阵悍将?

午夜搭车a
2026-01-11 08:59:00
2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

复转这些年
2026-01-08 23:43:01
2月开始好运爆棚,金钱赚满库,心想事成的生肖,恭喜上榜

2月开始好运爆棚,金钱赚满库,心想事成的生肖,恭喜上榜

人閒情事
2026-01-20 13:03:29
法媒提欧洲杀手锏,特朗普通告全球:欧洲敢抛美债,美国就会报复

法媒提欧洲杀手锏,特朗普通告全球:欧洲敢抛美债,美国就会报复

小鬼头体育
2026-01-25 06:27:33
官方发文,高调官宣赵丽颖喜讯,她让冯绍峰和整个娱乐圈刮目相看

官方发文,高调官宣赵丽颖喜讯,她让冯绍峰和整个娱乐圈刮目相看

林雁飞
2026-01-24 14:13:55
瓜迪奥拉怒怼裁判首秀,喊话韦伯出面解释

瓜迪奥拉怒怼裁判首秀,喊话韦伯出面解释

浮萍足球
2026-01-25 05:35:07
冠军联赛:张安达两连鞭轻取徐思夺第七组冠军,中国三人进胜者组

冠军联赛:张安达两连鞭轻取徐思夺第七组冠军,中国三人进胜者组

世界体坛观察家
2026-01-25 06:22:35
老戏骨王劲松:没儿没女、没绯闻,熬了30年,终于靠演技杀疯了!

老戏骨王劲松:没儿没女、没绯闻,熬了30年,终于靠演技杀疯了!

小熊侃史
2026-01-25 07:05:07
济南鲁菜馆口碑优选榜单!本地人认可的6家馆子,味道正,不踩雷

济南鲁菜馆口碑优选榜单!本地人认可的6家馆子,味道正,不踩雷

马蹄烫嘴说美食
2026-01-25 04:07:49
74岁刘晓庆传"坏消息",意外摔倒后走不动路,令人担心的事发生了

74岁刘晓庆传"坏消息",意外摔倒后走不动路,令人担心的事发生了

寒士之言本尊
2025-12-04 23:17:14
新郎晒44张婚纱照,仅有6张新娘正脸,其余大半是母亲,女方回应

新郎晒44张婚纱照,仅有6张新娘正脸,其余大半是母亲,女方回应

奇思妙想草叶君
2026-01-23 18:11:50
徒弟曾骂聂卫平看不懂棋,葬礼都不来参加,背后恩怨超过50年

徒弟曾骂聂卫平看不懂棋,葬礼都不来参加,背后恩怨超过50年

老土历史
2026-01-22 17:21:52
“你比师母还敢穿!”女博士晒日常穿搭,被看穿:想擦边还不承认

“你比师母还敢穿!”女博士晒日常穿搭,被看穿:想擦边还不承认

妍妍教育日记
2026-01-03 14:53:15
2026-01-25 07:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

教育
亲子
游戏
时尚
旅游

教育要闻

意外!10岁女儿凌晨还在赶作业,期末她忽然不想上学

亲子要闻

哄睡新妙招!吹风机声+束带,宝宝一会儿就睡着了,网友:为什么孩子大了才告诉我!

《轮回之兽》的优化不会像《宝可梦》系列那样差

冬天最佳“显瘦”公式:上短+下长

旅游要闻

雪落颐和,一湖晨光藏尽中式美学的终极浪漫!

无障碍浏览 进入关怀版