网易首页 > 网易号 > 正文 申请入驻

解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

0
分享至



尽管扩散模型(Diffusion Model)与流匹配(Flow Matching)已经把文本到图像生成(Text-to-Image, T2I)推向了更高的视觉质量与可控性,但他们通常在推理时需要数十步网络迭代,限制了其对于一些需要低延迟,Real-Time 的应用。

为了把推理步数降下来,现有路线通常依赖知识蒸馏(Distillation):先训练一个多步教师模型,再把能力迁移到少步学生模型。但这条路的代价同样明显 —— 既依赖预训练教师,又引入了额外的训练开销,并在「从零训练(from scratch)」与「极少步高质量」之间留下了长期空白。

近日,香港大学(The University of Hong Kong)与 Adobe Research 联合发布 Self-E(Self-Evaluating Model):一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接:让同一个模型在极少步数也能生成语义清晰、结构稳定的图像,同时在 50 步等常规设置下保持顶级质量,并且随着步数增加呈现单调提升。



  • 论文标题:Self-Evaluation Unlocks Any-Step Text-to-Image Generation
  • 项目主页:https://xinyu-andy.github.io/SelfE-project/
  • 论文 PDF:https://www.arxiv.org/pdf/2512.22374



引言:从「轨迹匹配」到「落点评估」

扩散 / 流匹配范式本质上是在学习一张「局部向量场」:给定噪声状态,预测下一步该往哪里走。这个监督信号在「小步、密集积分」时非常有效,但一旦尝试「大步跳跃」,误差会被轨迹曲率放大,生成往往滑向平均解、语义漂移或结构坍塌。


Self-E 的切入点是一个根本上的范式改变:我们能否不再执着于「每一步走得对不对」,而是把训练重心转向「落点好不好」?也就是把目标从「轨迹匹配(trajectory matching)」转变为「落点评估(destination/landing evaluation)」。

换句话说,传统 Diffusion Model 训练强调「在起点对齐局部方向」;Self-E 强调「在落点评估结果并给出纠偏方向」。监督位置的改变,带来了训练信号性质的改变:从静态监督变成动态反馈。

作者在项目主页用动图展示了这两者的区别:





这也是为什么模型在测试阶段有少步推理能力:扩散模型在测试时只能逐步跟随当前点预测的最好局部路径,最终走到全局最优;而 Self-E 在训练阶段就逐步学会了走向全局最优的落点。

这也不同于目前多数少步生成模型所采用的学习轨迹的积分,如 Consistency Model, Mean Flow;Self-E不局限于沿着预定义的轨迹走,而是直接关心每步结果好不好,对不对。

Self-E 的核心:两条互补训练信号(Two Complementary Signals)

Self-E 用同一个网络在两种「模式」下工作:一方面像 Flow Matching 一样从真实数据学习分布的局部结构;另一方面用「模型自身正在学到的局部估计」去评估自生成样本,形成自反馈闭环。

1)从数据学习:Learning from Data

  • 学什么:分布的局部结构(local score /velocity 的期望形式),即「在邻域内密度如何变化」。
  • 怎么学:采样真实图像与文本条件,加噪得到噪声输入,用条件流匹配式目标训练模型去预测干净样本(或等价参数化),提供稳定的局部监督。

2)自我评估学习:Learning by Self-Evaluation

  • 学什么:分布层面的正确性(distribution-level correctness)——生成样本是否与真实分布一致、是否与描述的文本对齐。
  • 关键机制:模型先做一次「长距离跳跃」(从起始时间步跳到落点时间步),然后在落点处用自己当前学到的局部估计产生一个「方向信号」,告诉生成样本应如何移动才能进入更高质量、更符合文本的概率分布区域。
  • 最大差异:评估信号不来自外部教师(pretrained diffusion teacher),而是来自模型自身的在训估计(dynamic self-teacher)。



训练细节:把「自我评估」做成可反传的学习信号

Self-E 在理论上把评估写成分布级目标(例如以反向 KL 为代表的分布匹配视角),但真正落地的难点在于:真实分布与生成分布的 score 都不可得。

Self-E 的关键观察是:模型在「从数据学习」阶段会逐步学到某种条件期望形式,而该量与 score 通过 Tweedie’s formula 存在联系,因此可以用「正在训练的模型」去近似提供评估方向。

在实现上,作者发现理论目标中包含「classifier score term」等项,并实证发现仅使用 classifier score 项就足够有效,甚至更利于收敛,从而避免早期还要额外训练一个用于 fake score 的模型分支。



为了把这种「评估方向」变成可训练的损失,Self-E 采用 stop-gradient 的双前向构造 pseudo-target,通过最小化 MSE 诱导出与所需方向一致的梯度;并在最终目标中将数据驱动损失与自评估损失进行混合加权。



最终,我们可以用一个统一的形式来训练:



其中,等式右边第一项正是 Learning-from-data 的目标,而第二项对应 Self-Evaluation。

推理:任意步数(Any-Step Inference),并随步数单调变好

在推理阶段,Self-E 与扩散 / 流匹配一样进行迭代去噪,但不同之处在于:由于训练中已经显式学习「长距离落点」的质量与纠偏方向,它可以在非常少的步数下保持可用的语义与结构,同时在增加步数时继续提升细节与真实感。

性能:GenEval 全步数段 SOTA,少步优势尤其显著

在 GenEval 基准上,Self-E 对比其他方法取得全面领先,并且随着步数增加呈现单调提升。更关键的是少步区间的「断层式」优势:在 2-step 设置下,Self-E 相比当时最佳对比方法的提升约为+0.12(0.7531 相比 0.6338),而多种传统扩散 / 流匹配模型在 2-step 下几乎无法生成可用结果。





另一角度解读:把「预训练」与「反馈学习」拉到同一条线上

从更宏观的视角看,Self-E 把训练过程组织成一个类似强化学习中的「环境 — 智能体(environment–agent)闭环」:

  • Data Phase:模型从真实数据学习分布的局部结构,得到越来越可靠的局部估计(可视作学习环境,并给出评估)。
  • Self-Evaluation Phase:模型提出长距离跳跃方案(可视作智能体执行动作),在落点处用内部估计产生反馈方向并更新参数(可视作获得环境的反馈)。
  • Closed Loop:评估器随训练变强,反馈信号质量随之提升,反过来又进一步强化少步生成能力。

作者在项目主页指出:这种内部评估器在角色上接近「可查询的学习型奖励模型」,为后续把强化学习(RL)更系统地引入视觉生成训练提供了新的接口与想象空间。

结语

Self-E 的价值不只是在「少步生成」这一条指标上跑得更快,而在于它把文生图训练范式从「沿着既定轨迹走」推进到「学会评估落点并自我纠偏」:在不依赖预训练教师蒸馏的前提下,让单一模型同时覆盖极低时延与高质量长轨迹两种需求,并在不同推理预算下保持可扩展的性能曲线。

对内容创作与生成式系统落地而言,「one model, any compute」的工程意义非常直接:同一个 checkpoint 可以按场景动态选择步数 —— 交互式场景用 1~4 步追求即时反馈,高质量离线渲染用 50 步追求细节上限;而训练侧则绕开了教师蒸馏链路,把「从零训练 + 少步推理」真正拉回到可讨论、可复现、可扩展的主流路径上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1-1,2-1!曼城拿下4分!夺冠条件曝光,阿森纳7大优势,期待加冕

1-1,2-1!曼城拿下4分!夺冠条件曝光,阿森纳7大优势,期待加冕

小徐讲八卦
2026-04-21 06:00:42
现实是最大的荒诞:千亿平台的冲突始末

现实是最大的荒诞:千亿平台的冲突始末

晚点LatePost
2026-04-21 15:05:32
伊朗总统称战争不符合任何人的利益

伊朗总统称战争不符合任何人的利益

财联社
2026-04-20 15:06:12
尴尬!董宇辉被吐槽:喜欢支教,一天没去;不喜欢带货,一天没停

尴尬!董宇辉被吐槽:喜欢支教,一天没去;不喜欢带货,一天没停

火山詩话
2026-04-21 06:59:47
白酒立大功?研究发现:经常喝白酒的老年人或有几个好处

白酒立大功?研究发现:经常喝白酒的老年人或有几个好处

岐黄传人孙大夫
2026-04-21 16:00:03
马蹄露自荐做团长后续!张敬轩粉丝不忍了,开始发文攻击了

马蹄露自荐做团长后续!张敬轩粉丝不忍了,开始发文攻击了

小徐讲八卦
2026-04-19 11:27:40
日本7.7 级强震后,高市得罪 4 邻国,谁还愿救日本核电站?

日本7.7 级强震后,高市得罪 4 邻国,谁还愿救日本核电站?

眼界看视野
2026-04-21 09:49:11
演过了焦泊乔,眼神防守低级走步,事后吊儿郎当,这在报复杜锋?

演过了焦泊乔,眼神防守低级走步,事后吊儿郎当,这在报复杜锋?

后仰大风车
2026-04-21 08:20:13
中国海关:2026年一季度俄罗斯对华石油出口增长31%

中国海关:2026年一季度俄罗斯对华石油出口增长31%

俄罗斯卫星通讯社
2026-04-21 15:10:16
31岁的美国退役军人,枪杀了7名未成年子

31岁的美国退役军人,枪杀了7名未成年子

中国新闻周刊
2026-04-21 18:13:44
瑞丽市蓝天救援队副队长陈延寿因公牺牲,年仅39岁,其在搜救一名比利时失踪男子时突发急性高反

瑞丽市蓝天救援队副队长陈延寿因公牺牲,年仅39岁,其在搜救一名比利时失踪男子时突发急性高反

极目新闻
2026-04-21 11:25:38
带着脚镣的匪首在行刑时竟成功夺枪,横扫主席台,造成多人伤亡

带着脚镣的匪首在行刑时竟成功夺枪,横扫主席台,造成多人伤亡

兴趣知识
2026-04-19 16:15:01
杨世元条款出炉!媒体人晒脑震荡方案:被换下球员6天不得出场

杨世元条款出炉!媒体人晒脑震荡方案:被换下球员6天不得出场

奥拜尔
2026-04-21 19:02:39
汪小菲一锤定音,马筱梅搬回原先别墅,不得去打扰亲妈张兰

汪小菲一锤定音,马筱梅搬回原先别墅,不得去打扰亲妈张兰

匹夫来搞笑
2026-04-21 17:23:43
被人民日报点赞的“教室火锅”,却被家长疯狂举报,老师错在越界

被人民日报点赞的“教室火锅”,却被家长疯狂举报,老师错在越界

妍妍教育日记
2026-04-21 10:30:03
赵心童VS丁俊晖,比赛时间敲定+央视全程直播,进8强能拿多少奖金

赵心童VS丁俊晖,比赛时间敲定+央视全程直播,进8强能拿多少奖金

体育大学僧
2026-04-21 09:47:46
徐帆回应离婚8个月,冯小刚状态曝光,和养女徐朵贴脸引发争议

徐帆回应离婚8个月,冯小刚状态曝光,和养女徐朵贴脸引发争议

阿尢说历史
2026-04-21 01:36:48
炸穿台湾政坛!蒋友松强行迁走两蒋悬棺,半世纪漂泊终要归乡

炸穿台湾政坛!蒋友松强行迁走两蒋悬棺,半世纪漂泊终要归乡

陈漎侃故事
2026-04-14 17:28:18
苏林回国火车刚开动就变天?

苏林回国火车刚开动就变天?

果妈聊娱乐
2026-04-20 10:17:41
特朗普对全球下令,180天内废掉中方王牌,美媒:中国在霸凌美国

特朗普对全球下令,180天内废掉中方王牌,美媒:中国在霸凌美国

壹知眠羊
2026-04-20 09:31:14
2026-04-21 20:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12820文章数 142633关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

六层楼高大树"偷"走家里光线 女子起诉隔壁小区业委会

头条要闻

六层楼高大树"偷"走家里光线 女子起诉隔壁小区业委会

体育要闻

62岁,成为中国足坛最火的人

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

教育
旅游
艺术
本地
公开课

教育要闻

央视发布:春招企业需求排名TOP5专业

旅游要闻

欢迎来到“家家泉水户户垂杨”体验区——济南!“沿着黄河遇见海”全国旅行商山东行——“相约文旅盛会 发现宝藏山东”采风活动带你了解不一样的济南~

艺术要闻

任伯年写竹,真带劲

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版