网易首页 > 网易号 > 正文 申请入驻

ICCV 2025最佳学生论文 | FlowEdit:告别反演,一种更直接的图像编辑范式,结构保持力SOTA!

0
分享至

文章来源:我爱计算机视觉(ID:aicvml)


刚刚ICCV 2025 大会公布了最佳论文和最佳学生论文,最佳论文由卡内基梅隆大学研究团队摘得,最佳学生论文由以色列理工学院获得,从11000多篇投稿论文中被选中,这些论文有哪些值得关注的点,我们一起来看看。(本文关注的是最佳学生论文,最佳论文解读请参见今天的另一篇文章)

简单来说,我们想让AI根据一句话(比如“把猫变成狗”)来修改图片,同时又尽可能保留原图的结构和风格,这其实并不容易。传统的“先反演再编辑”方法,就像是把一张画拆解成一堆杂乱的颜料点(噪声),然后再用这些颜料点根据新的指令去画一幅新画。这个过程很容易“手抖”,导致最终画面要么不像话,要么丢失了原作的精髓。

而这篇论文提出的 FlowEdit ,则完全跳过了“拆解成颜料点”这一步。它更像一位高明的画家,直接在原画上进行修改,构建了一条从“原始图像”到“目标图像”的直接、平滑的路径。这样做的好处是显而易见的:编辑过程更稳定,对原图结构的破坏更小,效果达到了新的SOTA水平。



  • 论文标题 :FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

  • 作者 :Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli

  • 机构 :以色列理工学院 (Technion – Israel Institute of Technology)

  • 会议 :ICCV 2025 Oral

  • 论文终稿地址 : https://openaccess.thecvf.com/content/ICCV2025/papers/Kulikov_FlowEdit_Inversion-Free_Text-Based_Editing_Using_Pre-Trained_Flow_Models_ICCV_2025_paper.pdf

  • 项目主页 :https://matankleiner.github.io/flowedit/

  • 代码仓库 :https://github.com/fallenshock/FlowEdit

ps.下载该论文并所有ICCV 2025 论文,请在“我爱计算机视觉”公众号后台回复“顶会论文”(小写)。

为何需要“告别反演”?

在深入了解 FlowEdit 之前,我们先快速回顾一下当前主流的AI图像编辑范式。很多方法,比如大家熟知的 SDEdit、Prompt-to-Prompt 等,都依赖于一个叫做“反演”(Inversion)的过程。

这个过程有点像一个“先拆解再重建”的流程:

  1. 反演(拆解) :首先,将原始图片(比如一张老虎的照片)通过一个前向的常微分方程(ODE)过程,一步步“拆解”成一个纯粹的噪声图。这个噪声图可以看作是生成这张图片的“种子”。

  2. 编辑与生成(重建) :然后,用这个“种子”噪声图,结合新的文本指令(比如“把老虎换成猫”),通过一个反向的ODE过程,再一步步“重建”出一张新的图片。


上图生动地展示了“反演编辑”与FlowEdit的路径差异。左侧(a)就是传统的反演路径,需要先走到噪声空间(N(0,1)),再返回。而右侧(c)的FlowEdit则选择了一条更直接的路径。

这个“绕远路”去噪声空间溜达一圈的范式,虽然可行,但存在明显缺陷:

  • 信息损失 :在“拆解”和“重建”的过程中,很容易丢失原始图像的精细结构和布局信息。

  • 错误累积 :反演过程本身可能不完全精确,导致最终生成的图像与原图结构偏差较大,出现不自然的“P图”痕迹。

深入技术:从ODE反演到FlowEdit

为了真正理解FlowEdit的巧妙之处,我们需要深入其数学原理。

技术背景:基于ODE反演的编辑范式

当前许多方法都基于流模型(Flow Models),特别是矫正流(Rectified Flow)。这类模型学习一个含时的速度场(velocity field)V(Z_t, t, C),它可以将一个分布的样本(如高斯噪声)通过求解一个常微分方程(Ordinary Differential Equation, ODE)“输送”到另一个分布(如真实图像)。这里的 Z_tt 时刻的图像状态,C 是文本条件。

基于此,“反演编辑” 的具体技术步骤如下(对应上图a):

  1. 前向过程(反演) :给定源图像 X_src 和源提示 C_src 。我们从 Z_0 = X_src 开始,求解前向ODE: dZ_t = V(Z_t, t, C_src) dt ,直到 t=1 时刻,得到一个理论上与 X_src 对应的噪声向量 Z_1 。这就是所谓的“反演到噪声”。

  2. 后向过程(生成) :拿到这个噪声 Z_1 后,我们换上新的目标提示 C_tar 。从 Z_1 开始,反向求解ODE: dZ_t = V(Z_t, t, C_tar) dt ,从 t=1 回到 t=0 ,最终得到编辑后的图像 X_tar

这个过程虽然理论上可行,但其致命弱点在于,它将源图像和目标图像的关联完全寄托于那个唯一的、在反演时计算出的噪声向量 Z_1 上。任何计算上的不精确都会导致结构信息的丢失。

FlowEdit的核心思想:从“单一路径”到“多路径平均”

FlowEdit的作者首先提出了一个深刻的洞见:上述两步走的“反演编辑”过程,其实等价于一个从 X_srcX_tar直接ODE路径(对应上图b)。这条直接路径的速度场,恰好是目标速度场与源速度场的差值 V_tar - V_src

然而,这条由反演决定的“唯一”直接路径,依然不是最优的。因为它经过了噪声空间的“瓶颈”,会导致不合理的匹配(如下图所示,源分布中的蓝点可能被错误地匹配到目标分布中较远的红点,而不是更近的蓝点),从而增加了“传输成本”,损害了图像结构。


FlowEdit的解决方案(对应上图 Figure 2中的 c)正是为了打破这种僵硬的“唯一路径”。它的核心思想是:不再依赖于某一次具体的反演,而是通过对大量可能的“编辑方向”进行平均,来动态地、启发式地寻找一条更好的路径。

具体步骤如下: 在求解编辑路径的每一步 t,对于当前的中间结果 Z_FE_t

  1. 它并不进行完整的反演,而是构造一个“假设的”带噪源图像 Ž_src_t 。这是通过给原始图像 X_src 混合一个 随机高斯噪声 N_t 得到的。

  2. 基于这个带噪源图像 Ž_src_t 和当前编辑状态 Z_FE_t ,可以推算出一个“假设的”带噪目标图像 Ž_tar_t

  3. 然后,模型分别计算出指向这两个“假设”图像的速度场 V_src(Ž_src_t)V_tar(Ž_tar_t)

  4. 计算出当前这个随机噪声下的“编辑速度”: V_delta = V_tar - V_src

  5. 最关键的一步 :重复上述1-4步多次(每次都用 新的随机噪声 N_t ),然后将得到的多个 V_delta 取平均值

  6. 使用这个平均后的、更鲁棒的“编辑速度”,来更新当前图像 Z_FE_t ,完成ODE的一步积分。

CV君认为,这个“随机采样与平均”的策略是FlowEdit的精髓所在。它不再把宝押在一次反演上,而是通过“集思广益”,综合了大量可能路径的“意见”,从而找到了一条整体上“传输成本”更低、更能保持原始结构的演化路径。这是一种非常聪明的启发式搜索,它让编辑过程变得更加灵活和稳定。

实验效果:眼见为实

理论说再多,不如直接看效果。FlowEdit 在各种复杂的编辑任务上,都展现出了SOTA级别的性能。


无论是物体替换(自行车变Vespa、兔子变小狗)、概念更换(皇冠变礼帽、椰子变棒球),还是更细微的属性修改,FlowEdit都能精准地执行指令,同时几乎完美地保留了背景、光照、姿态等原始图像信息。


比如这个将蛋糕上的“水果”换成“草莓”的例子,FlowEdit不仅准确地添加了草莓,还保持了蛋糕原有的奶油质感和盘子背景。

定量对比:用数据说话

除了肉眼可见的出色效果,FlowEdit在量化指标上也全面超越了基于反演的方法。


在一个“千猫变千狗”的合成数据集实验中,研究者对比了FlowEdit和反演编辑的“传输成本”(即编辑前后图像的差异)。结果显示,FlowEdit的传输成本(MSE 1376 vs 2239, LPIPS 0.15 vs 0.25)远低于反演方法,同时在生成图像的真实性指标(FID/KID)上也表现更优。这有力地证明了其在结构保持上的巨大优势。


上图展示了不同方法在“文本-图像一致性”(CLIP,越高越好)和“结构保持性”(LPIPS,越低越好)上的权衡。FlowEdit(Ours)在两个维度上都取得了最佳的平衡点。


在风格编辑方面,FlowEdit同样游刃有余,可以在动漫、绘画等风格间自由切换,同时保留主体内容。

总结

总的来说,FlowEdit的提出,为基于流模型的文本图像编辑领域带来了一股清新的空气。它不仅在效果和性能上达到了新的SOTA,更重要的是,它提供了一种更优雅、更符合直觉的“直接编辑”新范式。CV君认为,这种“告别反演”的思路,很可能会启发未来更多的研究,并有望被集成到主流的文生图模型(如Stable Diffusion、FLUX)中,让AI“P图”变得更加得心应手。

大家对这种“直接编辑”的思路怎么看?欢迎在评论区留下你的看法!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国米20岁妖星破门,意大利2-0鱼腩,直通美加墨世界杯希望渺茫

国米20岁妖星破门,意大利2-0鱼腩,直通美加墨世界杯希望渺茫

钉钉陌上花开
2025-11-14 06:05:51
夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

冷紫葉
2025-11-13 16:44:28
0分,0分啊!突然降至替补!勇士疑似发生内讧

0分,0分啊!突然降至替补!勇士疑似发生内讧

篮球实战宝典
2025-11-13 22:06:34
金一南曾发表观点:如果战争来了,一大批“办公室将军”将被淘汰

金一南曾发表观点:如果战争来了,一大批“办公室将军”将被淘汰

文史旺旺旺
2025-11-13 21:42:07
日本自民党发声,要求中国解决问题,否则将对薛剑采取坚决措施

日本自民党发声,要求中国解决问题,否则将对薛剑采取坚决措施

云舟史策
2025-11-14 07:23:54
夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

夫妻综艺,被满脸赘肉的陈松伶吓到,整个人面相变了,跟张铎不搭

小娱乐悠悠
2025-11-13 16:06:27
汪小菲的美国餐厅被勒令停业!此前大批顾客投诉用餐后 “恶心头晕、上吐下泻”

汪小菲的美国餐厅被勒令停业!此前大批顾客投诉用餐后 “恶心头晕、上吐下泻”

每日经济新闻
2025-11-13 23:41:28
专家解读:90秒弹射一架歼-15T,福建舰战力值满满

专家解读:90秒弹射一架歼-15T,福建舰战力值满满

齐鲁壹点
2025-11-14 07:18:45
和平小屋后续,贾女士道歉已达成一致,社区书记被停职,当地通报

和平小屋后续,贾女士道歉已达成一致,社区书记被停职,当地通报

鋭娱之乐
2025-11-13 20:47:58
小沢菜穗:除了E级车灯,这个不敬业的演员还有啥吸引你,颜值?

小沢菜穗:除了E级车灯,这个不敬业的演员还有啥吸引你,颜值?

素然追光
2025-11-13 23:50:20
城管砸烂“老兵烧烤”,叫嚣让他随便告,凌晨领导急电:闯大祸了

城管砸烂“老兵烧烤”,叫嚣让他随便告,凌晨领导急电:闯大祸了

悬案解密档案
2025-10-22 09:48:53
官宣!杨瀚森被下放G联赛,出战湖人与太阳比赛,或与詹姆斯交手

官宣!杨瀚森被下放G联赛,出战湖人与太阳比赛,或与詹姆斯交手

球盲姐
2025-11-14 09:24:02
哪些弦外之音是你多年后才醒悟的?网友:好多都没听出来,没眼力

哪些弦外之音是你多年后才醒悟的?网友:好多都没听出来,没眼力

带你感受人间冷暖
2025-11-05 00:05:16
花旗集团大中华区首席经济学家余向荣:人民币汇率或将迎来更大波动,呈现升值趋势

花旗集团大中华区首席经济学家余向荣:人民币汇率或将迎来更大波动,呈现升值趋势

中国经营报
2025-11-13 20:09:16
背后不简单!取消访华、再砸165亿拆除5G,这个代价德国能承受吗?

背后不简单!取消访华、再砸165亿拆除5G,这个代价德国能承受吗?

白梦日记
2025-11-12 21:07:30
西部排名又乱了:勇士创NBA奇迹,火箭收大礼,4队排名互换

西部排名又乱了:勇士创NBA奇迹,火箭收大礼,4队排名互换

篮球大视野
2025-11-13 18:33:50
4-1!哈兰德7战狂轰14球,挪威全胜领跑,晋级世界杯无悬念

4-1!哈兰德7战狂轰14球,挪威全胜领跑,晋级世界杯无悬念

我的护球最独特
2025-11-14 02:54:45
阿里秘密项目被粤菜出卖了?网友:千防万防,没防住食堂

阿里秘密项目被粤菜出卖了?网友:千防万防,没防住食堂

三言科技
2025-11-13 20:18:22
确认了!郇斯楠重磅加盟!预测NBA首轮第12号秀

确认了!郇斯楠重磅加盟!预测NBA首轮第12号秀

篮球实战宝典
2025-11-13 17:31:19
腾讯副总,入职C9大学

腾讯副总,入职C9大学

TOP大学来了
2025-11-13 21:37:04
2025-11-14 09:43:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5232文章数 64596关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

日本驻澳大使:日本非常愿意继续与中方对话 以免误解

头条要闻

日本驻澳大使:日本非常愿意继续与中方对话 以免误解

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

10月各线城市商品住宅销售价格环比下降

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

教育
时尚
亲子
手机
本地

教育要闻

这道三年级思维训练题难倒了很多孩子,求爸、妈、儿各多少岁

别这样P图了,真的好假!

亲子要闻

我的小小男子汉长大了~

手机要闻

IDC发印度Q3报告,vivo第一,OPPO第二

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

无障碍浏览 进入关怀版