网易首页 > 网易号 > 正文 申请入驻

ICCV 2025最佳学生论文 | FlowEdit:告别反演,一种更直接的图像编辑范式,结构保持力SOTA!

0
分享至

文章来源:我爱计算机视觉(ID:aicvml)


刚刚ICCV 2025 大会公布了最佳论文和最佳学生论文,最佳论文由卡内基梅隆大学研究团队摘得,最佳学生论文由以色列理工学院获得,从11000多篇投稿论文中被选中,这些论文有哪些值得关注的点,我们一起来看看。(本文关注的是最佳学生论文,最佳论文解读请参见今天的另一篇文章)

简单来说,我们想让AI根据一句话(比如“把猫变成狗”)来修改图片,同时又尽可能保留原图的结构和风格,这其实并不容易。传统的“先反演再编辑”方法,就像是把一张画拆解成一堆杂乱的颜料点(噪声),然后再用这些颜料点根据新的指令去画一幅新画。这个过程很容易“手抖”,导致最终画面要么不像话,要么丢失了原作的精髓。

而这篇论文提出的 FlowEdit ,则完全跳过了“拆解成颜料点”这一步。它更像一位高明的画家,直接在原画上进行修改,构建了一条从“原始图像”到“目标图像”的直接、平滑的路径。这样做的好处是显而易见的:编辑过程更稳定,对原图结构的破坏更小,效果达到了新的SOTA水平。



  • 论文标题 :FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

  • 作者 :Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli

  • 机构 :以色列理工学院 (Technion – Israel Institute of Technology)

  • 会议 :ICCV 2025 Oral

  • 论文终稿地址 : https://openaccess.thecvf.com/content/ICCV2025/papers/Kulikov_FlowEdit_Inversion-Free_Text-Based_Editing_Using_Pre-Trained_Flow_Models_ICCV_2025_paper.pdf

  • 项目主页 :https://matankleiner.github.io/flowedit/

  • 代码仓库 :https://github.com/fallenshock/FlowEdit

ps.下载该论文并所有ICCV 2025 论文,请在“我爱计算机视觉”公众号后台回复“顶会论文”(小写)。

为何需要“告别反演”?

在深入了解 FlowEdit 之前,我们先快速回顾一下当前主流的AI图像编辑范式。很多方法,比如大家熟知的 SDEdit、Prompt-to-Prompt 等,都依赖于一个叫做“反演”(Inversion)的过程。

这个过程有点像一个“先拆解再重建”的流程:

  1. 反演(拆解) :首先,将原始图片(比如一张老虎的照片)通过一个前向的常微分方程(ODE)过程,一步步“拆解”成一个纯粹的噪声图。这个噪声图可以看作是生成这张图片的“种子”。

  2. 编辑与生成(重建) :然后,用这个“种子”噪声图,结合新的文本指令(比如“把老虎换成猫”),通过一个反向的ODE过程,再一步步“重建”出一张新的图片。


上图生动地展示了“反演编辑”与FlowEdit的路径差异。左侧(a)就是传统的反演路径,需要先走到噪声空间(N(0,1)),再返回。而右侧(c)的FlowEdit则选择了一条更直接的路径。

这个“绕远路”去噪声空间溜达一圈的范式,虽然可行,但存在明显缺陷:

  • 信息损失 :在“拆解”和“重建”的过程中,很容易丢失原始图像的精细结构和布局信息。

  • 错误累积 :反演过程本身可能不完全精确,导致最终生成的图像与原图结构偏差较大,出现不自然的“P图”痕迹。

深入技术:从ODE反演到FlowEdit

为了真正理解FlowEdit的巧妙之处,我们需要深入其数学原理。

技术背景:基于ODE反演的编辑范式

当前许多方法都基于流模型(Flow Models),特别是矫正流(Rectified Flow)。这类模型学习一个含时的速度场(velocity field)V(Z_t, t, C),它可以将一个分布的样本(如高斯噪声)通过求解一个常微分方程(Ordinary Differential Equation, ODE)“输送”到另一个分布(如真实图像)。这里的 Z_tt 时刻的图像状态,C 是文本条件。

基于此,“反演编辑” 的具体技术步骤如下(对应上图a):

  1. 前向过程(反演) :给定源图像 X_src 和源提示 C_src 。我们从 Z_0 = X_src 开始,求解前向ODE: dZ_t = V(Z_t, t, C_src) dt ,直到 t=1 时刻,得到一个理论上与 X_src 对应的噪声向量 Z_1 。这就是所谓的“反演到噪声”。

  2. 后向过程(生成) :拿到这个噪声 Z_1 后,我们换上新的目标提示 C_tar 。从 Z_1 开始,反向求解ODE: dZ_t = V(Z_t, t, C_tar) dt ,从 t=1 回到 t=0 ,最终得到编辑后的图像 X_tar

这个过程虽然理论上可行,但其致命弱点在于,它将源图像和目标图像的关联完全寄托于那个唯一的、在反演时计算出的噪声向量 Z_1 上。任何计算上的不精确都会导致结构信息的丢失。

FlowEdit的核心思想:从“单一路径”到“多路径平均”

FlowEdit的作者首先提出了一个深刻的洞见:上述两步走的“反演编辑”过程,其实等价于一个从 X_srcX_tar直接ODE路径(对应上图b)。这条直接路径的速度场,恰好是目标速度场与源速度场的差值 V_tar - V_src

然而,这条由反演决定的“唯一”直接路径,依然不是最优的。因为它经过了噪声空间的“瓶颈”,会导致不合理的匹配(如下图所示,源分布中的蓝点可能被错误地匹配到目标分布中较远的红点,而不是更近的蓝点),从而增加了“传输成本”,损害了图像结构。


FlowEdit的解决方案(对应上图 Figure 2中的 c)正是为了打破这种僵硬的“唯一路径”。它的核心思想是:不再依赖于某一次具体的反演,而是通过对大量可能的“编辑方向”进行平均,来动态地、启发式地寻找一条更好的路径。

具体步骤如下: 在求解编辑路径的每一步 t,对于当前的中间结果 Z_FE_t

  1. 它并不进行完整的反演,而是构造一个“假设的”带噪源图像 Ž_src_t 。这是通过给原始图像 X_src 混合一个 随机高斯噪声 N_t 得到的。

  2. 基于这个带噪源图像 Ž_src_t 和当前编辑状态 Z_FE_t ,可以推算出一个“假设的”带噪目标图像 Ž_tar_t

  3. 然后,模型分别计算出指向这两个“假设”图像的速度场 V_src(Ž_src_t)V_tar(Ž_tar_t)

  4. 计算出当前这个随机噪声下的“编辑速度”: V_delta = V_tar - V_src

  5. 最关键的一步 :重复上述1-4步多次(每次都用 新的随机噪声 N_t ),然后将得到的多个 V_delta 取平均值

  6. 使用这个平均后的、更鲁棒的“编辑速度”,来更新当前图像 Z_FE_t ,完成ODE的一步积分。

CV君认为,这个“随机采样与平均”的策略是FlowEdit的精髓所在。它不再把宝押在一次反演上,而是通过“集思广益”,综合了大量可能路径的“意见”,从而找到了一条整体上“传输成本”更低、更能保持原始结构的演化路径。这是一种非常聪明的启发式搜索,它让编辑过程变得更加灵活和稳定。

实验效果:眼见为实

理论说再多,不如直接看效果。FlowEdit 在各种复杂的编辑任务上,都展现出了SOTA级别的性能。


无论是物体替换(自行车变Vespa、兔子变小狗)、概念更换(皇冠变礼帽、椰子变棒球),还是更细微的属性修改,FlowEdit都能精准地执行指令,同时几乎完美地保留了背景、光照、姿态等原始图像信息。


比如这个将蛋糕上的“水果”换成“草莓”的例子,FlowEdit不仅准确地添加了草莓,还保持了蛋糕原有的奶油质感和盘子背景。

定量对比:用数据说话

除了肉眼可见的出色效果,FlowEdit在量化指标上也全面超越了基于反演的方法。


在一个“千猫变千狗”的合成数据集实验中,研究者对比了FlowEdit和反演编辑的“传输成本”(即编辑前后图像的差异)。结果显示,FlowEdit的传输成本(MSE 1376 vs 2239, LPIPS 0.15 vs 0.25)远低于反演方法,同时在生成图像的真实性指标(FID/KID)上也表现更优。这有力地证明了其在结构保持上的巨大优势。


上图展示了不同方法在“文本-图像一致性”(CLIP,越高越好)和“结构保持性”(LPIPS,越低越好)上的权衡。FlowEdit(Ours)在两个维度上都取得了最佳的平衡点。


在风格编辑方面,FlowEdit同样游刃有余,可以在动漫、绘画等风格间自由切换,同时保留主体内容。

总结

总的来说,FlowEdit的提出,为基于流模型的文本图像编辑领域带来了一股清新的空气。它不仅在效果和性能上达到了新的SOTA,更重要的是,它提供了一种更优雅、更符合直觉的“直接编辑”新范式。CV君认为,这种“告别反演”的思路,很可能会启发未来更多的研究,并有望被集成到主流的文生图模型(如Stable Diffusion、FLUX)中,让AI“P图”变得更加得心应手。

大家对这种“直接编辑”的思路怎么看?欢迎在评论区留下你的看法!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雀巢奶粉涉菌污染全球召回,瑞士称问题原料来自中国供应商,系全球三大ARA生产商之一

雀巢奶粉涉菌污染全球召回,瑞士称问题原料来自中国供应商,系全球三大ARA生产商之一

药识局
2026-01-25 13:18:15
黄景瑜官宣上太空刚过一天,航天公司被扒底朝天,离谱事接连发生

黄景瑜官宣上太空刚过一天,航天公司被扒底朝天,离谱事接连发生

一娱三分地
2026-01-24 19:27:30
张雨绮被实名举报代孕、插足婚姻,据称已退出辽宁春晚;前夫袁巴元前妻时隔1年公布警方调查结果

张雨绮被实名举报代孕、插足婚姻,据称已退出辽宁春晚;前夫袁巴元前妻时隔1年公布警方调查结果

大风新闻
2026-01-26 09:51:06
新址被否,搬迁无望?嫣然医院又被大佬盯上,李亚鹏真正难题降临

新址被否,搬迁无望?嫣然医院又被大佬盯上,李亚鹏真正难题降临

离离言几许
2026-01-26 16:44:47
9.6万,特斯拉的车主懵了...

9.6万,特斯拉的车主懵了...

放毒
2026-01-26 17:28:57
王健已任辽宁省政协党组副书记,此前任省委常委、常务副省长

王健已任辽宁省政协党组副书记,此前任省委常委、常务副省长

澎湃新闻
2026-01-26 20:03:15
6名中国男子日本滑雪被困“死亡谷”,历时20小时获救,事发前一日刚有人脱困,大使馆两度发文提醒注意安全

6名中国男子日本滑雪被困“死亡谷”,历时20小时获救,事发前一日刚有人脱困,大使馆两度发文提醒注意安全

极目新闻
2026-01-26 18:36:30
重磅!关税,110%下调至40%!

重磅!关税,110%下调至40%!

魏家东
2026-01-26 13:22:44
2点原因!杨鸣坚决辞职,签不来胡金秋前队友,赵继伟无心恋战

2点原因!杨鸣坚决辞职,签不来胡金秋前队友,赵继伟无心恋战

体坛大事记
2026-01-26 11:30:06
丹麦网友众筹1万亿美元收购加州,想实现“牛油果自由”!美网友:俄勒冈州能加入吗

丹麦网友众筹1万亿美元收购加州,想实现“牛油果自由”!美网友:俄勒冈州能加入吗

红星新闻
2026-01-26 17:52:54
辽篮官宣:杨鸣身体原因辞职 充分沟通尊重个人意愿 乌戈接任

辽篮官宣:杨鸣身体原因辞职 充分沟通尊重个人意愿 乌戈接任

醉卧浮生
2026-01-26 16:29:44
国务院:免去李旭的新疆生产建设兵团副司令员、中国新建集团公司副总经理职务

国务院:免去李旭的新疆生产建设兵团副司令员、中国新建集团公司副总经理职务

中国能源网
2026-01-26 17:36:06
2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

风向观察
2026-01-25 12:07:51
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
英法德站队美军,7国包围伊朗,普京通告全球,俄下决心抗美援伊

英法德站队美军,7国包围伊朗,普京通告全球,俄下决心抗美援伊

战旗红
2026-01-23 22:10:09
一中华老字号国企董事长,打伤要债人

一中华老字号国企董事长,打伤要债人

中国新闻周刊
2026-01-26 19:31:17
日本新首相人选正式出炉,对华政策引人关注

日本新首相人选正式出炉,对华政策引人关注

风干迷茫人
2026-01-26 12:08:00
委内瑞拉代总统受够了:美国应停止发号施令

委内瑞拉代总统受够了:美国应停止发号施令

极目新闻
2026-01-26 17:30:57
郑州一幼童出院2月后莫名死亡,治疗过程中被医生劝捐器官!

郑州一幼童出院2月后莫名死亡,治疗过程中被医生劝捐器官!

兵叔评说
2026-01-26 13:53:15
CBA官宣全明星首发阵容:徐杰蝉联总票王 赵睿北区票王庞峥麟入选

CBA官宣全明星首发阵容:徐杰蝉联总票王 赵睿北区票王庞峥麟入选

醉卧浮生
2026-01-26 16:11:52
2026-01-26 22:07:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5322文章数 64599关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

村民用无人机吊运年猪挂住高压线致停电 维修成本近万

头条要闻

村民用无人机吊运年猪挂住高压线致停电 维修成本近万

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

时尚
房产
亲子
艺术
公开课

绿色+棕色、蓝色+棕色,这3组配色高级又好看!

房产要闻

突发!三亚官宣,调整安居房政策!

亲子要闻

东北天然大冰缸,好看又实用太成功了,大家看看做的怎么样

艺术要闻

溥心畬的花鸟,淡雅清新

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版