网易首页 > 网易号 > 正文 申请入驻

ConsistEdit:无需训练,实现高精度、高一致性的视觉编辑新范式

0
分享至



本文由香港科技大学、香港科技大学(广州)、清华大学、粤港澳大湾区数字经济研究院作者共同完成,第一作者为香港科技大学博士生殷子欣,指导老师包括:香港科技大学教授 & 香港科技大学(广州)创校校长 倪明选院士,香港科技大学校董会主席 & 清华大学高等研究院双聘教授 & 微软原全球执行副总裁 沈向洋院士。



  • 论文标题:ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
  • 中稿会议:ACM SIGGRAPH Asia 2025
  • 代码仓库:https://github.com/zxYin/ConsistEdit_Code
  • 论文链接:https://arxiv.org/abs/2510.17803
  • 项目主页:https://zxyin.github.io/ConsistEdit

研究背景:无训练视觉编辑的两大核心痛点

无需额外训练即可适配预训练生成模型的编辑方法,凭借灵活、高效的特性,已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制(如 Prompt-to-Prompt、MasaCtrl)实现文本引导编辑,但当前技术存在两大核心痛点,严重限制其在复杂场景的应用:

1. 编辑强度与源图一致性难以兼顾:现有方法若想保持与源图的一致性,往往需调低编辑强度,最终导致编辑目标无法实现;若提升编辑强度以完成修改,又容易破坏源图的特征结构(如改衣服颜色时丢失褶皱细节),且非编辑区域还会出现本应保持不变的意外变化。在多轮编辑或视频编辑场景中,这类问题会进一步累积放大,最终导致结果失真,无法满足实际需求。

2. 编辑强度缺乏细粒度控制能力:多数方法对编辑强度的控制局限于全局一致性(如同时约束结构与纹理),无法实现 “保结构改纹理” 或 “保纹理改结构” 的精准调节。这不仅限制了编辑的灵活性,还会导致通过调节强度生成的系列结果缺乏平滑过渡,难以满足用户对编辑精度的多样化需求。



图 1:现有编辑方法的痛点与 ConsistEdit 的优势对比

与此同时,生成模型架构正从 U-Net 向 Multi-Modal Diffusion Transformer (MM-DiT) 升级。MM-DiT 打破了 U-Net “文本 Cross-Attention + 视觉 Self-Attention” 的模态分离设计,通过统一的 Self-Attention 同时处理文本与视觉信息,为解决上述困境提供了新可能。但此前仅有 DiTCtrl 探索 MM-DiT 的 Attention 控制,且聚焦长视频生成,未针对编辑任务优化,导致无训练编辑技术未能充分挖掘 MM-DiT 的架构优势。

核心突破:针对 MM-DiT 的三个关键发现

为研究清楚 MM-DiT 架构中 Attention 计算的特点,团队通过实验分析,提炼出三个核心发现:

1. 仅编辑 “视觉 Token” 是关键:仅编辑 Attention 中的 “视觉 Token” 即可保证编辑效果稳定,若修改 “文本 Token”,会导致结果失真,如下图所示:



2. MM-DiT 所有层均含结构信息:U-Net 的结构与纹理信息主要集中在深层 Decoder 阶段,而 MM-DiT 每一层的 Q/K/V Token 都保留完整的结构与纹理信息,如下图所示。这意味着编辑可以覆盖所有 Attention 层,而非仅作用于最后几层,此前 DiTCtrl 仅改后半层的策略,会导致无法完整保持结构一致性。



3. Q/K Token 主导结构一致性:单独对 Q/K 的视觉 Token 进行控制,可精准保留源图像结构;而 V 的视觉 Token 则主要影响内容纹理。这一发现为 “结构与纹理的解耦控制” 提供了技术依据。

方法设计:ConsistEdit 的三大核心操作

基于上述洞察,团队提出 ConsistEdit—— 专为 MM-DiT 设计的无训练注意力控制方法,实现 “高精度编辑 + 强一致性保留”:



1. 视觉仅注意力控制

仅对所有 Attetion 层的视觉 Token 进行编辑,文本 Token 保持不变。这一设计可以实现强一致性的稳定生成,同时不偏离文字指令的控制。

2. 掩码引导的 Attention 融合

在 Attention 计算前,通过文字和视觉 Token 的 Attention Map 值生成编辑掩码 M,精确分离编辑区与非编辑区。

3. Q/K/V 差异化操控

根据 “结构 - 内容” 解耦特性,对 Q/K/V 采用不同操控策略:

  • 编辑区:融合源图像的 Q/K(保结构)与目标指令的 V(改内容);
  • 非编辑区:直接复用源图像的 Q/K/V(保结构和内容完整性);
  • 结构一致性需求(如改颜色、材质):固定视觉 Q/K 为源图像值,仅更新 V 为目标指令值,确保结构不偏移;





实验验证:全场景 SOTA,从图像到视频的通用编辑

Benchmark 对比结果

团队在 PIE-Bench 数据集上,从图像和视频两个维度,与 UniEdit-Flow、DiTCtrl, FireFlow 等 5 种主流方法对比,从定量、定性两方面验证 ConsistEdit 的优势。以下是一些效果展示:



图 2. 结构一致编辑任务(改材质、颜色,需要强一致性控制)



图 3. 结构不一致编辑任务(改风格、物体等,需弱一致性控制)

其他能力

真实场景以及多轮编辑

针对真实图片,结合 inversion 技术后,ConsistEdit 可保持同等编辑性能,下方为多轮编辑效果展示。



多区域编辑

得益于精确的 Attention 控制与强大的预训练模型支撑,ConsistEdit 可在单次操作中完成多区域的精准编辑。



平滑的一致性强度

下方展示了结构一致性强度的调节结果,可以一致性强度仅影响结构(如物体轮廓),不改变内容细节(如颜色、纹理),证明结构与内容的控制信号已实现有效解耦。



泛化性:适配所有 MM-DiT 变体

ConsistEdit 不仅支持 Stable Diffusion 3,还可无缝适配 FLUX.1-dev、CogVideoX-2B 等 MM-DiT 类模型:

FLUX.1-dev



CogVideoX-2B









应用展望

ConsistEdit 的高一致性、细粒度控制特性,可广泛应用于各类视觉创作场景,既覆盖静态图片到动态视频的全场景编辑,又通过平滑的一致性调节为交互式创作提供了更多可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

芳芳历史烩
2026-03-25 22:24:25
国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

快科技
2026-03-25 10:14:04
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

火山詩话
2026-03-26 13:34:59
老人离世房产未过户,2026年法律新规:继承权真的会作废吗?

老人离世房产未过户,2026年法律新规:继承权真的会作废吗?

复转这些年
2026-03-22 17:48:38
阚清子产后现身机场!手上鸽子蛋大钻戒抢镜,富豪老公拎包似保姆

阚清子产后现身机场!手上鸽子蛋大钻戒抢镜,富豪老公拎包似保姆

老好人的愤怒
2026-03-26 18:02:04
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

涵豆说娱
2026-03-26 11:46:21
女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

复转这些年
2026-03-23 20:48:15
为什么女教师成了单身女的最重灾区?

为什么女教师成了单身女的最重灾区?

深度报
2026-03-24 22:03:07
国产螺丝刀在海外蹿红,在TikTok狂卖2800万

国产螺丝刀在海外蹿红,在TikTok狂卖2800万

跨境派Pro
2026-03-23 14:16:59
高三男孩喀纳斯湖失踪,母亲守岸7天后直言放弃,意外竟在此时发生

高三男孩喀纳斯湖失踪,母亲守岸7天后直言放弃,意外竟在此时发生

古怪奇谈录
2025-10-16 10:53:42
向鹏林诗栋退出世界杯

向鹏林诗栋退出世界杯

乒乓11分
2026-03-26 09:48:25
社保基金持股市值居前的重仓股一览

社保基金持股市值居前的重仓股一览

证券时报
2026-03-26 07:34:15
改期!除了阿森纳曼城,包括英超四大豪门,7场比赛时间可能变化

改期!除了阿森纳曼城,包括英超四大豪门,7场比赛时间可能变化

嗨皮看球
2026-03-26 18:36:10
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
山东女子造出“天眼导弹”,突破中国导弹50年难关,坐拥26项专利

山东女子造出“天眼导弹”,突破中国导弹50年难关,坐拥26项专利

策略述
2026-03-26 13:44:30
眉毛冒出一根很长的毛?不要大意!俗话说“眉生长毛,必有一遭”

眉毛冒出一根很长的毛?不要大意!俗话说“眉生长毛,必有一遭”

一根香烟的少妇
2026-03-17 17:54:13
A股:今天收3889.08,尾盘已明确,做好准备,明天周五,要变盘了

A股:今天收3889.08,尾盘已明确,做好准备,明天周五,要变盘了

虎哥闲聊
2026-03-26 15:09:13
2026-03-26 19:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
家居
房产
公开课
军事航空

教育要闻

2026人工智能时代下的教育课堂变革

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版