网易首页 > 网易号 > 正文 申请入驻

图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改

0
分享至

智象未来团队 投稿
量子位 | 公众号 QbitAI

AI图像编辑技术发展迅猛,扩散模型凭借强大的生成能力,成为行业主流。

但这类模型在实际应用中始终面临两大难题:一是“牵一发而动全身”,即便只想修改一个细节,系统也可能影响到整个画面;二是生成速度缓慢,难以满足实时交互的需求。

针对这些痛点,智象未来(HiDream.ai)团队开辟了新路径:提出全新的自回归图像编辑框架VAREdit



它引入了视觉自回归(VAR)架构,能够在遵循指令的前提下做到“指哪打哪”,大幅提升编辑精准度与生成速度,推动图像编辑进入新的阶段。



模型与代码均已开源,具体链接可见文末。

全新自回归图像编辑框架VAREdit

智象未来提出的VAREdit将视觉自回归建模引入指令引导的图像编辑中,将图像编辑定义为下一尺度预测问题,通过自回归地生成下一尺度目标特征残差,以实现精确的图像编辑。

多尺度量化编码

:将图像表征



编码为多尺度残差视觉令牌序列R₁,R₂,…,Rₖ,其中Rₖ的空间规模(hₖ,wₖ)随着k的增大而依次递增;融合前k个尺度残差信息的连续累积特征可通过码本查询和上采样操作进行加和,表示为



视觉自回归预测

:基于源图像和文本指令条件,使用VAR Transformer主干网络对目标图像的多尺度残差视觉令牌序列进行预测,其概率函数为



。其中,主干网络预测



对应输入的视觉连续特征为经空间规模下采样对齐的融合特征





设计VAREdit的一个核心挑战是如何将源图像信息引入主干网络中,作为目标尺度生成的参考信息。

智象未来团队首先探索了两种组织方案:

全尺度条件

:将源图像的所有尺度融合特征



作为主干网络输入连续特征前缀。

该方法虽能提供逐尺度参考,但会使序列长度加倍,计算开销急剧增加,不适合高分辨率编辑;同时,多尺度特征可能带来冗余或冲突,反而影响编辑质量。

最大尺度条件

:将源图像的最大尺度融合特征



作为主干网络输入连续特征前缀。

该策略虽能缩短序列缓解计算压力,但会造成尺度不匹配;仅依赖最细粒度参考时,模型在预测粗粒度残差时往往难以适应,在预测粗粒度目标尺度残差的情形下尤其。

尺度对齐参考模块

对全尺度条件模型的自注意力分析发现:

在首层,注意力分布范围广,主要集中于较粗尺度特征,用于建立整体布局和长程依赖;

而在更深层,注意力逐渐局部化,呈现明显的对角结构,说明其功能已转向空间邻域的细化与局部优化。



上述探索促使智象未来提出一种混合方案——尺度对齐参考(SAR)模块:在第一层提供多尺度对齐参考,后续层仅关注最细尺度特征。

具体做法是在最大尺度条件模型中,将第一个自注意力层中的源图像条件输入进行各尺度匹配的下采样操作,得到对应尺度的参考特征



随后,在计算第k个目标尺度对应的自注意力表示时,由



替代



参与Key和Value的计算即可。

通过上述SAR模块优化,使得VAREdit能够更好地捕捉源图像与目标图像之间的多尺度依赖关系,同时实现最大尺度条件模型的生成效率。

基准测试表现出色



在业内权威的EMU-Edit和PIE-Bench基准测试中,VAREdit在CLIP与更能衡量编辑精准度的GPT指标上均表现突出。

其中,VAREdit-8.4B在GPT-Balance指标上相较于ICEdit和UltraEdit分别提升41.5%与30.8%,而轻量级的VAREdit-2.2B也取得了显著提升。

在速度上,VAREdit同样优势明显。

基于下一尺度预测机制,8.4B模型可在1.2秒内完成一张512×512图像的编辑,较同类扩散模型快2.2倍;2.2B模型则仅需0.7秒,在保持高质量的同时实现了即时编辑体验。





此外,VAREdit适用范围广,在大多数编辑类型上均取得最佳效果。虽然小模型在全局样式和文本编辑方面略有不足,但大模型有效弥补了差距。



视觉对比显示,VAREdit编辑自然、保真度高,过度修改更少。

值得一提的是,引入SAR模块后,模型在精准性指标上进一步提升,凸显其优化价值。

总的来说,VAREdit将下一尺度预测范式引入指令引导图像编辑框架,基于文本指令和量化源图像特征预测目标图像多尺度视觉残差。通过分析不同条件组织形式并引入新颖SAR模块,实现了图像编辑在精准性与效率上的提升。

智象未来团队表示,未来将继续探索新一代多模态图像编辑架构,推动指令引导图像生成技术向更高质量、更快速度、更强可控性发展。

GitHub: https://github.com/HiDream-ai/VAREdit
在线使用: https://huggingface.co/spaces/HiDream-ai/VAREdit-8B-1024
论文链接:https://arxiv.org/pdf/2508.15772

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
论文被指大量错误,武大杨某媛回复

论文被指大量错误,武大杨某媛回复

中国新闻周刊
2025-09-15 19:56:06
南京中小学将设秋假,国庆连休11天?江苏省教育厅:有相关文件,推行政策在制定中

南京中小学将设秋假,国庆连休11天?江苏省教育厅:有相关文件,推行政策在制定中

鲁中晨报
2025-09-15 19:23:07
武汉大学竟被央视除名!是咎由自取、顶风作案,还是不知悔过呢?

武汉大学竟被央视除名!是咎由自取、顶风作案,还是不知悔过呢?

生活奇思妙想家VIP
2025-09-15 08:27:59
9月15日俄乌最新:西科尔斯基一语中的

9月15日俄乌最新:西科尔斯基一语中的

西楼饮月
2025-09-15 16:23:18
涉毒艺人苏永康将在温州办演唱会,有网友投诉,官方:报批资料合规,暂无不举办的通知

涉毒艺人苏永康将在温州办演唱会,有网友投诉,官方:报批资料合规,暂无不举办的通知

极目新闻
2025-09-15 17:38:42
中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

大道无形我有型
2025-09-15 16:45:59
真保级了!阿莫林上任以来曼联31轮31分,除升降级球队外英超垫底

真保级了!阿莫林上任以来曼联31轮31分,除升降级球队外英超垫底

直播吧
2025-09-15 15:50:08
55岁窦唯已迁居阿那亚多年,骑电动车,买菜砍价,生活过得惬意

55岁窦唯已迁居阿那亚多年,骑电动车,买菜砍价,生活过得惬意

书雁飞史oh
2025-09-08 17:38:38
被擦妆5次艺考生参加中传开学典礼,此前她因素颜太美被质疑艺考化妆

被擦妆5次艺考生参加中传开学典礼,此前她因素颜太美被质疑艺考化妆

观威海
2025-09-15 14:19:02
长期沉迷网络游戏,林海被“双开”

长期沉迷网络游戏,林海被“双开”

扬子晚报
2025-09-15 19:15:16
罗永浩:决定放弃进一步追究西贝

罗永浩:决定放弃进一步追究西贝

界面新闻
2025-09-15 18:44:26
金正恩返国带回中国重要启示,朝鲜传来震撼消息

金正恩返国带回中国重要启示,朝鲜传来震撼消息

诗意世界
2025-09-14 21:36:37
47岁“渐冻症”网红老贺去世,妻子将其抛弃,老父亲照顾了4年

47岁“渐冻症”网红老贺去世,妻子将其抛弃,老父亲照顾了4年

180视角
2025-09-15 12:21:23
以色列唯一不敢炸的阿拉伯国家:中式装备堆满仓库,以军敢来就打

以色列唯一不敢炸的阿拉伯国家:中式装备堆满仓库,以军敢来就打

梁讯
2025-09-15 13:14:52
新华社快讯:李成钢说,中国绝不会以牺牲原则立场、企业利益和国际公平正义为代价,寻求达成任何协议

新华社快讯:李成钢说,中国绝不会以牺牲原则立场、企业利益和国际公平正义为代价,寻求达成任何协议

新华社
2025-09-15 23:15:42
西贝正式发布道歉信:“绝对权威者”贾国龙的一次大败

西贝正式发布道歉信:“绝对权威者”贾国龙的一次大败

锌财经
2025-09-15 16:21:10
美国务卿对黄岩岛国家级自然保护区说三道四,外交部:奉劝美方还南海清净太平

美国务卿对黄岩岛国家级自然保护区说三道四,外交部:奉劝美方还南海清净太平

澎湃新闻
2025-09-15 15:42:42
菲律宾媒体:针对民众反腐抗议,菲律宾军队进入“红色警戒”

菲律宾媒体:针对民众反腐抗议,菲律宾军队进入“红色警戒”

环球网资讯
2025-09-15 22:17:45
中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

吃货的分享
2025-09-15 13:05:08
中美密谈6小时,3个细节抢眼,美财长事后放狠话,我国寸步不让

中美密谈6小时,3个细节抢眼,美财长事后放狠话,我国寸步不让

DS北风
2025-09-15 11:47:04
2025-09-15 23:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
11321文章数 176268关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

美财长声称中方提出非常"激进"要求 外交部回应

头条要闻

美财长声称中方提出非常"激进"要求 外交部回应

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

健康
手机
亲子
教育
家居

内分泌科专家破解身高八大谣言

手机要闻

魅族 22 发布!超窄边框+白色面板,「煤油」们会满意吗?

亲子要闻

出去吃烧烤,爸爸让3岁女儿请客吃饭,谁知她的话让人哭笑不得

教育要闻

9月13日雅思大作文示范写作 | 面对面开会:好处多过坏处?

家居要闻

典雅大气 舒适中带童趣

无障碍浏览 进入关怀版