网易首页 > 网易号 > 正文 申请入驻

Adobe的AI图像编辑提速秘诀

0
分享至


这项由Adobe ART AI实验室与Adobe研究院联合完成的研究,于2026年6月15日以预印本形式发布,论文编号为arXiv:2606.13898。感兴趣的读者可通过该编号查阅完整原文。

每当你打开Photoshop,点下那个神奇的"移除"按钮,让AI帮你把照片里不想要的人或物抹掉,你有没有想过:为什么有时候等待的时间那么久?背后的AI到底在做什么,为什么它那么"慢"?这篇来自Adobe的研究,正是为了回答这个问题,并给出一个聪明得出人意料的解决方案。

一、当Photoshop遇上"排队太长"的烦恼

先说一个真实的数字:Photoshop v27.0发布后的短短28天内,有110万用户使用了"Generative Fill"(生成式填充)功能,产生了3620万次交互,消耗了8280万个生成额度。这个数字说明什么?说明Adobe的AI服务器每天要处理海量的图像编辑请求,就像一家超级忙碌的快餐厅,每分每秒都有无数顾客在等餐。

问题在于,近几年AI图像生成技术发生了一次重大升级——从一种叫做"卷积神经网络"(U-Net)的老架构,换成了更强大的"扩散变换器"(Diffusion Transformer,简称DiT)。新架构生成的图像质量更好,但代价是计算量大幅增加。即便服务器的硬件从A100升级到了更贵的H100显卡,成本依然居高不下。Adobe的工程师们测量后发现,在整个AI图像编辑流程中,DiT模块一个人就占据了平均73%的运行时间——哪怕已经把原本需要50个步骤的生成过程,通过"知识蒸馏"技术压缩到了8个步骤。

用一个比喻来理解:整个AI图像编辑系统就像一条流水线,有负责"理解图像"的工人(VAE编码器)、负责"主要创作"的工人(DiT)、负责"解码输出"的工人(VAE解码器),以及负责"最终精修"的工人(Refiner)。测量结果显示,不管图像是512×512还是2048×2048的超大分辨率,"主要创作"那个工人始终要干全部工作量的68%到74%。他一个人太忙了,整条流水线的速度就被他拖慢了。

研究团队提出的解决方案叫做HiLo-Token——一个"输入自适应的高低频率令牌压缩框架"。这个名字听起来很复杂,但核心思想用一句话就能说清楚:不是每块地方都值得AI花大力气去看,只需要把注意力放在真正重要的地方。

二、AI的眼睛也需要"选择性注意"

在深入了解这个方案之前,有必要理解一个基础概念:AI处理图像时,会把图像切成很多小块,每个小块叫做一个"令牌"(Token)。就像你把一幅大拼图分成了许多小拼图块,AI对每一块都要进行分析和计算。图像越大,小块越多,计算量就越大。

研究团队首先做了一件很有价值的事:他们分析了真实用户在Photoshop里的编辑行为。通过研究大量真实的用户操作数据,他们发现了一些很有趣的规律。

在"需要编辑的区域有多大"这个问题上,超过50%的用户每次编辑的区域不超过整张图片的10%。换句话说,大多数时候,用户只是想抹掉照片里的一个小人物、一根电线杆,或者一个不想要的水印。而90%的用户,编辑区域不超过整张图的50%。

在"编辑区域是什么形状"这个问题上,55%是分散的小孔洞状(比如抹去多个小污点),34%是细长的条状,而方形和不规则形状加在一起只占11%。

这些数据指向一个重要结论:绝大多数情况下,AI根本不需要对整张图片的每个角落都进行精细计算。用户只是想改变图片的一小块,AI却要对着整张图片劳心费力,这就是浪费。就像你只是想修改一篇文章的第三段,系统却非要把整篇文章重新排版一遍——这显然不合理。

这个洞察奠定了整个HiLo-Token方法的基础:聪明地选择哪些地方需要精细处理,哪些地方粗看一眼就够了。

三、"精修区"与"扫一眼区":两种令牌的分工之道

HiLo-Token的名字里,"Hi"代表高频(High Frequency),"Lo"代表低频(Low Frequency)。理解这两个词,需要先理解图像里的"频率"是什么意思。

回到那个流水线比喻——编辑区域就是流水线上那个需要重点改造的零件,而图像的其他部分是背景环境。流水线工人需要两种不同的信息:一是需要改造的零件本身及其附近的细节(高频信息,比如纹理、边缘、花纹),二是整个工厂的大体布局(低频信息,比如整体颜色、大致结构)。

高频信息就像图像里细腻的纹理——一块石砖墙的缝隙、一件衬衫的格子花纹、一幅油画的笔触。这类信息在图像里表现为颜色或亮度的快速变化。低频信息则是图像的大致轮廓和整体色调,比如天空是蓝色的、地面是灰色的——这些信息即使图像被大幅缩小,也不会失真太多。

HiLo-Token把这两类信息用完全不同的策略来处理,就像一位有经验的画家:对于需要修改的区域,他会拿着放大镜仔细观察周围的细节;对于远处的背景,他只需要眯着眼睛看个大概就够了。

具体来说,在高频令牌这条路上,研究团队会对原始图像进行适度的压缩处理(采用8倍压缩比的VAE编码器加上2倍的补丁嵌入层),保留足够的空间分辨率,确保那些细腻的纹理不会被"糊掉"。这条路会产生大量的令牌,所以需要进行精心的筛选,只保留最有价值的那些。

在低频令牌这条路上,图像会被激进地缩小16倍——一张2048×2048的图像会被缩成128×128——然后经过VAE编码器和一个专门的"低频补丁嵌入层"来提取信息。因为缩得太小,生成的令牌数量极少,所以这部分令牌可以全部保留。这些令牌只能告诉AI图像的大概模样,但这就足够了——它们的任务是让AI不要"迷失方向",知道整体的结构是什么样的。

最后,两部分令牌被拼接在一起,组成"HiLo-Token"表示,送入DiT进行处理。整个过程里最神妙的部分,是高频令牌的筛选机制。

四、用"边缘探测器"代替昂贵的"注意力分析"

如何判断图像的哪些区域包含丰富的高频信息,值得让AI多花心思呢?

直觉上,你可能会说:让AI先看一眼图像,根据它自己觉得哪里重要来选择。这种方法叫做"基于注意力的令牌选择",确实有人尝试过。但研究团队发现这种方法存在一个致命缺陷。

考虑这样一个场景:图片里有一面对称的教堂壁画,正中间有一块区域被用户标记为要删除的对象(比如一个交通标志遮挡了壁画)。删除这个标志之后,AI需要根据壁画的另一半来"脑补"出被遮挡的那部分内容,因为壁画是对称的。

问题在于,被遮挡的那部分内容此时并不存在。AI在扩散过程的早期步骤里,还没有生成那部分内容,自然也就没有有意义的"注意力信号"来告诉系统"对面的那面壁画很重要"。结果就是,基于注意力的方法会忽略掉那面对称的壁画,AI最终脑补出来的内容会和整体风格完全不搭。

研究团队转向了一种更简单、更可靠的方案:Sobel算子边缘检测。这是计算机视觉领域一个已经有几十年历史的经典技术,说白了就是找出图像里颜色变化剧烈的地方。颜色变化剧烈的地方,往往就是纹理丰富、细节复杂的区域,也就是高频信息密集的区域。

Sobel算子的工作原理不复杂:用两个小型卷积核分别扫描图像的水平方向和垂直方向,计算每个像素在这两个方向上的颜色变化幅度,然后把两个方向的变化合成一个"空间频率图"。这个频率图里,数值越高的地方,代表那里的纹理越复杂、细节越丰富。

但仅仅有频率图还不够。如果直接根据阈值(比如0.1)来选择令牌,得到的是散落各处的零星令牌,就像棋盘上随机分布的棋子,对AI来说这种分散的信息很难有效利用。

研究团队加了一步"区域化"处理:把频率图进行16倍的空间池化,让相邻的小块自然聚合成更大的区域。这样一来,选择出来的高频令牌就不再是零散的点,而是连续的块状区域,AI能够更好地理解这些区域的上下文关系。

与此同时,用户指定的编辑区域会经过"膨胀"处理——把标记区域往外扩张一圈,确保编辑区域边缘附近的所有令牌都被纳入。这是因为编辑的内容需要和周围环境无缝融合,如果把编辑区域周边的上下文令牌都丢掉,生成的内容就会出现突兀的边界感。

整个令牌选择过程的计算代价极小,只用到了两次卷积操作和一次线性层操作,整体仅需约10毫秒,与DiT本身动辄数秒的计算时间相比,这点额外开销几乎可以忽略不计。

五、从"通才"到"专家":模型的训练之路

HiLo-Token不是一个独立的工具,它被整合进了Adobe的图像编辑模型体系里。

Adobe有一个叫做MultiEdit(ME)的"通才"模型,基于Firefly Image 3预训练而来,有着20亿参数规模的DiT主干网络。这个通才模型几乎无所不能——对象插入、移除、替换、重新打光、文字编辑、相机角度调整、主体提取,都在它的能力范围之内。

但在实际产品部署中,"通才"并不总是最优解。以"移除"和"生成填充"这两个功能为例,它们的目标在某种意义上是相反的:一个要删掉内容,另一个要添加内容。如果硬把它们塞进同一个模型里一起训练,模型会产生干扰——比如在"移除"任务里,模型可能会不由自主地倾向于往空白处插入东西,留下奇怪的"幽灵内容"。

因此,通才模型ME会被进一步"专科化"——通过在精心筛选的专项数据集上进行监督微调(SFT),培养出针对不同任务的专家模型。比如用于Photoshop移除功能的"Erase Specialist",就是在约40.7万个图像-蒙版对上微调而来,这些数据来自对象移除(包括合成渲染数据和真实世界数据)、修图、对象拼接与合成、手动遮罩,以及混合编辑等多个类别,跨越多种图像分辨率。

微调过程中,研究团队发现了一些很有意思的规律。如果训练数据里对象移除的样本太少,模型就需要更长的训练时间才能抑制"往空白处插东西"的冲动;反之,如果训练时间太长,模型又会开始在编辑区域和周围环境的边界处产生接缝感,像是"打补丁"的痕迹。这需要在训练过程中仔细监控,找到那个恰到好处的平衡点。

HiLo-Token就是在这个监督微调阶段被注入模型的——让模型从一开始就学会"只看关键地方",而不是在训练好之后才被强行剪枝。

在微调完成之后,研究团队还会对模型进行"步骤蒸馏"。原始扩散模型需要50个去噪步骤才能生成一张高质量的图像,在A100 GPU上处理一张1K分辨率的图像就需要约7秒,这对于生产环境来说太慢了。通过一种叫做分布匹配蒸馏(Distribution Matching Distillation,DMD)的技术,可以训练出一个"学生模型",让它用8个步骤就能生成和50步骤"老师模型"质量相当的结果。具体做法是最小化学生模型和教师模型生成结果之间的统计差异(KL散度),同时引入对抗性训练(GAN)来进一步提升生成质量。

整个训练过程在4个节点、共32块A100 GPU上进行,采用BF16混合精度计算和全分片数据并行(FSDP)技术来高效利用硬件资源。

六、真实的测试结果:钱到底省了多少

研究团队在一批包含92个代表性真实用户编辑案例的评测集上验证了HiLo-Token的效果。这些案例被按照编辑区域大小(蒙版比例)分成三组:小蒙版组(平均蒙版比例6.38%)、中蒙版组(15.92%)和大蒙版组(35.36%)。

加速效果非常直观。在DiT模块这个最大的计算瓶颈上,小蒙版的情况下加速比达到了3.13倍,中等蒙版是2.59倍,大蒙版是1.67倍。逻辑很清晰:编辑区域越小,可以丢弃的无关令牌就越多,加速效果也就越明显。落实到端到端的整体推理时间,三组对应的整体加速比分别是1.33倍、1.66倍和1.77倍。

在质量评估上,研究团队没有依赖FID(图像生成质量的常见指标)或CLIP分数(衡量图文匹配程度的指标),因为他们认为这些指标并不能准确反映图像编辑的质量。他们转而依赖专业的质量工程(QE)团队进行人工盲评,让评测人员在不知道哪个版本使用了HiLo-Token的情况下,比较两种方法的输出结果。

结果显示,对于移除功能,48%的案例两个版本质量相当,27%的案例使用HiLo-Token的版本更好,25%的案例原版更好。对于生成填充功能,70%打平,24%使用HiLo-Token的更好,仅6%原版更好。对于生成扩展功能,81%打平,10%使用HiLo-Token的更好,9%原版更好。也就是说,在绝大多数情况下,用户根本感知不到任何质量差异,甚至在某些情况下,经过令牌压缩的版本质量还更好一些。

在基础设施成本上,效果更加可观。根据图1b所展示的数据,引入HiLo-Token之后,运行Adobe移除功能所需的亚马逊AWS p5.48xlarge节点(每个节点配备8块H100显卡,每小时费用55.04美元)数量减少了33%。这意味着,仅仅通过这一项技术改进,Adobe每年可以节省的服务器成本是相当可观的数字。

研究团队还验证了HiLo-Token与其他优化技术的兼容性。与FP8量化(一种减少数值精度以加快计算的技术)结合使用,可以在HiLo-Token基础上再减少40%的DiT延迟。若把8步推理进一步蒸馏到5步,可以额外降低37.5%的延迟,质量下降仅影响不到5%的图像,在可接受范围内。此外,HiLo-Token也与VAE和Refiner模块的优化完全兼容,从而实现端到端的整体提速。

七、与同类方法的差异

把HiLo-Token放在更大的背景下来看,它属于"令牌级效率优化"这一大类方法,这类方法的核心思路是减少参与注意力计算的令牌数量,从而降低计算量。

现有的类似工作包括令牌合并(ToMe,把相似的令牌合并成一个)、令牌剪枝(直接删除不重要的令牌)、以及空间分辨率下采样(把整幅图像缩小后再处理)等。这些方法各有其局限性:要么对图像编辑这类特定任务的支持不够好,要么在压缩比较激进时会出现明显的质量下降,要么根本没有考虑到用户自定义蒙版这一核心交互模式。

与HiLo-Token最相关的两个前作是LazyDiffusion和DiffCR。LazyDiffusion是整个HiLo-Token框架的基础,它提出了只在蒙版区域内进行生成的核心思路,但它依赖一个基于Transformer的上下文编码器来提取编辑区域之外的信息,这个编码器本身就不便宜——而且因为上下文令牌和蒙版令牌是沿特征维度拼接的,大量有用的上下文信息在处理过程中被丢弃了。

HiLo-Token的改进体现在三个层面:用轻量级的Sobel边缘检测替代了昂贵的Transformer上下文编码器;把上下文令牌的拼接方式从特征维度改为令牌维度,避免了上下文信息的浪费;并且引入了"输入自适应"机制,根据每张图像的具体内容动态决定选择多少以及选择哪些令牌,而非对所有图像一视同仁地应用固定的压缩比。

说到底,这项研究解决的是一个非常实际的工程问题:怎么让强大的AI图像编辑功能跑得更快、花更少的钱,同时不让用户感知到任何质量下降。答案不是什么深奥的理论突破,而是一个基于常识的洞察——大多数用户只改图片的一小块,没有必要对整张图片每个角落都精雕细琢。把这个洞察转化为技术方案,需要解决一系列工程上的具体问题:如何智能地选择哪些地方需要精细处理,如何低成本地提取整体结构信息,如何让这套机制适应不同复杂度的图像内容,以及如何让整个方案无缝融入现有的训练和部署流程。

研究团队给出的答案——用经典的Sobel边缘检测来识别高频区域,用激进下采样来捕获低频全局结构,用区域化处理让令牌选择更连贯——每一步都简洁而有效。由此可见,好的工程解决方案不一定需要最新的技术,关键在于找准问题的本质,然后选择最合适的工具。

这对普通Photoshop用户意味着什么?当你在最新版本的Photoshop里使用移除或生成填充功能时,AI响应速度提升的背后,正是这套"看图省钱"方案在默默运行。它的存在,让Adobe能够用更少的服务器资源服务更多的用户,也为未来进一步提升体验创造了空间。

至于HiLo-Token能否推广到更广泛的图像生成任务(比如没有用户蒙版的纯文生图),或者能否在移动端这样内存受限的环境下发挥作用,这些都是值得进一步探索的问题。有兴趣深入了解技术细节的读者,可通过论文编号arXiv:2606.13898查阅完整原文。

Q&A

Q1:HiLo-Token是什么技术?

A:HiLo-Token是Adobe开发的一种AI图像编辑加速框架,核心思路是把图像分成"值得精细处理的高频区域"和"粗看一眼就够的低频区域",让AI重点处理关键位置,跳过不重要的地方,从而在不影响画质的前提下大幅减少计算量,在小蒙版编辑场景下最高可实现3.13倍加速。

Q2:HiLo-Token用了什么方法来判断图像哪里重要?

A:研究团队没有采用昂贵的注意力分析方法,而是使用了经典的Sobel算子边缘检测——找出图像里颜色变化剧烈(即纹理丰富)的区域作为高频令牌,同时用16倍激进下采样的图像来提取低频的全局结构信息。两部分信息拼接后送入AI模型处理,计算额外开销仅约10毫秒。

Q3:Photoshop用了HiLo-Token之后质量会下降吗?

A:根据Adobe专业质量工程团队的盲评结果,移除功能有48%的案例质量相当,生成填充功能有70%打平,生成扩展功能有81%打平,而且在部分案例中使用HiLo-Token的版本质量还更好。整体来说,用户在日常使用中基本感知不到任何质量变化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
悲催!一远嫁女子闹离婚求助,妈妈怒斥其当初不听劝,并转她5000

悲催!一远嫁女子闹离婚求助,妈妈怒斥其当初不听劝,并转她5000

火山詩话
2026-06-29 07:04:46
“你这面相很难找到工作!”本科女孩印堂发黑,验证了老话没说错

“你这面相很难找到工作!”本科女孩印堂发黑,验证了老话没说错

世界圈
2026-06-30 08:10:35
哪些地方婚礼陋习让你很无语?网友:恶俗的习俗,每次看到都想吐

哪些地方婚礼陋习让你很无语?网友:恶俗的习俗,每次看到都想吐

解读热点事件
2026-06-24 22:18:30
“像狗一样被拖出家门”:南非进行血腥“大清洗”,最后通牒将至

“像狗一样被拖出家门”:南非进行血腥“大清洗”,最后通牒将至

新姐看世界
2026-06-29 18:53:57
泽连斯基对普京的回应

泽连斯基对普京的回应

名人苟或
2026-06-30 17:27:45
国家出手仅3天,谢娜再迎噩耗,终究是遭到了跨界捞金的反噬

国家出手仅3天,谢娜再迎噩耗,终究是遭到了跨界捞金的反噬

丁丁鲤史纪
2026-06-30 17:25:45
房子是有灵性的,若出现了这7个迹象,定是难得的旺宅!

房子是有灵性的,若出现了这7个迹象,定是难得的旺宅!

老覃讲历史
2026-06-28 12:22:50
央八首播!34集谍战巨制来袭,仅播出一天,收视率直接登顶

央八首播!34集谍战巨制来袭,仅播出一天,收视率直接登顶

乐枫电影
2026-06-30 18:00:47
演员吴启华卖肖像权拍AI电影,称完全不用亲自拍摄,“终于又重温一次当男主的滋味”,并大方表示酬劳不错

演员吴启华卖肖像权拍AI电影,称完全不用亲自拍摄,“终于又重温一次当男主的滋味”,并大方表示酬劳不错

洪观新闻
2026-06-29 14:52:15
Shams:伦纳德快船生涯已近尾声 快船无意为他提供续约合同

Shams:伦纳德快船生涯已近尾声 快船无意为他提供续约合同

北青网-北京青年报
2026-06-30 19:23:36
没有公告,卢卡申科紧急访华,普京有心无力,白俄只有中国能救?

没有公告,卢卡申科紧急访华,普京有心无力,白俄只有中国能救?

顾史
2026-06-30 02:21:37
医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

路医生健康科普
2026-06-29 12:05:03
为何只要去浙江发展,不但自己,甚至连下一代都很难再回到故乡生活?

为何只要去浙江发展,不但自己,甚至连下一代都很难再回到故乡生活?

周哥一影视
2026-06-30 17:51:31
毕业即失业!这10个理工类烂专业,分数再高也别乱报

毕业即失业!这10个理工类烂专业,分数再高也别乱报

户外阿毽
2026-06-30 00:25:16
2026年三伏天要来了!2个坏消息,1个好消息,3个要注意,别大意

2026年三伏天要来了!2个坏消息,1个好消息,3个要注意,别大意

阿龙美食记
2026-06-28 16:52:24
原地解散!德国世界杯16强出局,全队返程下机时情绪低落,球队将于周二召开发布会,球员可自由离队

原地解散!德国世界杯16强出局,全队返程下机时情绪低落,球队将于周二召开发布会,球员可自由离队

大风新闻
2026-06-30 19:28:07
克洛泽:不介意梅西破纪录;一直是他球迷

克洛泽:不介意梅西破纪录;一直是他球迷

懂球帝
2026-06-30 17:34:05
阿三又作妖!张家界玻璃栈道堵死!印度游客霸占通道不肯走

阿三又作妖!张家界玻璃栈道堵死!印度游客霸占通道不肯走

行者聊官
2026-06-28 17:29:16
6名渔民被扣10天不放,大陆四大反制直接砸过去:这次不忍了

6名渔民被扣10天不放,大陆四大反制直接砸过去:这次不忍了

面包夹知识
2026-06-29 14:32:06
世界杯争议判罚引热议,德国关键进球被吹最终遗憾出局

世界杯争议判罚引热议,德国关键进球被吹最终遗憾出局

军武英雄
2026-06-30 19:46:11
2026-06-30 20:55:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8967文章数 565关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

日本队世界杯出局后 韩媒来劲了

头条要闻

日本队世界杯出局后 韩媒来劲了

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

健康
手机
房产
家居
公开课

狂吃“糯叽叽”小心肠梗阻!

手机要闻

苹果疑似加大打击力度 iPhone 18 Pro泄露测试视频在社交平台迅速消失

房产要闻

等了三年!改善顶流实景交付,海口标杆的的答卷来了!

家居要闻

传奇筑 日常诗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版