Adobe的AI图像编辑提速秘诀|令牌|蒙版|编码器|上下文|adobe|token|命令提示符

分享至

这项由Adobe ART AI实验室与Adobe研究院联合完成的研究，于2026年6月15日以预印本形式发布，论文编号为arXiv:2606.13898。感兴趣的读者可通过该编号查阅完整原文。

每当你打开Photoshop，点下那个神奇的"移除"按钮，让AI帮你把照片里不想要的人或物抹掉，你有没有想过：为什么有时候等待的时间那么久？背后的AI到底在做什么，为什么它那么"慢"？这篇来自Adobe的研究，正是为了回答这个问题，并给出一个聪明得出人意料的解决方案。

一、当Photoshop遇上"排队太长"的烦恼

先说一个真实的数字：Photoshop v27.0发布后的短短28天内，有110万用户使用了"Generative Fill"（生成式填充）功能，产生了3620万次交互，消耗了8280万个生成额度。这个数字说明什么？说明Adobe的AI服务器每天要处理海量的图像编辑请求，就像一家超级忙碌的快餐厅，每分每秒都有无数顾客在等餐。

问题在于，近几年AI图像生成技术发生了一次重大升级——从一种叫做"卷积神经网络"（U-Net）的老架构，换成了更强大的"扩散变换器"（Diffusion Transformer，简称DiT）。新架构生成的图像质量更好，但代价是计算量大幅增加。即便服务器的硬件从A100升级到了更贵的H100显卡，成本依然居高不下。Adobe的工程师们测量后发现，在整个AI图像编辑流程中，DiT模块一个人就占据了平均73%的运行时间——哪怕已经把原本需要50个步骤的生成过程，通过"知识蒸馏"技术压缩到了8个步骤。

用一个比喻来理解：整个AI图像编辑系统就像一条流水线，有负责"理解图像"的工人（VAE编码器）、负责"主要创作"的工人（DiT）、负责"解码输出"的工人（VAE解码器），以及负责"最终精修"的工人（Refiner）。测量结果显示，不管图像是512×512还是2048×2048的超大分辨率，"主要创作"那个工人始终要干全部工作量的68%到74%。他一个人太忙了，整条流水线的速度就被他拖慢了。

研究团队提出的解决方案叫做HiLo-Token——一个"输入自适应的高低频率令牌压缩框架"。这个名字听起来很复杂，但核心思想用一句话就能说清楚：不是每块地方都值得AI花大力气去看，只需要把注意力放在真正重要的地方。

二、AI的眼睛也需要"选择性注意"

在深入了解这个方案之前，有必要理解一个基础概念：AI处理图像时，会把图像切成很多小块，每个小块叫做一个"令牌"（Token）。就像你把一幅大拼图分成了许多小拼图块，AI对每一块都要进行分析和计算。图像越大，小块越多，计算量就越大。

研究团队首先做了一件很有价值的事：他们分析了真实用户在Photoshop里的编辑行为。通过研究大量真实的用户操作数据，他们发现了一些很有趣的规律。

在"需要编辑的区域有多大"这个问题上，超过50%的用户每次编辑的区域不超过整张图片的10%。换句话说，大多数时候，用户只是想抹掉照片里的一个小人物、一根电线杆，或者一个不想要的水印。而90%的用户，编辑区域不超过整张图的50%。

在"编辑区域是什么形状"这个问题上，55%是分散的小孔洞状（比如抹去多个小污点），34%是细长的条状，而方形和不规则形状加在一起只占11%。

这些数据指向一个重要结论：绝大多数情况下，AI根本不需要对整张图片的每个角落都进行精细计算。用户只是想改变图片的一小块，AI却要对着整张图片劳心费力，这就是浪费。就像你只是想修改一篇文章的第三段，系统却非要把整篇文章重新排版一遍——这显然不合理。

这个洞察奠定了整个HiLo-Token方法的基础：聪明地选择哪些地方需要精细处理，哪些地方粗看一眼就够了。

三、"精修区"与"扫一眼区"：两种令牌的分工之道

HiLo-Token的名字里，"Hi"代表高频（High Frequency），"Lo"代表低频（Low Frequency）。理解这两个词，需要先理解图像里的"频率"是什么意思。

回到那个流水线比喻——编辑区域就是流水线上那个需要重点改造的零件，而图像的其他部分是背景环境。流水线工人需要两种不同的信息：一是需要改造的零件本身及其附近的细节（高频信息，比如纹理、边缘、花纹），二是整个工厂的大体布局（低频信息，比如整体颜色、大致结构）。

高频信息就像图像里细腻的纹理——一块石砖墙的缝隙、一件衬衫的格子花纹、一幅油画的笔触。这类信息在图像里表现为颜色或亮度的快速变化。低频信息则是图像的大致轮廓和整体色调，比如天空是蓝色的、地面是灰色的——这些信息即使图像被大幅缩小，也不会失真太多。

HiLo-Token把这两类信息用完全不同的策略来处理，就像一位有经验的画家：对于需要修改的区域，他会拿着放大镜仔细观察周围的细节；对于远处的背景，他只需要眯着眼睛看个大概就够了。

具体来说，在高频令牌这条路上，研究团队会对原始图像进行适度的压缩处理（采用8倍压缩比的VAE编码器加上2倍的补丁嵌入层），保留足够的空间分辨率，确保那些细腻的纹理不会被"糊掉"。这条路会产生大量的令牌，所以需要进行精心的筛选，只保留最有价值的那些。

在低频令牌这条路上，图像会被激进地缩小16倍——一张2048×2048的图像会被缩成128×128——然后经过VAE编码器和一个专门的"低频补丁嵌入层"来提取信息。因为缩得太小，生成的令牌数量极少，所以这部分令牌可以全部保留。这些令牌只能告诉AI图像的大概模样，但这就足够了——它们的任务是让AI不要"迷失方向"，知道整体的结构是什么样的。

最后，两部分令牌被拼接在一起，组成"HiLo-Token"表示，送入DiT进行处理。整个过程里最神妙的部分，是高频令牌的筛选机制。

四、用"边缘探测器"代替昂贵的"注意力分析"

如何判断图像的哪些区域包含丰富的高频信息，值得让AI多花心思呢？

直觉上，你可能会说：让AI先看一眼图像，根据它自己觉得哪里重要来选择。这种方法叫做"基于注意力的令牌选择"，确实有人尝试过。但研究团队发现这种方法存在一个致命缺陷。

考虑这样一个场景：图片里有一面对称的教堂壁画，正中间有一块区域被用户标记为要删除的对象（比如一个交通标志遮挡了壁画）。删除这个标志之后，AI需要根据壁画的另一半来"脑补"出被遮挡的那部分内容，因为壁画是对称的。

问题在于，被遮挡的那部分内容此时并不存在。AI在扩散过程的早期步骤里，还没有生成那部分内容，自然也就没有有意义的"注意力信号"来告诉系统"对面的那面壁画很重要"。结果就是，基于注意力的方法会忽略掉那面对称的壁画，AI最终脑补出来的内容会和整体风格完全不搭。

研究团队转向了一种更简单、更可靠的方案：Sobel算子边缘检测。这是计算机视觉领域一个已经有几十年历史的经典技术，说白了就是找出图像里颜色变化剧烈的地方。颜色变化剧烈的地方，往往就是纹理丰富、细节复杂的区域，也就是高频信息密集的区域。

Sobel算子的工作原理不复杂：用两个小型卷积核分别扫描图像的水平方向和垂直方向，计算每个像素在这两个方向上的颜色变化幅度，然后把两个方向的变化合成一个"空间频率图"。这个频率图里，数值越高的地方，代表那里的纹理越复杂、细节越丰富。

但仅仅有频率图还不够。如果直接根据阈值（比如0.1）来选择令牌，得到的是散落各处的零星令牌，就像棋盘上随机分布的棋子，对AI来说这种分散的信息很难有效利用。

研究团队加了一步"区域化"处理：把频率图进行16倍的空间池化，让相邻的小块自然聚合成更大的区域。这样一来，选择出来的高频令牌就不再是零散的点，而是连续的块状区域，AI能够更好地理解这些区域的上下文关系。

与此同时，用户指定的编辑区域会经过"膨胀"处理——把标记区域往外扩张一圈，确保编辑区域边缘附近的所有令牌都被纳入。这是因为编辑的内容需要和周围环境无缝融合，如果把编辑区域周边的上下文令牌都丢掉，生成的内容就会出现突兀的边界感。

整个令牌选择过程的计算代价极小，只用到了两次卷积操作和一次线性层操作，整体仅需约10毫秒，与DiT本身动辄数秒的计算时间相比，这点额外开销几乎可以忽略不计。

五、从"通才"到"专家"：模型的训练之路

HiLo-Token不是一个独立的工具，它被整合进了Adobe的图像编辑模型体系里。

Adobe有一个叫做MultiEdit（ME）的"通才"模型，基于Firefly Image 3预训练而来，有着20亿参数规模的DiT主干网络。这个通才模型几乎无所不能——对象插入、移除、替换、重新打光、文字编辑、相机角度调整、主体提取，都在它的能力范围之内。

但在实际产品部署中，"通才"并不总是最优解。以"移除"和"生成填充"这两个功能为例，它们的目标在某种意义上是相反的：一个要删掉内容，另一个要添加内容。如果硬把它们塞进同一个模型里一起训练，模型会产生干扰——比如在"移除"任务里，模型可能会不由自主地倾向于往空白处插入东西，留下奇怪的"幽灵内容"。

因此，通才模型ME会被进一步"专科化"——通过在精心筛选的专项数据集上进行监督微调（SFT），培养出针对不同任务的专家模型。比如用于Photoshop移除功能的"Erase Specialist"，就是在约40.7万个图像-蒙版对上微调而来，这些数据来自对象移除（包括合成渲染数据和真实世界数据）、修图、对象拼接与合成、手动遮罩，以及混合编辑等多个类别，跨越多种图像分辨率。

微调过程中，研究团队发现了一些很有意思的规律。如果训练数据里对象移除的样本太少，模型就需要更长的训练时间才能抑制"往空白处插东西"的冲动；反之，如果训练时间太长，模型又会开始在编辑区域和周围环境的边界处产生接缝感，像是"打补丁"的痕迹。这需要在训练过程中仔细监控，找到那个恰到好处的平衡点。

HiLo-Token就是在这个监督微调阶段被注入模型的——让模型从一开始就学会"只看关键地方"，而不是在训练好之后才被强行剪枝。

在微调完成之后，研究团队还会对模型进行"步骤蒸馏"。原始扩散模型需要50个去噪步骤才能生成一张高质量的图像，在A100 GPU上处理一张1K分辨率的图像就需要约7秒，这对于生产环境来说太慢了。通过一种叫做分布匹配蒸馏（Distribution Matching Distillation，DMD）的技术，可以训练出一个"学生模型"，让它用8个步骤就能生成和50步骤"老师模型"质量相当的结果。具体做法是最小化学生模型和教师模型生成结果之间的统计差异（KL散度），同时引入对抗性训练（GAN）来进一步提升生成质量。

整个训练过程在4个节点、共32块A100 GPU上进行，采用BF16混合精度计算和全分片数据并行（FSDP）技术来高效利用硬件资源。

六、真实的测试结果：钱到底省了多少

研究团队在一批包含92个代表性真实用户编辑案例的评测集上验证了HiLo-Token的效果。这些案例被按照编辑区域大小（蒙版比例）分成三组：小蒙版组（平均蒙版比例6.38%）、中蒙版组（15.92%）和大蒙版组（35.36%）。

加速效果非常直观。在DiT模块这个最大的计算瓶颈上，小蒙版的情况下加速比达到了3.13倍，中等蒙版是2.59倍，大蒙版是1.67倍。逻辑很清晰：编辑区域越小，可以丢弃的无关令牌就越多，加速效果也就越明显。落实到端到端的整体推理时间，三组对应的整体加速比分别是1.33倍、1.66倍和1.77倍。

在质量评估上，研究团队没有依赖FID（图像生成质量的常见指标）或CLIP分数（衡量图文匹配程度的指标），因为他们认为这些指标并不能准确反映图像编辑的质量。他们转而依赖专业的质量工程（QE）团队进行人工盲评，让评测人员在不知道哪个版本使用了HiLo-Token的情况下，比较两种方法的输出结果。

结果显示，对于移除功能，48%的案例两个版本质量相当，27%的案例使用HiLo-Token的版本更好，25%的案例原版更好。对于生成填充功能，70%打平，24%使用HiLo-Token的更好，仅6%原版更好。对于生成扩展功能，81%打平，10%使用HiLo-Token的更好，9%原版更好。也就是说，在绝大多数情况下，用户根本感知不到任何质量差异，甚至在某些情况下，经过令牌压缩的版本质量还更好一些。

在基础设施成本上，效果更加可观。根据图1b所展示的数据，引入HiLo-Token之后，运行Adobe移除功能所需的亚马逊AWS p5.48xlarge节点（每个节点配备8块H100显卡，每小时费用55.04美元）数量减少了33%。这意味着，仅仅通过这一项技术改进，Adobe每年可以节省的服务器成本是相当可观的数字。

研究团队还验证了HiLo-Token与其他优化技术的兼容性。与FP8量化（一种减少数值精度以加快计算的技术）结合使用，可以在HiLo-Token基础上再减少40%的DiT延迟。若把8步推理进一步蒸馏到5步，可以额外降低37.5%的延迟，质量下降仅影响不到5%的图像，在可接受范围内。此外，HiLo-Token也与VAE和Refiner模块的优化完全兼容，从而实现端到端的整体提速。

七、与同类方法的差异

把HiLo-Token放在更大的背景下来看，它属于"令牌级效率优化"这一大类方法，这类方法的核心思路是减少参与注意力计算的令牌数量，从而降低计算量。

现有的类似工作包括令牌合并（ToMe，把相似的令牌合并成一个）、令牌剪枝（直接删除不重要的令牌）、以及空间分辨率下采样（把整幅图像缩小后再处理）等。这些方法各有其局限性：要么对图像编辑这类特定任务的支持不够好，要么在压缩比较激进时会出现明显的质量下降，要么根本没有考虑到用户自定义蒙版这一核心交互模式。

与HiLo-Token最相关的两个前作是LazyDiffusion和DiffCR。LazyDiffusion是整个HiLo-Token框架的基础，它提出了只在蒙版区域内进行生成的核心思路，但它依赖一个基于Transformer的上下文编码器来提取编辑区域之外的信息，这个编码器本身就不便宜——而且因为上下文令牌和蒙版令牌是沿特征维度拼接的，大量有用的上下文信息在处理过程中被丢弃了。

HiLo-Token的改进体现在三个层面：用轻量级的Sobel边缘检测替代了昂贵的Transformer上下文编码器；把上下文令牌的拼接方式从特征维度改为令牌维度，避免了上下文信息的浪费；并且引入了"输入自适应"机制，根据每张图像的具体内容动态决定选择多少以及选择哪些令牌，而非对所有图像一视同仁地应用固定的压缩比。

说到底，这项研究解决的是一个非常实际的工程问题：怎么让强大的AI图像编辑功能跑得更快、花更少的钱，同时不让用户感知到任何质量下降。答案不是什么深奥的理论突破，而是一个基于常识的洞察——大多数用户只改图片的一小块，没有必要对整张图片每个角落都精雕细琢。把这个洞察转化为技术方案，需要解决一系列工程上的具体问题：如何智能地选择哪些地方需要精细处理，如何低成本地提取整体结构信息，如何让这套机制适应不同复杂度的图像内容，以及如何让整个方案无缝融入现有的训练和部署流程。

研究团队给出的答案——用经典的Sobel边缘检测来识别高频区域，用激进下采样来捕获低频全局结构，用区域化处理让令牌选择更连贯——每一步都简洁而有效。由此可见，好的工程解决方案不一定需要最新的技术，关键在于找准问题的本质，然后选择最合适的工具。

这对普通Photoshop用户意味着什么？当你在最新版本的Photoshop里使用移除或生成填充功能时，AI响应速度提升的背后，正是这套"看图省钱"方案在默默运行。它的存在，让Adobe能够用更少的服务器资源服务更多的用户，也为未来进一步提升体验创造了空间。

至于HiLo-Token能否推广到更广泛的图像生成任务（比如没有用户蒙版的纯文生图），或者能否在移动端这样内存受限的环境下发挥作用，这些都是值得进一步探索的问题。有兴趣深入了解技术细节的读者，可通过论文编号arXiv:2606.13898查阅完整原文。

Q&A

Q1：HiLo-Token是什么技术？

A：HiLo-Token是Adobe开发的一种AI图像编辑加速框架，核心思路是把图像分成"值得精细处理的高频区域"和"粗看一眼就够的低频区域"，让AI重点处理关键位置，跳过不重要的地方，从而在不影响画质的前提下大幅减少计算量，在小蒙版编辑场景下最高可实现3.13倍加速。

Q2：HiLo-Token用了什么方法来判断图像哪里重要？

A：研究团队没有采用昂贵的注意力分析方法，而是使用了经典的Sobel算子边缘检测——找出图像里颜色变化剧烈（即纹理丰富）的区域作为高频令牌，同时用16倍激进下采样的图像来提取低频的全局结构信息。两部分信息拼接后送入AI模型处理，计算额外开销仅约10毫秒。

Q3：Photoshop用了HiLo-Token之后质量会下降吗？

A：根据Adobe专业质量工程团队的盲评结果，移除功能有48%的案例质量相当，生成填充功能有70%打平，生成扩展功能有81%打平，而且在部分案例中使用HiLo-Token的版本质量还更好。整体来说，用户在日常使用中基本感知不到任何质量变化。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.