香港大学打造"万能图像编辑器":一个AI模型搞定所有图片处理需求|上下文|新论文|图像处理

分享至

来源：市场资讯

（来源：科技行者）

这项由香港大学联合Adobe公司开展的突破性研究发表于2024年12月的arXiv预印本平台（论文编号：arXiv:2412.07774v2），为图像生成和编辑领域带来了革命性的解决方案。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

在我们的日常生活中，图片编辑已经变得无处不在。无论是在社交媒体上分享照片，还是为工作制作宣传材料，我们都经常需要对图像进行各种处理：有时需要添加或删除某个物体，有时要改变图片的风格，有时要将不同图片中的元素组合在一起。然而，传统的做法就像是为每种不同的烹饪需求都准备一套专门的厨具一样麻烦——想要做炒菜需要一套设备，做烘焙又需要另一套完全不同的工具。

研究团队面临的核心挑战是：能否创造出一个"万能厨房"，用同一套设备就能完成所有的烹饪任务？在图像处理的世界里，这意味着能否设计出一个统一的AI模型，既能生成全新的图像，又能进行各种复杂的编辑操作，还能处理多个图像的组合和定制需求。

这个研究的意义远不止于技术突破。对于普通用户来说，这意味着未来可能只需要学会使用一个工具，就能完成目前需要多个不同软件才能实现的所有图像处理任务。对于创意工作者而言，这将极大地简化工作流程，让他们能够更专注于创意本身，而不是纠结于技术操作。更重要的是，这种统一的处理方式能够确保不同任务之间的结果保持一致性，就像同一个厨师用同一套调料做出的不同菜品都有着相似的风味特色一样。

研究团队的创新之处在于，他们没有继续沿用传统的"为每个任务设计专门工具"的思路，而是采用了一个全新的视角：将各种不同的图像处理任务都看作是"不连续的视频生成"过程。这个想法乍听起来可能有些奇怪，但实际上非常巧妙。他们观察到，现有的视频生成技术已经能够很好地处理连续帧之间既要保持一致性又要体现变化的复杂需求，这恰好与图像编辑任务的本质需求不谋而合。

一、化繁为简的统一框架设计

研究团队构建的UniReal系统就像是一个极其聪明的管家，能够根据主人的不同需求灵活调配资源。这个系统的核心理念是将所有的图像处理任务都视为"处理一组图像帧"的过程，就好比将各种不同的料理方式都看作是"处理一组食材"的变化过程。

在传统方法中，如果你想要进行图像编辑，需要使用专门的编辑软件；如果想要生成新图像，又需要另一个生成工具；如果要进行风格转换，可能还需要第三个程序。这就像是在厨房里为了做不同的菜而不断更换整套厨具一样效率低下。UniReal的做法则完全不同，它就像是一个多功能的智能烹饪机器人，无论你想做什么菜，它都能用同一套基础设备来完成。

系统的工作原理可以用拍电影来类比。在电影制作中，导演需要处理一系列不连续的场景，每个场景都有自己的特点，但整部电影需要保持风格和故事的连贯性。UniReal就是这样一个"AI导演"，它能够处理输入的多张图像（就像电影的不同场景），然后根据文字描述的"剧本"，生成符合要求的输出图像。

为了让这个系统能够准确理解用户的意图，研究团队设计了一套精巧的"沟通语言"。他们引入了图像索引系统，就像给每张图片贴上标签一样，用"IMG1"、"IMG2"来指代输入的图片，用"RES1"、"RES2"来表示期望的输出结果。这样，当用户说"把IMG1中的小狗放到IMG2的游泳池里"时，系统就能清楚地知道该如何操作。

更巧妙的是，研究团队还设计了一套分层的指令系统。这个系统有点像餐厅的点菜方式：你不仅要说出想吃什么菜（基础指令），还要说明偏好的口味（上下文指令），以及对食材的特殊要求（图像指令）。比如，基础指令可能是"在草地上放一只狗"，上下文指令会补充"要真实风格的"，图像指令则会说明"这张图片是背景图，那张图片是参考物体"。

这种分层设计的好处是显而易见的。就像同一道菜可以有不同的做法一样，同一个基本需求在不同的上下文下会产生完全不同的结果。如果上下文指令是"静态场景"，系统会保持背景不变，只进行局部调整；如果是"动态场景"，系统就会允许更大范围的变化和调整。

二、从视频中学习万物变化的规律

UniReal最令人印象深刻的创新之一，就是它学习知识的方式。传统的图像处理AI需要大量精心标注的训练数据，就像学习烹饪需要详细的食谱指导一样。但是收集这样的数据既耗时又昂贵，而且往往无法覆盖现实世界的所有情况。

研究团队采用了一个绝妙的策略：让AI从视频中自动学习。这个想法的精妙之处在于，视频本身就是一个天然的"变化展示库"。考虑一个简单的例子：一段展示日落的视频，从中午的明亮阳光到黄昏的柔和光线，再到夜晚的昏暗环境，自然地展示了光照条件如何影响同一个场景。对于AI来说，这就像是一本活生生的教科书，展示了真实世界中各种变化的规律。

更重要的是，视频中的变化往往都是合理和自然的。当一个物体从视频的一帧移动到另一帧时，它的阴影会相应地发生变化，反射会随着角度调整，整个场景的光照会保持一致性。这些复杂的物理规律，如果要人工编程实现会极其困难，但通过观察大量视频，AI可以自然地学会这些规律。

为了从原始视频中构建训练数据，研究团队开发了一套自动化的处理流程，就像是一条高效的生产线。这条生产线首先从视频中提取两个不连续的帧，然后使用现有的AI工具自动生成描述这两帧之间变化的文字说明。比如，如果第一帧显示一个空桌子，第二帧显示桌子上有一个苹果，系统就会自动生成"在桌子上添加一个苹果"这样的指令。

这种方法的优势是多方面的。首先，它能够处理的变化类型极其丰富：物体的添加和移除、颜色和纹理的变化、光照条件的调整、视角的转换等等。其次，由于这些变化都来自真实的视频，它们天然地符合物理规律和视觉常识。最后，这种方法的可扩展性极强，随着视频数据的增加，系统的能力也会相应提升。

研究团队还特别重视不同类型数据的整合。他们不仅使用了从视频中自动提取的数据，还结合了一些精心制作的专门数据集。这就像是在日常的自学基础上，再接受一些专业的辅导课程，确保在某些特定任务上达到更高的水准。整个训练数据集的规模达到了数千万个样本，涵盖了图像生成、编辑、定制、组合等各个方面。

三、突破传统的技术架构

UniReal的技术架构设计体现了研究团队对问题本质的深刻理解。他们没有采用传统的"为每个任务设计专门模块"的方法，而是构建了一个统一的处理框架，就像是设计了一台能够适应各种工作模式的万能机器。

系统的核心是一个基于Transformer架构的神经网络，这个网络有50亿个参数，相当于一个拥有巨大记忆容量和处理能力的电子大脑。与传统方法不同的是，这个网络使用"全注意力"机制来处理输入，这意味着每个输入元素都能够与其他所有元素进行信息交互，就像是一个高效的团队，每个成员都能与其他所有成员直接沟通。

为了处理不同类型的输入，系统采用了一种巧妙的编码方式。输入的图像首先被转换成一系列的"视觉令牌"，就像是将一幅画分解成许多小的色块，每个色块都包含了局部的视觉信息。文字描述则通过专门的文本编码器转换成"文本令牌"。这样，无论是图像还是文字，最终都变成了系统能够统一处理的数字表示。

特别值得注意的是系统的索引机制设计。为了让AI能够准确理解"IMG1中的狗"和"IMG2的背景"这样的指代关系，研究团队为每个输入图像添加了特殊的索引标记。这些标记就像是给每张图片戴上了专属的"身份证"，确保系统在处理复杂指令时不会混淆不同的图像来源。

系统的训练过程采用了渐进式的策略，就像学习一项复杂技能时从基础开始逐步提高难度一样。最初，系统在较低的分辨率（256×256像素）下学习基本的图像生成和编辑能力。掌握了基础技能后，系统逐步提升到更高的分辨率（512×512，最终达到1024×1024），同时处理更加复杂和精细的任务。

这种渐进式训练的好处是显著的。在低分辨率阶段，系统能够更快地学习基本的视觉概念和变化规律，而不会被过多的细节干扰。随着分辨率的提升，系统逐渐学会处理更加精细的纹理、更加复杂的光照效果、更加自然的阴影和反射。这个过程就像是先学会画草图，然后逐步学会添加细节和色彩一样。

四、超越预期的实际表现

当研究团队将UniReal与现有的最优秀系统进行对比时，结果令人印象深刻。在图像编辑任务的标准测试中，UniReal在多个关键指标上都取得了最佳成绩。特别是在指令理解准确性和输出图像质量方面，UniReal展现出了明显的优势。

以一个具体的例子来说明系统的能力：当用户要求"在游泳池中添加一头大象"时，传统的系统往往只是简单地将大象的图像粘贴到水面上，看起来极不自然。而UniReal不仅能够将大象合理地放置在水中，还会自动生成相应的水花、涟漪，调整大象的姿态使其看起来像是真的在游泳，甚至还会考虑水对光线的折射效果。

在图像定制任务中，UniReal展现出了出色的细节保持能力。比如，当用户提供一张写有特定标志的罐头图片，要求将其放置在水果桌上时，系统不仅能够准确地保持罐头上的所有细小文字和图案，还能根据新环境调整光照和阴影，使得最终结果看起来完全自然。

更令人惊讶的是，UniReal还展现出了一些"涌现能力"——即使没有专门针对某些任务进行训练，系统也能够通过组合已学会的技能来完成新的任务。例如，虽然系统主要是为处理单个物体插入而训练的，但它能够自动推广到多个物体的同时插入。当用户要求"将IMG1的玩具和IMG2的背包同时放到IMG3的桌子上"时，系统能够合理地安排两个物体的位置，避免重叠，并确保整体布局的美观性。

在用户体验研究中，研究团队邀请了多名评估者对不同系统的结果进行盲测比较。结果显示，在细节保持、指令遵循和图像质量三个维度上，用户都明显更偏好UniReal生成的结果。特别是在处理复杂光照和阴影效果方面，UniReal的表现远超其他系统。

研究团队还发现了一个有趣的现象：UniReal在处理一些边缘情况时表现出了令人意外的鲁棒性。比如，当输入图像质量较差或者指令描述不够清晰时，系统往往能够基于上下文做出合理的推断，而不是产生明显错误的结果。这种能力的来源可能是大规模视频数据训练带来的丰富经验积累。

五、技术创新的深层解析

UniReal的成功并非偶然，而是多个技术创新协同作用的结果。其中最关键的创新之一是"分层提示"系统的设计。这个系统就像是一个经验丰富的翻译，能够将用户的模糊需求转换成AI能够精确执行的具体指令。

传统的AI系统往往面临一个两难困境：如果指令过于简单，系统可能无法理解复杂的需求；如果指令过于复杂，普通用户又难以准确表达。UniReal的分层提示系统巧妙地解决了这个问题。它允许用户用自然语言表达基本需求，然后系统会自动分析并补充必要的技术细节。

例如，当用户简单地说"让这只狗看起来更可爱"时，系统会自动分析上下文，判断这可能需要调整狗的表情、姿态或者周围环境，然后相应地添加合适的上下文提示和图像提示。这个过程对用户来说是透明的，但确保了系统能够生成符合预期的结果。

另一个重要创新是系统处理多图像输入的方式。传统方法通常将不同的输入图像视为独立的信息源，然后尝试将它们组合在一起。UniReal则采用了更加统一的方法，将所有输入图像都视为一个"视觉故事"的不同章节，通过全局的注意力机制来理解它们之间的关系。

这种方法的优势在处理复杂的多对象场景时特别明显。当用户提供多张参考图像并要求进行复杂的组合时，系统能够理解不同对象之间的空间关系、尺寸比例和风格一致性要求，然后生成协调统一的最终结果。

从数据利用的角度来看，UniReal的另一个创新是充分利用了视频数据的时序信息。传统的图像生成模型通常只能从静态图像中学习，而UniReal能够从视频的动态变化中学习物体运动、光照变化、视角转换等复杂的视觉现象。这使得系统对真实世界的物理规律有了更深入的理解。

研究团队通过详细的消融实验证明了各个组件的重要性。当移除分层提示系统时，模型在处理复杂指令时的准确性显著下降。当使用较少的视频训练数据时，模型在处理光照和阴影效果时的表现明显变差。这些实验结果验证了设计选择的合理性。

六、实际应用中的多样化表现

UniReal在实际应用中展现出了令人惊喜的多样性和灵活性。系统不仅能够完成设计时预期的各种任务，还表现出了处理新型任务的能力，这些能力是通过已有技能的创新组合而涌现出来的。

在基础的图像编辑任务中，UniReal表现出了对细节的精确控制能力。当处理"为小狗戴上太阳镜"这样的任务时，系统不仅能够准确地将太阳镜放置在合适的位置，还会考虑镜片对周围光线的影响，调整小狗眼部的阴影，甚至在镜片中添加环境的反射。这种对物理现实的深度理解来自于大规模视频数据的训练。

在图像生成任务中，UniReal展现出了出色的风格一致性控制能力。用户可以通过上下文提示来指定想要的图像风格，比如"电影质感"、"水彩画风格"或"写实摄影"。系统会根据这些提示调整整个生成过程，确保最终结果符合指定的风格要求。

特别有趣的是系统在处理多对象交互时的表现。当用户要求"让IMG1中的猫和IMG2中的老鼠一起玩球"时，系统不仅能够将两个动物合理地放置在同一个场景中，还会创造出符合逻辑的互动场景：猫可能会摆出扑球的姿势，老鼠可能会显得有些紧张但又好奇，而球的位置会恰好处于两者之间的合理位置。

在图像定制任务中，UniReal展现出了优秀的身份保持能力。当用户提供一个特定物品的参考图像，然后要求在不同场景中生成该物品时，系统能够保持物品的关键特征不变，同时根据新环境进行合适的调整。例如，一个红色的咖啡杯在海滩场景中会体现出阳光的照射效果，在室内场景中则会呈现出柔和的室内光线特征。

系统还表现出了出色的空间推理能力。在处理"将玩具放在枕头后面"这样涉及空间关系的指令时，UniReal能够理解三维空间中的前后关系，生成正确的遮挡效果和透视关系。这种能力对于创建可信的合成图像至关重要。

更令人印象深刻的是，UniReal还展现出了一些意想不到的创造性能力。在处理一些开放性的任务时，比如"让这个场景变得更有趣"，系统会根据原始图像的内容添加合适的元素：在一个平淡的公园场景中可能会添加飞翔的鸟类或者玩耍的儿童，在一个简单的桌面场景中可能会添加有趣的装饰品或者书籍。

七、技术局限与未来展望

尽管UniReal在多个方面都取得了显著的进展，但研究团队也诚实地指出了当前系统的一些局限性。这些局限性不仅反映了技术发展的现状，也为未来的研究方向提供了明确的指引。

首先是计算资源的需求问题。UniReal作为一个拥有50亿参数的大型模型，需要相当可观的计算资源才能运行。对于普通用户来说，这意味着可能需要依赖云端服务才能使用这个系统，而不能在个人设备上直接运行。虽然这在当前的技术条件下是可以理解的，但限制了系统的普及和应用场景。

其次是处理图像数量的限制。虽然理论上UniReal可以处理任意数量的输入和输出图像，但实践中发现，当图像数量超过4-5张时，系统的稳定性会有所下降，计算复杂度也会显著增加。这对于某些需要同时处理大量图像的应用场景来说是一个制约因素。

在处理极端或者罕见场景时，系统偶尔会出现不够理想的结果。这主要是因为训练数据中这类场景的代表性不足。虽然大规模的视频训练数据覆盖了绝大多数常见情况，但对于一些特殊的艺术风格、极端的光照条件或者非常规的物体组合，系统的表现可能不如预期。

研究团队也注意到，在处理一些需要高度创意性的任务时，系统倾向于生成相对保守和"安全"的结果。这可能是因为训练过程中系统学会了避免生成可能被认为是错误的结果，但这也限制了其在创意应用中的表现。

对于这些局限性，研究团队提出了几个可能的改进方向。首先是模型压缩和优化，通过更高效的架构设计和训练方法来降低计算需求，使系统能够在更多类型的设备上运行。其次是扩展训练数据的多样性，特别是增加更多艺术性和创意性内容的训练样本。

另一个重要的改进方向是增强系统的可控性。虽然当前的系统已经提供了相当程度的控制能力，但用户仍然希望能够对生成过程进行更精细的调节。研究团队正在探索如何在保持系统易用性的同时，为高级用户提供更多的控制选项。

从更广阔的视角来看，UniReal代表了AI系统发展的一个重要趋势：从专门化向通用化的转变。这种趋势不仅体现在技术架构上，也反映在训练数据和应用模式上。未来的AI系统可能会越来越多地采用这种统一框架的设计理念，通过一个模型来处理多个相关任务。

研究团队也认识到，真正实用的AI系统不仅需要技术上的先进性，还需要考虑用户体验、成本效益和社会影响等多个方面。UniReal的发展为这些考虑提供了一个很好的案例研究，展示了如何在追求技术创新的同时兼顾实际应用的需求。

说到底，UniReal这项研究为我们展现了AI图像处理技术的一个激动人心的未来愿景。在这个愿景中，用户不再需要为不同的图像处理需求而学习使用多个不同的工具，而是可以通过一个统一的界面，用自然语言就能完成各种复杂的图像编辑和生成任务。

这种变化的意义远不止于技术层面的便利。它将显著降低创意表达的门槛，让更多的人能够轻松地将自己的想法转化为视觉内容。无论是社交媒体用户想要为照片添加有趣的元素，还是设计师需要快速制作概念图，或者是教育工作者想要创建生动的教学材料，UniReal这样的技术都能提供强有力的支持。

从商业应用的角度来看，这种统一的图像处理能力将为内容创作、广告制作、产品设计等行业带来深远的影响。企业可以更快速、更经济地制作高质量的视觉内容，而创意工作者则可以将更多精力投入到创意构思而非技术实现上。

当然，这项技术的发展也提醒我们需要思考一些重要的问题。随着AI生成内容变得越来越逼真和易于制作，我们需要建立相应的识别机制和使用规范，确保技术的发展能够促进而非损害社会的整体福祉。研究团队在论文中也提到了这些考虑，强调了负责任的技术开发和应用的重要性。

UniReal的出现标志着我们正在步入一个新的时代，在这个时代中，人工智能不再是冷冰冰的技术工具，而是能够理解和实现人类创意想法的智能伙伴。虽然目前这项技术还处于研究阶段，但它所展现的可能性让我们有理由对未来充满期待。随着技术的进一步发展和完善，我们或许很快就能看到这样的能力在日常生活中变成现实。

Q&A

Q1：UniReal是什么？

A：UniReal是由香港大学和Adobe公司联合开发的统一图像生成编辑框架。它的核心创新是用一个AI模型就能完成传统上需要多个不同工具才能实现的所有图像处理任务，包括图像生成、编辑、定制和组合等功能。

Q2：UniReal和传统图像处理软件有什么区别？

A：传统软件需要针对不同任务使用不同工具，而UniReal通过统一框架用自然语言指令就能完成各种任务。它能更好地处理光照、阴影、反射等物理效果，生成的图像更加真实自然，并且不同任务间结果保持一致性。

Q3：普通人能使用UniReal吗？

A：目前UniReal还处于研究阶段，需要相当的计算资源运行。虽然普通用户暂时无法直接使用，但未来可能会通过云服务形式提供给普通用户，让任何人都能用简单的文字描述完成复杂的图像编辑任务。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.