阿里开源ChatGPT类视觉生成对话系统ACE，全面可交互处理创作和编辑任务|模态|阿里巴巴集团

阿里开源ChatGPT类视觉生成对话系统ACE，全面可交互处理创作和编辑任务

2024-10-08 08:38:08　来源: 带你学AI

广东举报

分享至

扩散模型是一种非常强大的生成技术，目前已经在多个领域展现出了应用潜力。不过，大多数现有的基础扩散模型主要是为“文本引导的视觉生成”设计的，不能支持多模态（即同时处理多种输入信息），而多模态能力对于许多图像编辑任务是非常重要的。这种局限性使得这些基础扩散模型还不能像自然语言处理领域的 GPT-4 那样，成为视觉生成领域的“全能选手”。

为了解决这个问题，阿里提出了一个叫 ACE 的系统，意为“全能创作者和编辑”。这个系统在各种视觉生成任务上，性能与那些专门的模型不相上下。由于 ACE模型具备“一体化”的功能， ACE可以轻松构建一个聊天系统，通过单一模型作为后端，处理任何图像生成请求，避免了以往视觉生成系统中繁琐的操作流程。（10月底开源，链接在文章底部）

01 技术原理

ACE 系统能够处理多种图像生成和编辑任务，将这些任务分为8种基本类型。根据输入信息的不同（绿色部分），它可以进行多次对话生成和长上下文生成。此外，所有任务都采用了统一设计的输入格式，分为3种不同的形式（蓝色部分）来处理。

ACE 系统的工作原理大致如下：首先，条件标记模块会对每个输入进行处理，把它们变成视觉和文本的标记序列。然后，图像指示符嵌入模块通过特定的文本标记来标明图像的顺序，帮助系统区分不同的图片。最后，长上下文注意力模块则负责确保系统能够很好地处理和整合那些需要长时间关联的信息。

在数据构建过程中，使用了两种方法-利用开源的专家模型进行合成：通过已有的专家模型生成数据；从大规模数据中挖掘：从大量的现有数据中寻找有用的信息。在指令标注方面，结合了两种技术-模板生成：使用固定的模板生成一些常见的指令；MLLM（多模态大语言模型）标注：利用训练好的多模态大语言模型进行标注。此外，还进一步训练了一个“指令描述器”，使其能够大规模自动生成指令标注。

02 实际应用

在图像生成和编辑任务中，输入的条件信息会根据任务类型而有所不同，分为文本条件和视觉条件。文本条件可分为生成类指令（描述生成图像的内容）和编辑类指令（描述如何修改已有图像）。视觉条件包括8种任务类型：文本引导生成（仅依赖文本提示生成图像）、低级视觉分析（从输入图像中提取特征进行生成）、可控生成（基于边缘图、深度图等条件生成图像）、语义编辑（修改图像的语义属性）、元素编辑（添加、删除或替换图像中的特定元素）、重新绘制（根据遮罩和指令重新绘制图像部分）、图层编辑（分解或合成图像的不同图层）以及参考生成（根据参考图像生成新图像）。

应用一：聊天机器人

应用二：长片制作的关键帧

https://arxiv.org/pdf/2410.00086
https://github.com/modelscope/scepter

欢迎交流～，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.