网易首页 > 网易号 > 正文 申请入驻

UniReal登场:统一图像生成与编辑,还学到真实世界动态变化规律

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文一作陈汐,现为香港大学三年级博士生,在此之前本科硕士毕业于浙江大学,同时获得法国马赛中央理工双硕士学位。主要研究方向为图像视频生成与理解,在领域内顶级期刊会议上发表论文十余篇,并且 GitHub 开源项目获得超过 5K star.

本文中,香港大学与 Adobe 联合提出名为 UniReal 的全新图像编辑与生成范式。该方法将多种图像任务统一到视频生成框架中,通过将不同类别和数量的输入/输出图像建模为视频帧,从大规模真实视频数据中学习属性、姿态、光照等多种变化规律,从而实现高保真的生成效果。

  • 论文标题:UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
  • 项目主页:https://xavierchen34.github.io/UniReal-Page/
  • 论文链接:https://arxiv.org/abs/2412.07774

效果展示

我们重点展示了图像生成与编辑中最具挑战性的三个任务的效果:图像定制化生成、指令编辑和物体插入

此外,UniReal 还支持多种图像生成、编辑及感知任务,例如文本生成图像、可控图像生成、图像修复、深度估计和目标分割等。

在单目标定制化生成任务中,UniReal 能够在准确保留目标细节(如 logo)的同时,生成具有较大姿态和场景变化的图像,并自然地模拟物体在不同环境下的状态,从而实现高质量的生成效果。

与此同时,UniReal 展现了强大的多目标组合能力,能够精确建模不同物体之间的交互关系,生成高度协调且逼真的图像效果。

值得注意的是,我们并未专门收集人像数据进行训练,UniReal 仍能够生成自然且真实的全身像定制化效果,展现了其出色的泛化能力。

在指令编辑方面,UniReal 支持用户通过自由输入文本对图像进行灵活编辑,例如添加或删除物体、修改属性等。实验结果表明,UniReal 展现出了卓越的场景理解能力,能够真实地模拟物体的阴影、反射以及前后遮挡关系,生成高度逼真的编辑效果。

UniReal 支持从图像中提取特定目标作为前景,插入到背景图像中,天然适用于虚拟试衣、Logo 迁移、物体传送等任务。实验表明,UniReal 插入的目标能够非常自然地融入背景图像,呈现出与背景一致的和谐角度、倒影效果及环境匹配度,显著提升了任务的生成质量。

除了上述任务外,UniReal 还支持文本生成图像、可控图像生成、参考式图像补全、目标分割、深度估计等多种任务,并能够同时生成多张图像。此外,UniReal 支持各类任务的相互组合,从而展现出许多未经过专门训练的强大能力,进一步证明其通用性和扩展性。

方法介绍

UniReal 的目标是为图像生成与编辑任务构建一个统一框架。我们观察到,不同任务通常存在多样化的输入输出图像种类与数量,以及各自独特的具体要求。然而,这些任务之间共享一个核心需求:在保持输入输出图像一致性的同时,根据控制信号建模图像的变化。

这一需求与视频生成任务有天然的契合性。视频生成需要同时满足帧间内容的一致性与运动变化,并能够支持不同的帧数输出。受到近期类似 Sora 的视频生成模型所取得优异效果的启发,我们提出将不同的图像生成与编辑任务统一到视频生成架构中。

此外,考虑到视频中自然包含真实世界中多样化的动态变化,我们直接从原始视频出发,构建大规模训练数据,使模型能够学习和模拟真实世界的变化规律,从而实现高保真的生成与编辑效果。

模型结构:我们借鉴了与Sora类似的视频生成架构,将不同的输入输出图像统一视作视频帧处理。具体来说,图像通过 VAE 编码后被转换为视觉 token,接着输入 Transformer 进行处理。与此同时,我们引入了T5 text encoder对输入指令进行编码,将生成的文本 token 与视觉 token 一同输入 Transformer。通过使用full attention机制,模型能够充分建模视觉和文本之间的关系,实现跨模态信息的高效融合和综合理解。这种设计确保了模型在处理多样化任务时的灵活性和生成效果的一致性。

层级化提示:为了解决不同任务和数据之间的冲突问题,同时支持多样化的任务与数据,我们提出了一种Hierarchical Prompt(层级化提示)设计。在传统提示词(Prompt)的基础上,引入了Context PromptImage Prompt两个新组件。

  • Context Prompt:用于补充描述不同任务和数据集的特性,包括任务目标、数据分特点等背景信息,从而为模型提供更丰富的上下文理解。
  • Image Prompt:对输入图像进行层次化划分,将其分为三类:
  • Asset(前景):需要重点操作或变更的目标区域;
  • Canvas(画布):作为生成或编辑的背景场景;
  • Control(控制):提供约束或引导的输入信号,如参考图像或控制参数。

为每种类别的输入图像单独训练不同的 embedding,从而帮助模型在联合训练中区分输入图像的作用和语义,避免不同任务和数据引发的冲突与歧义。

通过这种层级化提示设计,模型能够更高效地整合多样化的任务和数据,显著提升联合训练的效果,进一步增强其生成和编辑能力。

数据构造:我们基于原始视频数据构建了大规模训练数据集,以支持多样化的任务需求。具体步骤如下:

1. 编辑数据生成

从视频中随机抽取前后两帧,分别作为编辑前和编辑后的图像结果,并借助视觉语言模型(VLM)生成对应的编辑指令,以模拟多样化的图像编辑任务。

2. 多目标定制化生成

我们结合 VLM 与 SAM2,在视频首帧中分割出不同的目标区域,并利用这些目标区域重建后续帧,构造多目标定制化生成的数据。这种方式能够模拟目标在复杂场景中的动态变化,并为多目标生成任务提供高质量的数据支持。

3. 可控生成与图像理解标注

利用一系列图像理解模型(如深度估计模型)对视频和图像进行自动打标。这些标签不仅为可控生成任务(如深度控制生成)提供了丰富的条件信息,还为图像理解任务(如深度估计、目标分割)提供了标准参考。

通过这种基于原始视频的多层次数据构造策略,我们的模型能够学习真实世界中的动态变化规律,同时支持多种复杂的图像生成与理解任务,显著提升了数据集的多样性和模型的泛化能力。

效果对比

指令编辑任务中,UniReal 能够更好地保持背景像素的一致性,同时完成更具挑战性的编辑任务。例如,它可以根据用户指令生成 “蚂蚁抬起轿车” 的画面,并在轿车被抬起后动态调整冰面上的反射,使其与场景的物理变化相一致。这种能力充分展现了 UniReal 在场景理解和细节生成上的强大性能。

定制化生成任务中,无论是细节的精确保留还是对指令的准确执行,UniReal 都展现出了显著的优势。其生成结果不仅能够忠实还原目标细节,还能灵活响应多样化的指令需求,体现出卓越的生成能力和任务适应性。

物体插入任务中,我们与此前的代表性方法 AnyDoor 进行了对比,UniReal 展现出了更强的环境理解能力。例如,它能够正确模拟狗在水中的姿态,自动调整易拉罐在桌子上的视角,以及精确建模衣服在模特身上的状态,同时保留模特的头发细节。这种对场景和物体关系的高度理解,使 UniReal 在生成真实感和一致性上远超现有方法。

未来展望

UniReal 在多个任务中展现了强大的潜力。然而,随着输入和输出图像数量的进一步扩大,训练与推理效率问题成为需要解决的关键挑战。为此,我们计划探索设计更高效的注意力结构,以降低计算成本并提高处理速度。同时,我们还将这一方案进一步扩展到视频生成与编辑任务中,利用高效的结构应对更复杂的数据规模和动态场景需求,推动模型性能与实用性的全面提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
55岁男子患有肝硬化每天吃猪肝,半年后复查,医生:你都吃了什么

55岁男子患有肝硬化每天吃猪肝,半年后复查,医生:你都吃了什么

芹姐说生活
2026-06-08 15:25:46
199元卖断货!没WiFi,没微信,没性能,凭什么被抢光

199元卖断货!没WiFi,没微信,没性能,凭什么被抢光

数码黄药师
2026-06-11 09:42:10
网传澳门出现非洲埃博拉病毒确诊病例?卫生局已紧急报案追责!官方:已全力做好各项准备工作防范输入...

网传澳门出现非洲埃博拉病毒确诊病例?卫生局已紧急报案追责!官方:已全力做好各项准备工作防范输入...

新浪财经
2026-06-12 18:53:24
外交部介绍缅甸总统敏昂莱访华具体安排和中方期待

外交部介绍缅甸总统敏昂莱访华具体安排和中方期待

界面新闻
2026-06-12 15:30:23
认知篇:中产留学家庭学生的破局思路!

认知篇:中产留学家庭学生的破局思路!

英国大学申请中心
2026-06-11 21:25:12
专家:金价重回历史高点仍具可能性

专家:金价重回历史高点仍具可能性

21世纪经济报道
2026-06-12 09:31:31
印度又有麻烦了!多地爆发抗议,莫迪无奈出动空军,大国梦碎一地

印度又有麻烦了!多地爆发抗议,莫迪无奈出动空军,大国梦碎一地

起喜电影
2026-06-12 16:00:01
新潮流,捷克手抛界外球创造进球,世界杯上次出现还在2010年

新潮流,捷克手抛界外球创造进球,世界杯上次出现还在2010年

砚底沉香
2026-06-12 11:58:11
哪些书像是来自另一个维度的智慧?网友:读完才知道我是井底之蛙

哪些书像是来自另一个维度的智慧?网友:读完才知道我是井底之蛙

夜深爱杂谈
2026-06-10 22:43:03
墙倒众人推!官媒点名张杰谢娜,一语道破两人口碑下滑的真正原因

墙倒众人推!官媒点名张杰谢娜,一语道破两人口碑下滑的真正原因

微风轻拂面
2026-06-11 17:15:01
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
防线全面崩溃,俄军攻占罗斯科什,中方不愿看到的事,还是出现了

防线全面崩溃,俄军攻占罗斯科什,中方不愿看到的事,还是出现了

似水流年忘我
2026-06-12 18:56:38
沃尔沃XC90放“大招”!给出22.6万优惠,网友:这也太狠了

沃尔沃XC90放“大招”!给出22.6万优惠,网友:这也太狠了

汽车网评
2026-06-12 21:44:03
30岁蛇蝎妻凭美貌四处勾搭情人,联合情夫掐死丈夫,半夜骡子沉尸

30岁蛇蝎妻凭美貌四处勾搭情人,联合情夫掐死丈夫,半夜骡子沉尸

法纪实录簿
2026-06-12 00:13:46
65岁大爷哭诉:和亲家母再婚2年,她对我很满意,我却有苦难言

65岁大爷哭诉:和亲家母再婚2年,她对我很满意,我却有苦难言

惟来
2026-06-12 15:21:40
发现一怪事:为啥98%蒙古人,都住俄罗斯一侧,而不是中国这边?

发现一怪事:为啥98%蒙古人,都住俄罗斯一侧,而不是中国这边?

清沐执笔
2026-06-10 18:15:10
最可怕的不是不生娃,是现在的年轻人,不觉得“断子绝孙”很可怕

最可怕的不是不生娃,是现在的年轻人,不觉得“断子绝孙”很可怕

杰丝聊古今
2026-06-13 03:07:21
膝盖疼就只能躺着?大错!这4个动作比吃药还管用,越动越好得快

膝盖疼就只能躺着?大错!这4个动作比吃药还管用,越动越好得快

徐孟医生说疼痛
2026-06-12 07:00:20
日韩关系升温,李在明强硬表态:日本不道歉不合作

日韩关系升温,李在明强硬表态:日本不道歉不合作

依偎在角落
2026-06-11 22:11:21
8000公里外传来意外之喜,这就是中国国运!美国急疯也没任何作用

8000公里外传来意外之喜,这就是中国国运!美国急疯也没任何作用

阿尢说历史
2026-05-30 19:26:50
2026-06-13 03:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13246文章数 142668关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

本地
游戏
时尚
房产
教育

本地新闻

AK刘彰邂逅河北南大港湿地

索尼PS国区运营神了!玩梗《黑袍》:我会玩你的游戏

夏天别总穿一身白或一身黑!试试一半彩色、一半基础色,高级亮眼

房产要闻

海南最赚钱行业曝光!最快4年半,海口全款买三房!

教育要闻

家长成了“疯女人”,被女儿作业搞崩溃,网友:太真实

无障碍浏览 进入关怀版