网易首页 > 网易号 > 正文 申请入驻

拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳

0
分享至

文本、图像和轨迹分别对应视频的三个基本控制方面:语义、空间和时间。

随着 ChatGPT、GPT-4、LLaMa 等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的 AI 生成还面临着较大的挑战。

现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本、图像或轨迹来控制视频的生成,无法实现视频的细粒度控制;其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3.6M 等简单数据集上进行的,这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。

基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞,通讯作者段楠。

论文地址:https://arxiv.org/abs/2308.08089

以拖动(drag)的方式给出运动轨迹,DragNUWA 就能让图像中的物体对象按照该轨迹移动位置,并且可以直接生成连贯的视频。例如,输入一幅静态的两个滑滑板的小男孩图片,经过以下8种不同的拖拽轨迹,DragNUWA就可以生成不同的滑滑板的视频:

除此之外,DragNUWA还可以「变换」静态景物图像的相机位置和角度,比如镜头的上下左右移动、放大或者缩小:

方法简介

该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的,因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图 1 所示,仅文本和图像的组合不足以传达视频中存在的复杂运动细节,这可以用轨迹信息来补充;仅图像和轨迹组合无法充分表征视频中的未来物体,文本控制可以弥补这一点;在表达抽象概念时,仅依赖轨迹和文本可能会导致歧义,图像控制可以提供必要的区别。

DragNUWA 是一种端到端的视频生成模型,它无缝集成了三个基本控件 —— 文本、图像和轨迹,提供强大且用户友好的可控性,从语义、空间和时间角度对视频内容进行细粒度控制。

为了解决当前研究中有限的开放域轨迹控制问题,该研究重点关注三个方面的轨迹建模:

  • 使用轨迹采样器(Trajectory Sampler,TS)在训练期间直接从开放域视频流中采样轨迹,用于实现任意轨迹的开放域控制;
  • 使用多尺度融合(Multiscale Fusion,MF)将轨迹下采样到各种尺度,并将其与 UNet 架构每个块内的文本和图像深度集成,用于控制不同粒度的轨迹;
  • 采用自适应训练(Adaptive Training,AT)策略,以密集流为初始条件来稳定视频生成,然后在稀疏轨迹上进行训练以适应模型,最终生成稳定且连贯的视频。

实验及结果

该研究用大量实验来验证 DragNUWA 的有效性,实验结果展示了其在视频合成细粒度控制方面的卓越性能。

与现有专注于文本或图像控制的研究不同,DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性,该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。DragNUWA 虽然没有明确地对相机运动进行建模,但它从开放域轨迹的建模中学习了各种相机运动,能够使用拖拽(drag)来控制镜头的上下左右移动和缩放。为了评估 DragNUWA 对复杂运动的精确建模能力,该研究使用相同的图像和文本对各种复杂的拖动(drag)轨迹进行了测试,能够控制多个物体按照复杂的轨迹产生合理的运动。

此外,DragNUWA 虽然主要强调轨迹控制建模,但也融合了文本和图像控制。研究团队认为,文本、图像和轨迹分别对应视频的三个基本控制方面:语义、空间和时间。下图 6 通过展示文本(p)、轨迹(g)和图像(s)的不同组合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)说明了这三个控制条件的必要性。

图像到视频(s2v)和文本到视频(p2v)说明了图像和文本作为单独控制条件的局限性。在s2v中,尽管单独的图像提供了一些潜在的语义和运动信息,但它不能对背景和角色的运动进行精确控制。在p2v中,当只提供文本时,模型成功地生成了与文本相关的视频,但外观和运动轨迹完全无法控制。图像轨迹到视频(gs2v)和文本图像到视频(ps2v)例子说明了文本(p)和轨迹(g)的重要性。在gs2v中,由于缺乏了文本,无法确定模糊的图像(s)是在海上冲浪还是在雪地上冲浪。在ps2v中,由于缺乏了估计,模型根据根据滑板的方向自动的选择了角色向左移动。最后,文本图像轨迹到视频(pgs2v)展示了所有三个基本条件的综合影响,实现了在雪地上冲浪并向右移动的精准控制。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

作者简介

本文共一作者:

殷晟明,目前是中国科学技术大学的博士研究生一年级学生。他的研究方向为多模态理解和生成。

吴晨飞,微软亚洲研究院高级研究员。研究方向涵盖了大模型预训练、多模态理解和生成。主要研究工作包括多模态生成模型NUWA(女娲)系列(NUWA, NUWA-LIP, NUWA-Infinity, NUWA-3D, NUWA-XL)、多模态理解模型Bridge Tower(桥塔)系列(KD-VLP, Bridge-Tower)以及多模态对话系统(Visual ChatGPT, TaskMatrix.AI)。

本文通讯作者:

段楠,微软亚洲研究院资深首席研究员,自然语言计算团队研究经理,中国科学技术大学、西安交通大学兼职博导,天津大学兼职教授,主要从事自然语言处理、多模态基础模型、代码智能、机器推理等研究,多次担任NLP/AI学术会议程序主席和领域主席,发表学术论文100余篇,Google Scholar引用10000余次,持有专利20余项。他被评为中国计算机协会(CCF)杰出会员、CCF-NLPCC青年科学家(2019年)、DeepTech中国智能计算科技创新人物(2022年)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
招商证券净利123亿再创历史新高,财富管理为第一收入,AI券商建设实现三大突破

招商证券净利123亿再创历史新高,财富管理为第一收入,AI券商建设实现三大突破

财联社
2026-03-28 20:06:10
这是田曦薇的素颜照,你还能第一眼认出来她吗

这是田曦薇的素颜照,你还能第一眼认出来她吗

TVB的四小花
2026-03-29 00:11:41
伊朗宣布动手,101枚导弹砸向美国航母,打破美军不可战胜神话!

伊朗宣布动手,101枚导弹砸向美国航母,打破美军不可战胜神话!

漫步独行侠
2026-03-27 08:35:14
人不会无故得阴道癌!医生直言:有阴道癌的女性,多半有3个习惯

人不会无故得阴道癌!医生直言:有阴道癌的女性,多半有3个习惯

健康之光
2026-02-11 14:14:41
中国的“性萧条”时代,正式到来了

中国的“性萧条”时代,正式到来了

律法刑道
2025-12-15 08:28:58
1组写真2种解读:徐璐的“温婉人设”该守还是该破?

1组写真2种解读:徐璐的“温婉人设”该守还是该破?

传递满满正能量
2026-03-28 06:29:15
3月最后一周,运势不错,诸事顺遂的3个生肖,吉星眷顾,求财易得

3月最后一周,运势不错,诸事顺遂的3个生肖,吉星眷顾,求财易得

小智223
2026-03-26 18:25:48
陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
为啥是现役军官?为啥目标是中国使馆?为什么偏偏在这个时间点?

为啥是现役军官?为啥目标是中国使馆?为什么偏偏在这个时间点?

贱议你读史
2026-03-29 05:25:03
美国对台军售彻底摊牌!中方不再忍让,三记重拳直打七寸!

美国对台军售彻底摊牌!中方不再忍让,三记重拳直打七寸!

达文西看世界
2026-03-28 15:01:51
人民日报副总编辑公开表达不满:我困惑很久,不吐不快!

人民日报副总编辑公开表达不满:我困惑很久,不吐不快!

霹雳炮
2025-12-08 22:03:16
男子自驾游至海南遇美女搭车,同行三天后,他才知道自己逃过死劫

男子自驾游至海南遇美女搭车,同行三天后,他才知道自己逃过死劫

林林故事揭秘
2025-04-10 14:49:38
英国方面不满阿劳霍:他的犯规非常恶劣,差点踢断福登的腿

英国方面不满阿劳霍:他的犯规非常恶劣,差点踢断福登的腿

懂球帝
2026-03-28 22:11:06
奉劝男性:若不想被前列腺炎折磨下半生,尽早改掉这4大习惯!

奉劝男性:若不想被前列腺炎折磨下半生,尽早改掉这4大习惯!

全球军事记
2026-03-02 10:13:18
徐根宝估计也没想到,被他放弃的霍智宇,如今已是上海房地产大佬

徐根宝估计也没想到,被他放弃的霍智宇,如今已是上海房地产大佬

冷紫葉
2026-03-27 15:09:39
笑不活了,天价的祖母绿,被中国人给打下来了!

笑不活了,天价的祖母绿,被中国人给打下来了!

果壳
2026-03-28 16:07:16
中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

健康之光
2026-03-23 20:10:05
新华社消息|伊朗决定促进人道主义货船安全通行霍尔木兹海峡

新华社消息|伊朗决定促进人道主义货船安全通行霍尔木兹海峡

新华社
2026-03-28 10:47:01
周星驰抱着刘嘉玲,既自然又纯洁,看起来就像姐弟俩。

周星驰抱着刘嘉玲,既自然又纯洁,看起来就像姐弟俩。

喜文多见01
2026-03-26 20:21:19
韩国逃点仍0-4完败非洲劲旅 热身赛3连胜终结 3次中柱+孙兴慜哑火

韩国逃点仍0-4完败非洲劲旅 热身赛3连胜终结 3次中柱+孙兴慜哑火

我爱英超
2026-03-28 23:58:44
2026-03-29 06:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12620文章数 142598关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

伊朗:击中美军F-16战机 强力反击加速以政权崩溃

头条要闻

伊朗:击中美军F-16战机 强力反击加速以政权崩溃

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

数码
手机
亲子
艺术
旅游

数码要闻

苹果或重启与长江存储合作 国行机型拟采用国产NAND

手机要闻

华为手机全面回归!畅享90 Pro Max下周首销:1699元起

亲子要闻

小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

艺术要闻

毛泽东手笺惊现美国拍卖会,满纸峥嵘往事......

旅游要闻

泰安市岱岳区:赏梨花 看村晚 万亩梨园迎客来

无障碍浏览 进入关怀版