网易首页 > 网易号 > 正文 申请入驻

短剧时代即将来临?AI 自动生成剧本和多场景长视频

0
分享至

‍ 近年来随着扩散模型(diffusion models)的进步和发展,给定文本提示进行高质量视频生成技术有着显著的提升。这些技术方案大多针对已有的二维图像扩散模型进行拓展,将图像二维神经网络修正为视频三维神经网络,并基于扩散概率模型进行视频帧序列的去噪,完成视频生成。然而,这些现有方法依然围绕着单个场景的视频生成,对于多场景视频生成并未考虑,并且生成的视频长度也仅为2秒到4秒。

基于这样的问题,来自HiDream.ai公司的算法研究人员提出利用大语言模型针对输入的文本提示进行多场景事件描述的拓展,保证不同事件之间的逻辑性和场景中前景背景描述的一致性。其后,针对大语言模型提供的每一个事件所对应的前景背景描述,以及动作描述,利用视频扩散模型生成具有内容一致的视频片段,从而构建一个多场景的长视频


论文链接: https://arxiv.org/abs/2401.01256 项目主页: https://videodrafter.github.io/ 视频链接: https://www.youtube.com/watch?v=_aIrobrzu2g

一、研究背景:多场景视频生成任务及难点

当下基于扩散模型的视频生成主要针对单个场景下的动作事件,而对多场景的视频生成鲜有涉及。给定一个文本提示,并且生成具有良好逻辑性的多场景视频,是本工作研究的重点。相应的技术难点主要体现在以下两个方面:


  1. 如何保证不同事件之间具有良好的逻辑性(例如,给定文本提示为一个男孩踢球射门,在时序上男孩应该先进行运球,然后射门)



  2. 如何保证生成视频主体的视觉外貌特征一致(例如,以男孩踢球射门为例,不同场景下男孩的外貌穿着应该保持一致)


二、以大语言模型为基础的内容一致多场景视频生成模型:VideoDrafter


针对上述的两个技术难点,本工作提出了一个以大语言模型为基础的内容一致多场景视频生成方案VideoDrafter。该方案通过主要的三个步骤完成多场景视频生成。

第一步是首先通过大语言模型对输入的文本提示进行多场景事件描述拓写,将输入的单句文本转换为多场景的视频描述(Multi-scene video script generation),并且输出每个事件对应的前景和背景实体描述(Entity description)。

第二步是将每个事件对应的前景和背景实体描述利用文本到图像的扩散模型生成对应的前景和背景实体参考图(Entity reference image generation)。

最后一步是针对每个事件对应前景和背景实体参考图,以及事件的动作描述,利用视频扩散模型完成对该事件的视频生成。这里的最后一步本方案拆解为主要的两个步骤,即首先通过VideoDrafter-Img模型,利用前景和背景实体参考图以及事件动作描述,生成对应的场景事件参考图片(Scene reference image);然后通过VideoDrafter-Vid模型,再将动作赋予给场景事件参考图片,生成对应场景的视频。

本方案利用大语言模型保证了生成的不同事件描述的逻辑性,同时利用前景和背景实体参考图指导不同场景下视频内容的生成,因此可以良好地保证不同场景中的内容实体的视觉外貌特征的一致性

三、视频生成结果

首先用户可以通过输入一个文本提示(input prompt),生成具有良好逻辑性的,内容一致的多场景视频,以下是对应的文本提示和多场景视频生成结果:

生成视频1:


生成视频2:


生成视频3:


动态视频例子:


输入文本提示: A person with red clothes is preparing dessert in the kitchen


输入文本提示: A man and a woman drive a car from hills to city

其次,对于用户提供的真实图像作为前景和背景实体参考图,以及对应的事件文本提示,本方案同样可以生成内容一致的多场景视频,生成的视频结果如下:


动态视频例子:


前景和背景实体参考图


视频生成结果

(对应文本提示:The cat lies in the room → The cat lies in the driving car → The cat plays in the flowers)


前景和背景实体参考图


视频生成结果

(对应文本提示:The motorcyclist stays in the town → The motorcyclist is riding on the road under the sunset → The motorcyclist is riding on the moon)

对该方案的完整性能评测,以及更多的视频生成例子,请参考论文和对应的项目主页。

四、总结


  1. 本方案提出了VideoDrafter模型,一种以大语言模型为基础的内容一致多场景视频生成技术。



  2. 利用大语言模型对文本信息的强理解性,对输入的单个文本提示进行多场景视频事件的拓写,保证不同视频事件的逻辑相关性。



  3. 在对应不同事件的不同场景视频生成的过程中,利用前景和背景实体参考图指导视频的生成,保证了不同场景中视频内容主体在视觉外貌特征上的一致性。



  4. 本方案提及的多场景视频生成方案,对大语言模型的利用和保持视频内容一致性的尝试,希望对后续具有因果关系的视频生成具有一定的启发作用。


更多的技术细节,敬请参考论文原文。‍

论文链接: https://arxiv.org/abs/2401.01256

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美防长连谈70分钟,董军离席后道谢,美国想要的,中方没有松口

中美防长连谈70分钟,董军离席后道谢,美国想要的,中方没有松口

影孖看世界
2024-06-01 12:50:23
上港夏窗驰援津门虎保级的5人名单敲定,王燊超在列,蔡慧康领衔

上港夏窗驰援津门虎保级的5人名单敲定,王燊超在列,蔡慧康领衔

评球论事
2024-05-31 22:57:53
首次!余承东公开回应山西车祸事件

首次!余承东公开回应山西车祸事件

证券时报e公司
2024-05-31 21:51:45
六旬男医生吸吮女士私处已被拘留!医疗猥亵层出不穷,如何杜绝?

六旬男医生吸吮女士私处已被拘留!医疗猥亵层出不穷,如何杜绝?

丫头舫
2023-05-26 15:57:27
打包交易!马刺核心走人!场均30分5助,恭喜波波,你的韦德来了

打包交易!马刺核心走人!场均30分5助,恭喜波波,你的韦德来了

领袖阿尔弗图
2024-05-31 21:55:24
西路军牺牲2万多人,晚年徐向前复盘:若一直往西打,结局或扭转

西路军牺牲2万多人,晚年徐向前复盘:若一直往西打,结局或扭转

南书房
2024-05-30 21:10:02
以方称不会接受哈马斯永久停火的要求

以方称不会接受哈马斯永久停火的要求

财联社
2024-05-31 18:21:09
400亿身价,9个娃,真是妥妥的人生赢家

400亿身价,9个娃,真是妥妥的人生赢家

壹点心语
2024-05-30 01:40:42
第95分钟丢球,1-1,中国女足遭亚洲第3绝平,外籍主帅无缘开门红

第95分钟丢球,1-1,中国女足遭亚洲第3绝平,外籍主帅无缘开门红

侧身凌空斩
2024-05-31 20:09:49
中石油挥手告别普华永道,审计界地震来了!金融界波澜再起

中石油挥手告别普华永道,审计界地震来了!金融界波澜再起

橘色数码
2024-06-01 10:34:02
反转!女留学生坠亡案内幕:好友曝出聊天记录,证实其父亲有问题

反转!女留学生坠亡案内幕:好友曝出聊天记录,证实其父亲有问题

六毛朵朵
2024-05-30 15:39:49
华春莹出任外交部副部长,任职背景曝光惊呆网友!

华春莹出任外交部副部长,任职背景曝光惊呆网友!

华人星光
2024-05-27 14:25:29
过街老鼠人人喊打人人提防

过街老鼠人人喊打人人提防

凡事一定有办法13119
2024-05-29 11:50:18
王思聪游大阪环球影城,近照憔悴黑眼圈重,一双鞋子4万显廉价

王思聪游大阪环球影城,近照憔悴黑眼圈重,一双鞋子4万显廉价

牧歌侃娱
2024-05-30 12:58:50
一传不稳,拦防虚设,中国女排1-3日本队,朱婷替补登场难救主

一传不稳,拦防虚设,中国女排1-3日本队,朱婷替补登场难救主

湘楚风云
2024-05-31 21:26:48
为啥香港出租车宁可用30年的丰田皇冠,也不愿意用国产电车?

为啥香港出租车宁可用30年的丰田皇冠,也不愿意用国产电车?

阿珂谈汽车
2024-06-01 13:12:52
中国曾三次忍辱负重“装孙子”,完美躲过美国制裁!最终迎来崛起

中国曾三次忍辱负重“装孙子”,完美躲过美国制裁!最终迎来崛起

猫眼观史
2024-05-16 18:11:46
开始以为是化粪池,结果你告诉我是游泳池,这就是夏天的印度恒河

开始以为是化粪池,结果你告诉我是游泳池,这就是夏天的印度恒河

起喜电影
2024-05-31 15:00:45
陈立人曾在华人论坛称:东北人妻子性格暴躁,多次扇他脸还报警

陈立人曾在华人论坛称:东北人妻子性格暴躁,多次扇他脸还报警

泸沽湖
2024-02-03 17:59:42
逼良为娼,被强迫拍了50部三级片:从车模到女优,她只走错了一步

逼良为娼,被强迫拍了50部三级片:从车模到女优,她只走错了一步

爱过的人去了哪里
2022-06-19 16:40:26
2024-06-01 15:16:49
将门创投
将门创投
加速及投资技术驱动型初创企业
1805文章数 585关注度
往期回顾 全部

科技要闻

华为上新!余承东:问界6月销量将超4万辆

头条要闻

女子被家暴挂粪袋成功离婚 前夫曾写信:做人留一线

头条要闻

女子被家暴挂粪袋成功离婚 前夫曾写信:做人留一线

体育要闻

"失业"一年了 33岁的德赫亚路在何方

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

房产
健康
艺术
数码
教育

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

晚餐不吃or吃七分饱,哪种更减肥?

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

数码要闻

三星 34 英寸超宽 QD-OLED 面板升级:刷新率从 175Hz 提至 240Hz

教育要闻

孩子背古文记不住怎么办?

无障碍浏览 进入关怀版