网易首页 > 网易号 > 正文 申请入驻

Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

0
分享至


作者|周一笑,丸丸柚贝

编辑|王兆洋

可媲美Sora的中国文生视频模型,就这么来了。

4月27日上午,在2024中关村论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu,它所展示的效果立刻刷屏。

据生数科技,Vidu支持一键生成16秒、1080P分辨率的视频内容。而从视频来看,Vidu的一致性、运动幅度都达到了Sora水准,虽然时长还比不上Sora的最长60秒,但整体上已经可以对标Sora。

生数的发布一如既往的低调,并没有什么发布会。但效果引发广泛关注,一时间“中国Sora”的称谓四起。

但我们第一时间和生数做了交流,这家核心团队来自清华人工智能研究院、由清华人工智能研究院副院长朱军博士牵头的公司对我们表示:

Vidu的视频时长会继续突破,“另外,我们的架构是支持多模态的,视频模态只是当前阶段最重要的。”据生数透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。

言下之意,还说生数科技是“中国sora”,就有点太没想象力了。

生数的野心比这更大。

1

逐帧拆解对比Vidu与Sora

在今年3月12日的一次交流中,生数科技联合创始人兼CEO唐家渝曾对我们表示:

“今年内一定能达到Sora目前版本的效果,但很难说是三个月还是半年”。

据我们了解,生数三月份就实现了8秒的视频生成,在四月份突破了16秒生成。今天的发布背后,短短两个月时间完成巨大进步。

这次的展示中,到底有哪些细节值得关注,我们第一时间逐帧对比了Vidu与Sora,话不多说,先来一起看一下。


经典走路名场面

Sora这个街头美女走路的视频也是刷爆了各大社交媒体,Vidu一出来就贴脸开大!不光生成街头美女走路,街头帅哥走路就连街头熊都给整出来了!

首先从人物、背景来看,Vidu的生成效果真的和Sora不相上下,但是人物动作协调性与Sora相比还是稍弱一些。


Vidu


Sora

行驶中的越野车

越野车在丛林小道中穿梭,Vidu的丛林背景略有3D动画的效果,更像游戏中的一些场景,Sora的背景更具真实性一些。


Vidu


Sora

中国龙

这一视频场景,二者生成的风格不太相同,Vidu展示的是现实中虚拟龙的形象,Sora是现实中舞龙舞狮真实存在的场景,但是二者对于龙的形象各种细节也都展现出了各自的特点。

另外,除了主体龙之外的背景两者都很真实,但是Sora的视频画面丰富度更高。


Vidu


Sora

人物眼睛特写

这谁能分得清是真实拍摄还是AI生成啊!这一局我感觉Vidu真的不输Sora!


Vidu


Sora

电视合集

Vidu确实是不怕对比的!这个画面丰富度和运镜真是一点不比Sora差。


Vidu


Sora

狗狗

Sora生成的狗狗动态感、真实感更强一些,但是Vidu对狗狗游泳腿上的毛漂浮的细节处理得 也相当不错。


Vidu


Sora

猫和人

Vidu所展现是“带珍珠的猫”,虽然有点玄幻,但是镜头旋转之后,毛发细节感也是表现不错。


Vidu


Sora

船与“海”

Vidu 的波浪流动十分符合物理规则。可以说与 Sora 不相上下。

而且,这里两者都提供了Prompt,可以直接对比,也能看到很多有趣的不同。


Vid‍u:“画室里的一艘船驶向镜头”

‍‍


Sora:“逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的场景。”
宇航员

Vidu更突出的是宇航员在太空生活的状态,Sora则更突出宇航员的人物脸部特写。


Vidu


Sora

1

Vidu如何炼成:正确的技术路线+工程技术迁移

这次发布的视频,所有人肉眼可见的效果大幅进步,背后是如何做到的?

这看起来的突破其实是生数长期积累的结果。

OpenAI Sora的DiT架构融合了Diffusion和Transformer,不仅能够实现与GAN相媲美的图像生成质量,而且还具有更好的扩展性和计算效率。而通过使用Transformer结构代替传统Diffusion模型中常用的U-Net结构,DiT能够以更高效的方式处理数据,尤其是在处理大规模数据时,能够显著减少所需的计算资源,同时在视觉任务下展现出卓越的涌现能力。

在技术路线上,Vidu采用了和Sora完全一致的Diffusion和Transformer融合的架构。Vidu的底层基于生数自研的U-ViT架构,该架构由团队在2022年9月提出,实际上U-ViT是第一个融合了Diffusion 和Transformer的架构,比Sora的DiT架构更早。


图注:《All are Worth Words: A ViT Backbone for Diffusion Models》提出了网络架构U-ViT,这是Vidu最重要的技术基础。

市面上的部分视频生成工具增加视频长度的思路是采用的是插帧技术,这种方法通过在原始视频帧之间插入额外的帧来提升视频的流畅度和长度。插帧技术可以基于不同的算法实现,包括传统的运动补偿(MEMC)、深度学习方法,或是结合编解码器进行智能补帧等。Nvidia的SuperSlomo技术就是通过深度学习算法来预测并插入中间帧以实现视频的高帧率播放。

但同时插帧也会带来一些弊端。比如可能导致的画质下降,尤其是在快速运动或阴影处理上可能出现扭曲或模糊。

另外一些工具通过组合不同的模型和技术来生成看似较长的视频,例如,一些工具可能先使用Stable Diffusion或Midjourney等图像生成模型生成单张图像,然后通过图生视频的技术将这些图像转换成短视频,最后再将这些短视频进行拼接以形成更长的视频内容。

这些方法的确能够增加视频的长度,但它基本上还是依赖于“短视频生成”的工作流程。因此可能会在内容的流畅性和视觉表现上显得不够连贯,缺乏一些自然的过渡效果,而且在叙事和逻辑上可能也不如一个完整的长视频那样紧密。

Vidu基于U-ViT架构,不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的。感官上更加“一镜到底”,视频从头到尾连续生成,没有插帧痕迹。

除了U-ViT底层架构的创新,Vidu也离不开生数团队的工程化基础。

在2023年3月,基于 U-ViT 架构,生数在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型——UniDiffuser,并将其开源。UniDiffuser主要擅长图文任务,支持图文模态间的任意生成和转换。

据了解,UniDiffuser首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,UniDiffuser比最近才切换到DiT架构的Stable Diffsion 3早了一年。

此外,视频可以被看作是图像序列在时间轴上的扩展,因此处理图像的技术和经验可以迁移到视频处理中。例如Sora采用了DALL·E 3的重标注技术,对视觉训练数据进行精细地 重标注和描述,使其生成视频时能够更准确地遵循用户的指令。

正是这些积累的工程经验,为生数从图文任务到视频任务的技术迁移打下了基础。

实际上,Vidu在视频生成任务中就复用了生数科技在图文任务中积累的多项技术经验,包括训练加速、并行化训练和低显存训练等,从而优化了训练流程。通过视频数据压缩技术和自研的分布式训练框架,实现了计算精度保证下的通信效率提升、显存开销的大幅度降低,以及训练速度的提升。

从图任务的统一到融合视频能力,Vidu可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。生数也透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。

根据朱军的解释,Vidu意味着We do、We did、We do together。生数也顺势推出了“Vidu大模型合作伙伴计划”。

“主要是希望吸引AI视频场景关注和感兴趣的产业应用伙伴,公司机构,包括一些个人创作者,包括上下游的产业伙伴,起探索应用场景。”

除了自研大模型,生数科技也研发垂类应用产品,旗下有视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft等,按照订阅等形式收费。

至于Vidu的产品化,生数科技留了个悬念,回复了硅星人四个字:

敬请期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅!香港市民停止恐慌“抛售”行为!感叹终于松了一口气!

重磅!香港市民停止恐慌“抛售”行为!感叹终于松了一口气!

港漂圈
2024-05-28 19:32:45
记者嘲讽劳塔罗:值多少钱?世界杯位置是门将 每年固定进球荒

记者嘲讽劳塔罗:值多少钱?世界杯位置是门将 每年固定进球荒

直播吧
2024-05-29 04:00:05
阿司匹林再添新用!JAMA最新:仅低剂量服用,能使肝脏脂肪减少10.2%、糖尿病风险降15%!

阿司匹林再添新用!JAMA最新:仅低剂量服用,能使肝脏脂肪减少10.2%、糖尿病风险降15%!

梅斯医学
2024-05-28 07:32:11
台湾歌手黄宣涉日言论被扒!《歌手》官微沦陷了,网友要求退赛

台湾歌手黄宣涉日言论被扒!《歌手》官微沦陷了,网友要求退赛

鑫鑫说说
2024-05-27 16:18:03
鼓励老百姓捐献器官!中国器官捐献量排名世界第二,为何不够用?

鼓励老百姓捐献器官!中国器官捐献量排名世界第二,为何不够用?

谁是谁非任凭说
2024-05-28 23:04:31
S妈拒绝回应汪小菲再婚:不想再多谈,已经不是一家人了

S妈拒绝回应汪小菲再婚:不想再多谈,已经不是一家人了

素素娱乐
2024-05-28 08:09:22
医疗反腐败愈加严厉!不仅医药代表受到严格调查,医生也不例外!

医疗反腐败愈加严厉!不仅医药代表受到严格调查,医生也不例外!

今日养生之道
2024-05-29 07:10:21
斯波:别忘了约维奇现在才20岁 我们会继续推动他去取得进步

斯波:别忘了约维奇现在才20岁 我们会继续推动他去取得进步

直播吧
2024-05-28 21:25:11
拍照技巧分析(7)

拍照技巧分析(7)

花小猫的美食日常
2024-05-28 21:13:11
爆李春江有望重返广东,朱芳雨暂别宏远,新职务曝光,杜锋回新疆

爆李春江有望重返广东,朱芳雨暂别宏远,新职务曝光,杜锋回新疆

宗介说体育
2024-05-28 10:39:12
惊天交易!北京首钢签下赵岩昊,浙江广厦三少正式分崩离析

惊天交易!北京首钢签下赵岩昊,浙江广厦三少正式分崩离析

邮轮摄影师阿嗵
2024-05-28 19:16:19
中国女排14人名单出炉!21岁得分王落选朱婷替补出战?蔡斌留悬念

中国女排14人名单出炉!21岁得分王落选朱婷替补出战?蔡斌留悬念

李喜林篮球绝杀
2024-05-28 10:38:37
比亚迪第五代 DM 技术发布,拥有 2.9L 全球最低百公里亏电油耗

比亚迪第五代 DM 技术发布,拥有 2.9L 全球最低百公里亏电油耗

IT之家
2024-05-28 20:21:11
“捐精”的时候,漂亮护士真的会帮忙吗?网友:有那么好的事情?

“捐精”的时候,漂亮护士真的会帮忙吗?网友:有那么好的事情?

三月柳
2024-05-27 17:07:26
关咏荷:我这辈子最正确的选择,就是在45岁高龄为小老公生儿子

关咏荷:我这辈子最正确的选择,就是在45岁高龄为小老公生儿子

圈里的甜橙子
2024-05-29 01:41:34
一石二鸟!皇马猛追1.1亿球星,克罗斯游说,逼走瓜帅,痛击曼城

一石二鸟!皇马猛追1.1亿球星,克罗斯游说,逼走瓜帅,痛击曼城

叁炮体育
2024-05-28 09:54:17
中国女排vs荷兰女排14人大名单:朱婷领衔,张常宁、丁霞在列

中国女排vs荷兰女排14人大名单:朱婷领衔,张常宁、丁霞在列

直播吧
2024-05-28 08:58:09
泽连斯基:如果拜登不出席和平峰会,普京将会起立鼓掌

泽连斯基:如果拜登不出席和平峰会,普京将会起立鼓掌

夜相思
2024-05-28 20:00:40
时至今日,我们仍然低估了拼多多的黄峥

时至今日,我们仍然低估了拼多多的黄峥

杨泽l社交式增长
2024-05-27 14:37:00
中国的“老朋友”,却彻底倒向了美国,曾对华出口大量先进装备?

中国的“老朋友”,却彻底倒向了美国,曾对华出口大量先进装备?

星辰故事屋
2024-05-26 18:56:46
2024-05-29 10:16:49
硅星人
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
1280文章数 10250关注度
往期回顾 全部

科技要闻

比亚迪重磅发布:最高续航2500KM

头条要闻

菲方抗议中国实施休渔期 宣称此举令南海局势紧张升级

头条要闻

菲方抗议中国实施休渔期 宣称此举令南海局势紧张升级

体育要闻

阿根廷一代神锋,击碎了沙特的金元足球梦

娱乐要闻

昆凌晒三胎正面照,2岁妹妹超像周杰伦

财经要闻

东方通收购藏雷 花6亿买来"业绩变脸"

汽车要闻

三联屏/纯电续航318km 岚图FREE 318官图发布

态度原创

教育
手机
健康
时尚
亲子

教育要闻

中南大学2024年法学保研暑期夏令营

手机要闻

谁是618期间最香中端机?非1899元的一加Ace 3V莫属

晚餐不吃or吃七分饱,哪种更减肥?

50岁女人的搭配技巧解析,配饰精致大方,穿浅色更年轻有活力

亲子要闻

妈妈带小女孩在公园玩站在长椅上就像个洋娃娃网友:又是骟生女儿系列

无障碍浏览 进入关怀版