网易首页 > 网易号 > 正文 申请入驻

新模型Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

0
分享至


作者|周一笑,丸丸柚贝

编辑|王兆洋

可媲美Sora的中国文生视频模型,就这么来了。

4月27日上午,在2024中关村论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu,它所展示的效果立刻刷屏。

据生数科技,Vidu支持一键生成16秒、1080P分辨率的视频内容。而从视频来看,Vidu的一致性、运动幅度都达到了Sora水准,虽然时长还比不上Sora的最长60秒,但整体上已经可以对标Sora。

生数的发布一如既往的低调,并没有什么发布会。但效果引发广泛关注,一时间“中国Sora”的称谓四起。

但我们第一时间和生数做了交流,这家核心团队来自清华人工智能研究院、由清华人工智能研究院副院长朱军博士牵头的公司对我们表示:

Vidu的视频时长会继续突破,“另外,我们的架构是支持多模态的,视频模态只是当前阶段最重要的。”据生数透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。

言下之意,还说生数科技是“中国sora”,就有点太没想象力了。

生数的野心比这更大。

逐帧拆解对比Vidu与Sora

在今年3月12日的一次交流中,生数科技联合创始人兼CEO唐家渝曾对我们表示:

“今年内一定能达到Sora目前版本的效果,但很难说是三个月还是半年”。

据我们了解,生数三月份就实现了8秒的视频生成,在四月份突破了16秒生成。今天的发布背后,短短两个月时间完成巨大进步。

这次的展示中,到底有哪些细节值得关注,我们第一时间逐帧对比了Vidu与Sora,话不多说,先来一起看一下。


经典走路名场面

Sora这个街头美女走路的视频也是刷爆的各大社交媒体,Vidu一出来就贴脸开大!不光生成街头美女走路,街头帅哥走路就连街头熊都给整出来了!

首先从人物、背景来看,Vidu的生成效果真的和Sora不相上下,但是人物动作协调性与Sora相比还是稍弱一些。


Vidu


Sora

行驶中的越野车

越野车在丛林小道中穿梭,Vidu的丛林背景略有3D动画的效果,更像游戏中的一些场景,Sora的背景更具真实性一些。


Vidu


Sora

中国龙

这一视频场景,二者生成的风格不太相同,Vidu展示的是现实中虚拟龙的形象,Sora是现实中舞龙舞狮真实存在的场景,但是二者对于龙的形象各种细节也都展现出了各自的特点。

另外,除了主体龙之外的背景两者都很真实,但是Sora的视频画面丰富度更高。


Vidu


Sora

人物眼睛特写

这谁能分得清是真实拍摄还是AI生成啊!这一局我感觉Vidu真的不输Sora!


Vidu


Sora

电视合集

Vidu确实是不怕对比的!这个画面丰富度和运镜真是一点不比Sora差。


Vidu


Sora

狗狗

Sora生成的狗狗动态感、真实感更强一些,但是Vidu对狗狗游泳腿上的毛漂浮的细节处理的也相当不错。


Vidu


Sora

猫和人

Vidu所展现是“带珍珠的猫”,虽然有点玄幻,但是镜头旋转之后,毛发细节感也是表现不错。


Vidu


Sora

船与“海”

Vidu 的波浪流动十分符合物理规则。可以说与 Sora 不相上下。

而且,这里两者都提供了Prompt,可以直接对比,也能看到很多有趣的不同。


Vid‍u:“画室里的一艘船驶向镜头”

‍ ‍


Sora:“逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的场景。”
宇航员

Vidu更突出的是宇航员在太空生活的状态,Sora则更突出宇航员的人物脸部特写。


Vidu


Sora

Vidu如何炼成:正确的技术路线+工程技术迁移

这次发布的视频,所有人肉眼可见的效果大幅进步,背后是如何做到的?

这看起来的突破其实是生数长期积累的结果。

OpenAI Sora的DiT架构融合了Diffusion和Transformer,不仅能够实现与GAN相媲美的图像生成质量,而且还具有更好的扩展性和计算效率。而通过使用Transformer结构代替传统Diffusion模型中常用的U-Net结构,DiT能够以更高效的方式处理数据,尤其是在处理大规模数据时,能够显著减少所需的计算资源,同时在视觉任务下展现出卓越的涌现能力。

在技术路线上,Vidu采用了和Sora完全一致的Diffusion和Transformer融合的架构。Vidu的底层基于生数自研的U-ViT架构,该架构由团队在2022年9月提出,实际上U-ViT是第一个融合了Diffusion 和Transformer的架构,比Sora的DiT架构更早。


图注:《All are Worth Words: A ViT Backbone for Diffusion Models》提出了网络架构U-ViT,这是Vidu最重要的技术基础。

市面上的部分视频生成工具增加视频长度的思路是采用的是插帧技术,这种方法通过在原始视频帧之间插入额外的帧来提升视频的流畅度和长度。插帧技术可以基于不同的算法实现,包括传统的运动补偿(MEMC)、深度学习方法,或是结合编解码器进行智能补帧等。Nvidia的SuperSlomo技术就是通过深度学习算法来预测并插入中间帧以实现视频的高帧率播放。

但同时插帧也会带来一些弊端。比如可能导致的画质下降,尤其是在快速运动或阴影处理上可能出现扭曲或模糊。

另外一些工具通过组合不同的模型和技术来生成看似较长的视频,例如,一些工具可能先使用Stable Diffusion或Midjourney等图像生成模型生成单张图像,然后通过图生视频的技术将这些图像转换成短视频,最后再将这些短视频进行拼接以形成更长的视频内容。

这些方法的确能够增加视频的长度,但它基本上还是依赖于“短视频生成”的工作流程。因此可能会在内容的流畅性和视觉表现上显得不够连贯,缺乏一些自然的过渡效果,而且在叙事和逻辑上可能也不如一个完整的长视频那样紧密。

Vidu基于U-ViT架构,不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的。感官上更加“一镜到底”,视频从头到尾连续生成,没有插帧痕迹。

除了U-ViT底层架构的创新,Vidu也离不开生数团队的工程化基础。

在2023年3月,基于 U-ViT 架构,生数在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型——UniDiffuser,并将其开源。UniDiffuser主要擅长图文任务,支持图文模态间的任意生成和转换。

据了解,UniDiffuser首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,UniDiffuser比最近才切换到DiT架构的Stable Diffsion 3早了一年。

此外,视频可以被看作是图像序列在时间轴上的扩展,因此处理图像的技术和经验可以迁移到视频处理中。例如Sora采用了DALL·E 3的重标注技术,对视觉训练数据进行精细地重标注和描述,使其生成视频时能够更准确地遵循用户的指令。

正是这些积累的工程经验,为生数从图文任务到视频任务的技术迁移打下了基础。

实际上,Vidu在视频生成任务中就复用了生数科技在图文任务中积累的多项技术经验,包括训练加速、并行化训练和低显存训练等,从而优化了训练流程。通过视频数据压缩技术和自研的分布式训练框架,实现了计算精度保证下的通信效率提升、显存开销的大幅度降低,以及训练速度的提升。

从图任务的统一到融合视频能力,Vidu可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。生数也透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。

根据朱军的解释,Vidu意味着We do、We did、We do together。生数也顺势推出了“Vidu大模型合作伙伴计划”。

“主要是希望吸引AI视频场景关注和感兴趣的产业应用伙伴,公司机构,包括一些个人创作者,包括上下游的产业伙伴,起探索应用场景。”

除了自研大模型,生数科技也研发垂类应用产品,旗下有视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft等,按照订阅等形式收费。

至于Vidu的产品化,生数科技留了个悬念,回复了硅星人四个字:

敬请期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5月31日,工商银行储蓄利率更新:存入30万元,两年利息是多少?

5月31日,工商银行储蓄利率更新:存入30万元,两年利息是多少?

王五说说看
2024-05-31 07:21:10
又一“全国优秀县委书记”晋升副省级,张振丰任浙江省副省长

又一“全国优秀县委书记”晋升副省级,张振丰任浙江省副省长

澎湃新闻
2024-05-31 09:44:29
接吻的时候,如果男人摸你“三个隐私地方”,说明绝对是情场老手

接吻的时候,如果男人摸你“三个隐私地方”,说明绝对是情场老手

四象八卦
2024-05-31 15:55:39
消息称三星 Galaxy S24 系列国行版“即圈即搜”将支持谷歌搜索

消息称三星 Galaxy S24 系列国行版“即圈即搜”将支持谷歌搜索

IT之家
2024-05-31 12:08:14
完全想不到?拜仁竟6000万求购20岁英超小将,孔帕尼的思路够独特

完全想不到?拜仁竟6000万求购20岁英超小将,孔帕尼的思路够独特

里芃芃体育
2024-05-31 00:05:08
瑞典的中国拉面馆每天爆满排长队,评论区却把人笑喷了!

瑞典的中国拉面馆每天爆满排长队,评论区却把人笑喷了!

沫姐美食记
2024-05-31 19:14:24
五月最后一天,大陆一纸通告传遍全台!特朗普却威胁:或轰炸大陆

五月最后一天,大陆一纸通告传遍全台!特朗普却威胁:或轰炸大陆

林子说事
2024-05-31 19:23:03
全剧终!杨振宁亮出底牌,翁帆万般无奈,只能独自扬帆起航

全剧终!杨振宁亮出底牌,翁帆万般无奈,只能独自扬帆起航

娱乐白名单
2024-05-26 18:17:30
艾滋病最严重的省份排名,看看你的省份排第几?

艾滋病最严重的省份排名,看看你的省份排第几?

今日养生之道
2024-05-31 21:13:05
中国社科院世界社保研究中心主任郑秉文:建议最大限度淡化企业年金的“体制”因素

中国社科院世界社保研究中心主任郑秉文:建议最大限度淡化企业年金的“体制”因素

北京商报
2024-05-31 19:13:06
历任国家体育总局局长

历任国家体育总局局长

刺头体育
2024-05-31 09:32:01
恒河水都滚了!印度新德里最高温52.3度!青藏高原又立大功

恒河水都滚了!印度新德里最高温52.3度!青藏高原又立大功

田间农人阿馋
2024-05-31 18:41:09
中国一则爆料疯传全网!父亲多年前4000枚比特币意外寻获 现价已破20亿元人民币

中国一则爆料疯传全网!父亲多年前4000枚比特币意外寻获 现价已破20亿元人民币

FX168链界观察
2024-05-29 12:42:11
又一董事长跳楼,击垮负债人的是绝望!

又一董事长跳楼,击垮负债人的是绝望!

陈昊律师聊破产
2024-05-30 15:16:45
外媒:中国将对恒大的审计公司普华施以创纪录罚款

外媒:中国将对恒大的审计公司普华施以创纪录罚款

头条爆料007
2024-05-31 17:46:55
山东一男子报复领导,在饮水机投母猪激素,把全单位都养成了猪

山东一男子报复领导,在饮水机投母猪激素,把全单位都养成了猪

坦然风云
2024-05-31 01:00:03
李沁问王庆祥:《庆余年3》会不会继续客串叶流云?王庆祥回复搞笑

李沁问王庆祥:《庆余年3》会不会继续客串叶流云?王庆祥回复搞笑

娱最资讯
2024-05-31 19:17:58
比陈国豪更适合?广东队最心仪的锋线曝光,能从1号位打到5号位!

比陈国豪更适合?广东队最心仪的锋线曝光,能从1号位打到5号位!

绯雨儿
2024-05-31 15:55:22
郑钦文:为大坂直美感到可惜,这是她复出以来打得最好的一场比赛

郑钦文:为大坂直美感到可惜,这是她复出以来打得最好的一场比赛

全网球APP
2024-05-31 10:21:40
印度第一季度GDP同比增长7.8%,预估增长7.0%

印度第一季度GDP同比增长7.8%,预估增长7.0%

每日经济新闻
2024-05-31 20:09:05
2024-06-01 02:26:44
硅星GenAI
硅星GenAI
比一部分人更先进入GenAl。
66文章数 6关注度
往期回顾 全部

科技要闻

业务不卖了,字节跳动重新做游戏

头条要闻

江西上栗县一汽修店发生爆炸事故 已致3死25伤

头条要闻

江西上栗县一汽修店发生爆炸事故 已致3死25伤

体育要闻

欧文:当老二怎么了?硬就行了!

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

证监会:对恒大地产罚款41.75亿

汽车要闻

外观内饰升级/六项权益 全新哈弗H6开启预售

态度原创

手机
艺术
游戏
本地
公开课

手机要闻

荣耀多款新机在路上:千元机、直屏GT、折叠屏、高端旗舰!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

《往日不再》总监:游戏不会出续作、索尼高层不喜欢

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版