网易首页 > 网易号 > 正文 申请入驻

中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?

0
分享至


追赶 OpenAI 文生视频模型 Sora 需要多久?

在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态视频大模型 Vidu 正式发布,支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。

Vidu 生成的视频 demo 甫一发布,便迅速在各大社交平台的热搜榜上「攻城略地」,被誉为效果层面最接近 Sora 的国内大模型。

中国版 Sora 来了,视频大模型 Vidu 登场

Sora 生成的视频之所以令人惊艳,很大程度上归功于其对真实物理世界运动的精确模拟,Vidu 也不遑多让。

以加速行驶在土路上的 SUV 为例,Vidu 生成的扬尘效果要比 Sora 更到位。

并且,无论是光线的反射,还是阴影的变化,Vidu 的每个画面都处理得恰到好处。


Vidu


Sora

在走路镜头的模拟上,Sora 和 Vidu 算得上棋逢对手。

视频中的人物走起路来自信淡然,特别是周围环境的渲染,如霓虹灯在潮湿街面水渍上的倒影,简直是加分项,让画面的逼真程度直线上升。


Vidu


Sora

Vidu 不仅能生成人物,还能生成走路的熊,人物一致性让人眼前一亮。

当涉及到动作协调性时,Sora 的表现要更胜一筹。 Vidu 则 自带 AI 的「顿挫感」,走路姿势略显僵硬,还需要「多加练习」。

多复杂镜头、多景别的切换是 Sora 拉开其他视频生成模型的一大杀招。

Vidu 在这方面也不甘示弱,尽管电视机画面的细节处理还有提升空间,但流畅的镜头转换犹如真人导演的精心编排。


画室里的一艘船随着海浪摇摆,木头玩具船在地毯上航行,Vidu 不仅脑洞大开,画面效果更是令人赞叹。



在理解中国文化元素上,Sora 生成的国外唐人街舞龙环节,画面细节丰富,整体文化氛围是拉满的。

Vidu 生成的「龙」更靠近西方世界的龙形象,在中国宫殿的建筑环境里稍微有些格格不入。

不过熊猫在湖畔弹吉他的画面,倒有些「忽闻江上弄哀筝」的意境。


Vidu


Sora

戴珍珠耳环的橙猫、优雅眼神杀、缓慢抬头、陶艺 DIY,视觉效果简直爆棚,让人分不清是现实还是电影场景。


清华打造,Vidu 先行一步

Vidu 是清华大学联合大模型创业公司生数科技,用两个半月交出的一份新答卷。

Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚持,在实验室原创架构上开花结果。

据证券时报消息, Vidu 发布后,清华大学 AI 研究院副院长、生数科技首席科学家朱军在朋友圈写下了上面这段话。

生数科技官方介绍称, Vidu 模型之所以取得快速突破,源自于该团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。

早在 2022 年 9 月,出于对标当时刚刚开源的 Stable Diffusion, 清华团队提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文,里面提出了全球首个 Diffusion 与 Transformer 融合的架构,比 Sora 采用的 DiT 架构还要再早两个月。


到了去年 3 月,团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser,率先完成了 U-ViT 架构的大规模可扩展性验证,一举实现了从简单的文生图扩展到图生文、图文改写等多种功能。

朱军曾透露,之所以选择先做图文任务,而不是视频生成,完全是基于算力的考虑和对技术成熟度的预判,但在图文领域的技术积累,也为后续长视频的爆发积攒了不少的经验。

生数科技官方介绍,正是基于对 U-ViT 架构的深入理解以及长期积累的工程与数据经验,团队才能在短短两个月里进一步突破了长视频表示与处理的多项关键技术,成功研发出 Vidu 视频大模型。


3 月份的 Vidu 还只能生成 8 秒的视频,包括当时生数科技联创兼 CEO 唐家渝在媒体沟通会上表示,今年内一定能达到 Sora 目前版本的效果,但很难说是三个月还是半年。

如今,短短一个月过去,Vidu 再次在技术上迎来突破,不仅画面效果逼近 Sora 的水准,视频生成的时长也扩展到了 16 秒。

正如那句老话,起跑领先只是一时之快,大模型之战笑到最后才是赢家。

前不久,我们提到 OpenAI 和艺术家合作发布的七部专业级短片在影视界一石激起千层浪,让不少电影人感叹饭碗不保。

然而,与 Sora 合作的加拿大制作公司 Shy Kids 透露了 Sora 一些实际的内幕:从 Sora 生成的素材到最终成品之间的差距,不亚于「买家秀」和「买家秀」的区别。

具体来说,生成的原始素材与最终使用素材的比例高达 300:1,也就是说,为得到一秒的有效画面,制作团队需要并审查长达 300 秒的原始素材,对筛选和判断能力提出极高的要求。

这就好比,我们用 AI 来简化任务,却忘了先要教会 AI 怎么简化。

从原始素材的打磨到最终成品的诞生,还需要如同传统影视工作流一般,经过大量后期处理工作,以至于 Sora 的制作流程更适合于「先打枪后画靶子」——根据生成的素材「改剧本」,而不是按照剧本生成画面。


电影艺术的魅力,很大程度源自于导演对镜头语言的精妙运用。 推拉摇移升降跟往往构成电影视觉叙事的骨架。

OpenAI 的研究人员最初在开发 Sora 的过程中,更多地将注意力集中在图像生成的技术层面,却没有考虑到创作者在实际应用中对镜头语言的需求。

Sora 这些「尚未成神」的状态,为其他竞争者,尤其是国内的研发团队提供了迎头赶上宝贵的时间窗口。 一大批有望对标甚至超越 Sora 的大模型也正在涌现。


上个月,北大-兔展 AIGC 联合实验室发起了一项 Sora 的开源复现计划。现在 Open-Sora 已经支持单镜头生成长达 16 秒的视频生成,分辨率最高可达 720P。

并且该团队还声称支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。

与此同时,在 AI 视频生成技术的赛道上,腾讯的 VideoCrafter2、Morph Studio、NeverEnds 也都是国内发布类 Sora 产品的佼佼者。

Vidu 是国内第一个有希望追赶 Sora 的视频生成大模型,但也不会是唯一一个迎头赶上的大模型。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高永强任广东省河源市副市长、市公安局局长

高永强任广东省河源市副市长、市公安局局长

法制社会报
2024-05-29 10:30:28
以色列议会拟推动认定联合国机构为恐怖组织!

以色列议会拟推动认定联合国机构为恐怖组织!

鲁中晨报
2024-05-29 09:30:09
事件升级!央视报夜查电动车惹众怒 , 25万人参与,要解决什么问题

事件升级!央视报夜查电动车惹众怒 , 25万人参与,要解决什么问题

乡野小珥
2024-05-29 11:50:15
网友晒日本超市骚操作!一块小西瓜切片单卖,换算成人民币几乎等于5块钱!

网友晒日本超市骚操作!一块小西瓜切片单卖,换算成人民币几乎等于5块钱!

可达鸭面面观
2024-05-29 09:47:48
有的官员已经不管老百姓死活了

有的官员已经不管老百姓死活了

浮事记
2024-05-29 11:18:51
复旦大学冯玉军:接受现实吧,俄罗斯在乌克兰必败无疑

复旦大学冯玉军:接受现实吧,俄罗斯在乌克兰必败无疑

铁山学者
2024-05-29 11:11:57
墨家灭绝,细思恐极

墨家灭绝,细思恐极

最爱历史
2024-05-28 20:29:05
刚刚乌克兰传出重大噩耗!美国提供的“海马斯”火箭炮已完全失效

刚刚乌克兰传出重大噩耗!美国提供的“海马斯”火箭炮已完全失效

华人星光
2024-05-27 14:50:20
【痛心】官方通报:均已确认身亡

【痛心】官方通报:均已确认身亡

粤深平台
2024-05-28 19:33:05
谭咏麟病愈后首次公开现身,瘦到青筋毕现感慨声线不好

谭咏麟病愈后首次公开现身,瘦到青筋毕现感慨声线不好

小萝卜天下事
2023-07-21 21:57:53
普京驳斥耶伦“中国产能过剩论”:我不认为美财长是个文盲,这只是在玩弄事实

普京驳斥耶伦“中国产能过剩论”:我不认为美财长是个文盲,这只是在玩弄事实

环球网资讯
2024-05-29 10:40:09
指使污水处理厂虚报数据 人为“抬高”污水收集率

指使污水处理厂虚报数据 人为“抬高”污水收集率

南方都市报
2024-05-29 07:01:39
51岁张泉灵近照曝光,头发花白很显老,被指离开央视的九年太拼命

51岁张泉灵近照曝光,头发花白很显老,被指离开央视的九年太拼命

娱小小新
2024-05-29 11:49:46
西决拒绝横扫!25分钟2分取代戈贝尔!中国球员打到森林狼后悔

西决拒绝横扫!25分钟2分取代戈贝尔!中国球员打到森林狼后悔

篮球实战宝典
2024-05-29 11:31:16
广州楼市新政出台当晚,“90后”女生在机场转来20万订金

广州楼市新政出台当晚,“90后”女生在机场转来20万订金

南方都市报
2024-05-29 04:48:17
奥沙利文:不希望斯诺克被纳入奥运会,不想努力四年只为了拿金牌

奥沙利文:不希望斯诺克被纳入奥运会,不想努力四年只为了拿金牌

直播吧
2024-05-29 12:31:16
实锤了!985重点大学集体打明牌!数学单科145分以上即可破格入围

实锤了!985重点大学集体打明牌!数学单科145分以上即可破格入围

手工制作阿爱
2024-05-28 21:18:36
焦点访谈丨投资13亿的超级项目为何成了“僵尸园区”?

焦点访谈丨投资13亿的超级项目为何成了“僵尸园区”?

央广网
2024-05-29 15:10:19
唐斯谈李凯尔导演关键三分:他真的很特别 他让很多战术能够打成

唐斯谈李凯尔导演关键三分:他真的很特别 他让很多战术能够打成

直播吧
2024-05-29 13:57:04
《庆余年2》:李小冉打了多少女演员的脸?给你们看看啥叫女人

《庆余年2》:李小冉打了多少女演员的脸?给你们看看啥叫女人

八卦南风
2024-05-28 22:52:05
2024-05-29 15:42:44
AppSo
AppSo
让智能手机更好用的秘密
4446文章数 26405关注度
往期回顾 全部

科技要闻

王传福再放狠话,燃油车要成“非主流”

头条要闻

餐馆老板诉民警喝茅台吃野味不付钱 法院:系老板宴请

头条要闻

餐馆老板诉民警喝茅台吃野味不付钱 法院:系老板宴请

体育要闻

巴黎主席向皇马索要8000万 佛爷:1分不给

娱乐要闻

张若昀怎么剧外比剧内更惨兮兮…

财经要闻

东方通收购藏雷 花6亿买来"业绩变脸"

汽车要闻

新哈弗H6苦练内功 向燃油车绝缘智能SAY NO

态度原创

亲子
手机
本地
数码
公开课

亲子要闻

小女孩跟老师学跳舞,又甜又酷,这么小就这么厉害!

手机要闻

vivo X100 Ultra卖这么好?首销期间斩获多平台销量冠军

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

数码要闻

4.5插槽巨物!微星RTX 4090 SUPRIM FUZION用上一体水冷

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版