网易首页 > 网易号 > 正文 申请入驻

OpenAI全新发布的Sora,究竟厉害在哪里?

0
分享至

最近爆火的sora模型究竟是何方神圣?

作为OpenAI的新一代产品,让我们先来问问它的大哥GPT-4:


看来做大哥的消息确实灵通,不妨让我们去Sora的官网一探究竟。


进入sora的官网,映入眼帘的就是Sora的个人简介,来让GPT-4重新认识一下小弟:


看来,Sora是一种利用文本生成视频的AI模型。但是在众多AI模型中,为什么只有Sora火出圈了?Sora究竟厉害在哪里?

下面让我们一起来阅读一下Sora的技术报告:


标题就是:作为世界模拟器的视频生成模型。

换句话说,Sora模型可以通过生成虚拟视频,来模拟现实世界中的各种情境、场景和事件,是不是还挺科幻的,有点意思!


接着我们来看看摘要:

该研究尝试在大量视频数据上训练视频生成模型。他们使用了不同长度、分辨率和长宽比的视频和图像来共同训练一种名为“文本条件扩散模型”的模型。

他们使用了一种名为Transformer的架构来处理视频和图像的潜在代码。他们最大的模型名为Sora,能够生成一分钟的高质量视频。研究结果表明,扩展视频生成模型是建立通用物理世界模拟器的一个很有前途的方法。


我们先简单地理解一下这段话,看完下面的视或许会有更深的理解和思考。

先来看一下最近刷屏的一段视频,根据下面这段文本生成:“一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人走来走去。”

可以看出来,这段长达一分钟的高清视频几乎完美呈现了文字中所描述的内容!

视频中不仅有多角度的镜头,分镜切换也符合逻辑。视频中的女人在移动时,与后面的街道背景一直保持高度稳定和流畅;而且视频中对光影反射、运动方式、镜头移动等细节都处理得更好,让观众看起来跟真实拍摄的一样

对比其他的AI模型,Pika是3秒,Runway是4秒,Sora生成的视频目前可以达到一分钟,可谓一骑绝尘,而且分辨率十分高,视频中基本物理现象也比较吻合,仿佛真的可以以假乱真


怪不得有网友担忧这样逼真的技术会被用来伪造视频,甚至被用来在法庭上作伪证:


但上面的视频没有展示出来Sora的全部实力,看完整个报告之后,小编确确实实地感觉到:“魔法”世界可能真的存在

首先,根据OpenAI给出的这篇非完全技术报告,我们可以大致知道:Sora模型是怎么把文本转化为视频的

简单来说,Sora整合了自家的GPT和DALL-E模型。其中,GPT-4就是基于Transformer架构的大型神经网络,目前在自然语言处理领域独树一帜,而最新的DALL-E 3是基于文本提示生成图像的图像生成模型。

Sora使用了DALL·E 3中的重新标注技术,准备了大量带有文本标题的视频数据,通过训练一个高度描述性的标题模型,为所有视频生成文本标题,来提高文本准确性,改善了视频质量。同时,Sora利用GPT将用户简短的提示转化为更长、更详细的标题,指导视频的生成过程,从而使Sora能够生成高质量的视频,并准确地遵循用户的指示

比如下面的案例:


根据横线上的文本提示词Sora可以连接成一段完整的话,或者增加相关的语义信息,从而生成下面的视频:


这视频真的是看不出什么毛病啊,连女生的面部表情都有点惟妙惟肖了。

除了从文本到视频,Sora还可以使用其他输入格式进行提示,比如图像,或视频

比如将静态图像转换为动画,下面是:一只穿着贝雷帽和黑色高领衫的柴犬。


我们输入这张图片,就可以让狗狗动起来。

是不是在哪儿见过,《哈利波特》里面,墙壁画像里的人可以活过来和人类互动,或者是神奇的魔法报纸,照片上的人物能动起来。


以前以为麻瓜的世界不可能看到魔法,现在有了Sora,加上最近的Vision Pro,让照片里的人重获新生,也不再只是一句玩笑话了。

再比如下面的照片:“在一座华丽的、历史悠久的大厅中,一股巨大的海啸达到了顶峰,并开始下降。两名冲浪者抓住机会,熟练地驾驶着浪头。”


如果只是静态的图片可能法重现当时的紧张感,换成视频,可就真的代入感十足了。

除了照片输入,Sora还可以基于原视频来扩展视频,向前还是向后都可以。

下面的视频,是由一个视频片段向前扩展得到的。两个视频前面的两种情景,过渡到最后同一个原视频片段:

有趣的是,sora可以使用这种方法向前和向后扩展视频,生成一个无缝的无限循环。比如下面的环山骑行,你根本无法分清哪里是片头还是片尾。


这还没完,Sora下面的功能,才是真的让视频从业者汗流浃背

Sora利用SDEdit技术,可以零样本地转换输入视频的风格和环境,进而编辑视频!

比如下面的案例,可以对主题内容(赛车,跑道),环境背景,风格等元素进行替换。


我们选中“让视频变成水下驾驶”,看一下效果:

不仅是视频编辑,Sora还可以在完全不同的主题和场景之间创建无缝的转场。虽然还没那么丝滑,但是这脑洞和技术,已经可以让视频小白直接上手了。

从编辑,到转场,震惊小编的是,Sora竟然会自己运镜“拍电影”,属实是力大砖飞,类似于前面的“东京女人”视频,Sora还可以模拟摄像机视,比如航拍的运镜,由远及近,环绕拍摄等等拍摄技巧,保证人物和场景元素在三维空间中移动一致

此外,Sora生成的视频具有长距离的一致性和物体永恒性。换句人话就是:可以在人、动物和物体被遮挡或离开画面时保持它们的持续存在,比如:当路人经过时,下面的狗狗一直完整地存在视频中。同样,可以在单个样本中生成同一角色的多个镜头,保持他们在整个视频中的外观。

甚至,视频中可以存在类似于真实世界的互动。例如,一位画家可以在画布上留下持续一段时间的新笔触,这真的看不出来是真画师还是假画师了。

类似于DALL-E,作为三维的视频生成模型的Sora也可以根据文本提示生成图像。

简直就是降维打击,Sora可以把照片的空间感塑造很逼真

比如:一张女性的特写肖像,拍摄于秋季,呈现出极致的细节和浅景深。


这照片的质量,立省一套相机+大光圈镜头。加上AI换脸,足不出户就可以体验全世界拍大片,人像摄影直接get!

再比如下面的提示词:一幅雪山村庄的画面,温暖的小木屋和北极光在天空中舞动,采用高细节和逼真的单反相机拍摄,使用50mm f/1.2镜头。


u1s1,见过极光的都觉着你真见到极光了,属实有模有样,风光摄影顺便拿下。

不过,看完上述报告,震撼之余还有些小确幸(最后的一丝倔强了),身为物理专业的小编对Sora模型的原理虽然不是特别明白,但是Sora的物理好像学的也不是很好。

例如,它不能准确地模拟许多基本交互的物理现象,比如玻璃破碎。


还有一些基本的物理现象,目前Sora还无法准确地呈现。但是,Sora强大的视频生成模型已经足够颠覆了。连著名的五星上将麦克阿瑟都评论说:Sora,将给视频行业带来巨大的冲击


总之,Sora通过对现实世界的学习,已经开始模拟人类去观察世界、描绘世界和表现世界。当有了足够的数据和算力,Sora可能会开始对现实世界的物理、因果关系和物体持久性有更深刻的理解。

借用大佬的评论:“Sora表面上是一个文生视频的工具,实际上是一个现实世界模拟器。它也不仅仅是用来模拟现实世界,它意味着通用人工智能对这个世界的理解能力又一次得到了突破。

GPT对人类语言和知识的理解达到了一个突破点,而除了人类的语言和这个世界的人类之间做交互的知识之外,这个世界还有很多规律,人工智能对物理世界的规律缺乏理解的话,那么它是残缺的,不可能真正变成通用人工智能。”

不仅是sora(现在还未对外完全开放),像GPT、DALL-E等生成式的AI产品已经在潜移默化地改变我们的生活、工作方式。

或许,每一个人都应该开始思考,AI如何更好地为我们服务,让AI变成我们的第三只手,助力我们的生活和工作

所以,让我们拭目以待吧…

以上文本提示输入时,均是以英文的形式;

以上数据均源自OpenAI官方网站。

编辑:TT

1.2.

3.

4.

5.

6.

7.

8.

9.

10.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在我面前一直冷淡的老婆,竟有如此疯狂的一面

在我面前一直冷淡的老婆,竟有如此疯狂的一面

封河日丽
2023-10-18 16:37:40
国内多人无脑黑张志磊?你猜国外大佬怎么评价张志磊的!

国内多人无脑黑张志磊?你猜国外大佬怎么评价张志磊的!

刺头体育
2024-06-05 02:21:43
比恒大还大的雷区出现了,价值高达10万亿,这回许家印可不孤单了

比恒大还大的雷区出现了,价值高达10万亿,这回许家印可不孤单了

简读视觉
2024-04-13 08:40:03
郭德纲对木偶恭敬换衣,网友:封建迷信,从业者:这是祖宗!

郭德纲对木偶恭敬换衣,网友:封建迷信,从业者:这是祖宗!

蜜桔娱乐
2024-06-03 10:24:55
恭喜朱婷!恭喜李盈莹!感谢德国,蔡斌渔翁得利,女排奥运会稳了

恭喜朱婷!恭喜李盈莹!感谢德国,蔡斌渔翁得利,女排奥运会稳了

林子说事
2024-06-04 22:31:28
印度和蒙古国一拍即合,绕开中国买稀土矿石,已想好三条运输通道

印度和蒙古国一拍即合,绕开中国买稀土矿石,已想好三条运输通道

说天说地说实事
2024-06-04 17:27:20
狂犬张本智和此生恐永难夺冠!频频输中国选手,他已被研究透彻了

狂犬张本智和此生恐永难夺冠!频频输中国选手,他已被研究透彻了

阿牛体育说
2024-06-05 02:02:11
得知铁头安全回国之后,这位日本医生将悬赏金提高到了1000万

得知铁头安全回国之后,这位日本医生将悬赏金提高到了1000万

映射生活的身影
2024-06-04 03:31:20
俄媒:五角大楼被曝招标购书供美军飞行员学习,名单现中国兵书《武经七书》

俄媒:五角大楼被曝招标购书供美军飞行员学习,名单现中国兵书《武经七书》

环球网资讯
2024-06-02 19:17:30
深度解析中国想要跻身发达国家,到底有多难?我们的极限又在哪?

深度解析中国想要跻身发达国家,到底有多难?我们的极限又在哪?

探秘历史
2024-06-04 19:05:02
法网19连胜!斯瓦泰克2-0送蛋横扫温网冠军 晋级四强冲3连冠

法网19连胜!斯瓦泰克2-0送蛋横扫温网冠军 晋级四强冲3连冠

醉卧浮生
2024-06-04 20:33:53
打工人从不共情资本家!网友:那些柜姐到底在闹啥

打工人从不共情资本家!网友:那些柜姐到底在闹啥

苗苗情感说
2024-06-04 17:33:22
县公安局局长儿子调戏新上任女县长,一个月后,全县领导被双开

县公安局局长儿子调戏新上任女县长,一个月后,全县领导被双开

神奇的锤子
2024-04-29 01:56:35
油价大跌7.07%!6月5日:调价后92/95号汽油价格,猪价如何?

油价大跌7.07%!6月5日:调价后92/95号汽油价格,猪价如何?

猪友巴巴
2024-06-04 13:54:48
第二个“富士康”来了?抛弃10万工人,关闭百亿工厂,铁了心撤离

第二个“富士康”来了?抛弃10万工人,关闭百亿工厂,铁了心撤离

智观科技
2024-05-27 21:57:58
证监会发布预告!今日晚间的三大消息冲击股市(6.4)!

证监会发布预告!今日晚间的三大消息冲击股市(6.4)!

户外阿崭
2024-06-04 23:49:55
他是国军中将俘虏,抗美援朝连提2招对付美军,毛主席:提前特赦

他是国军中将俘虏,抗美援朝连提2招对付美军,毛主席:提前特赦

猫眼观史
2024-05-16 17:20:40
葡媒:波尔图账面仅剩8000欧元,新主席博阿斯还要付1500万欧

葡媒:波尔图账面仅剩8000欧元,新主席博阿斯还要付1500万欧

懂球帝
2024-06-04 16:28:09
世预赛乱了!3大鱼腩逆袭,越南3连败基本出局,国足8分也能出线

世预赛乱了!3大鱼腩逆袭,越南3连败基本出局,国足8分也能出线

侃球熊弟
2024-06-04 06:07:16
新华社快讯:计票结果显示印度执政党印度人民党主导的全国民主联盟在大选中获得过半席位。

新华社快讯:计票结果显示印度执政党印度人民党主导的全国民主联盟在大选中获得过半席位。

新华社
2024-06-05 01:42:06
2024-06-05 04:54:44
中科院物理所
中科院物理所
爱上物理,改变世界。
7822文章数 135801关注度
往期回顾 全部

科技要闻

斯坦福团队抄袭国产大模型后道歉 承诺撤下

头条要闻

5岁女童在机构练舞蹈摔倒致高位截瘫:只拿到20万赔偿

头条要闻

5岁女童在机构练舞蹈摔倒致高位截瘫:只拿到20万赔偿

体育要闻

从英国联赛到NBA,两个美国人相爱相杀

娱乐要闻

杨幂留言为热巴庆生,姐妹情深惹人羡

财经要闻

卷走53亿 浙江富豪全家跑路了

汽车要闻

2.0T+云辇-P+天神之眼 方程豹豹8还配软包内装

态度原创

时尚
亲子
家居
房产
军事航空

裙子配运动鞋,放松穿最好看!

亲子要闻

其他是小蜜蜂,她是小雄峰

家居要闻

简而不冷 明朗的治愈能量

房产要闻

79.17亿!海开拿下永丰南地块 据说产品90平起

军事要闻

俄车臣特种部队已转至哈尔科夫 指挥官:进入决战阶段

无障碍浏览 进入关怀版