网易首页 > 网易号 > 正文 申请入驻

OpenAI的文本生成视频大模型Sora震撼面世,2024年会是“AI视频生成元年”吗

0
分享至


OpenAI近日发布了一款名为Sora的全新视频大模型,实现了从文字描述到高质量视频的直接生成,突破了以往仅限于动画的限制。Sora以其出色的表现被誉为出道即巅峰,能够迅速响应用户的简单指令,创作出长达一分钟的高流畅度、高稳定性的视频作品。

目前,官方网站已展示48个精彩的视频demo,充分展现了Sora对细节的精准把握、对物理世界存在的深刻理解和丰富情感角色的创造能力。

此外,Sora还可根据文本提示、静态图片或补充现有视频的缺失帧生成视频内容。相较于其他AI视频模型,Sora生成的视频在质量上更为出色,避免了常见的“人工智能怪异”现象,为观众带来更加舒适的观看体验。

更令业内惊叹的是 ,Sora身上似乎开始出现“世界模型”的雏形 。 通过大量观察训练,它学会了许多关于真实世界的物理规律。

要知道,原先动画影视公司为让动物的数百万根毛发、皮肤纹理、衣物等细节在3D建模中表现得如现实场景般真实,为此专门成立研究部门,且投入了不菲的成本和时间才得以实现。而如今,Sora只需要一行描述、几次提示便能自动完成。现在,AI与现实之间的界限可能越来越模糊了。

比如,AI想象中的“龙年春节”,Sora能形成紧跟舞龙队伍抬头好奇的儿童,也能生成海量人物角色各种行为。


又如:一位24岁女性眨眼的极端特写,在魔法时刻站在马拉喀什,70毫米拍摄的电影,景深,鲜艳的色彩,电影效果。


还有:一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。


OpenAI的掌门人奥特曼(Altman)通过X网站邀请用户们向Sora投递他们的文字构想。随后,他公开展示了Sora依据这些文字描述创作的精彩视频片段。


连马斯克亦对Sora的能力表示赞叹,并预言:在接下来的几年中,人类将携手AI共同缔造出令人瞩目的杰作。数字经济应用实践专家骆仁童博士对此表示,Sora的诞生标志着人工智能技术的一大飞跃。它不仅展现了AI在解析和创造复杂视觉内容上的超凡实力,更对内容创作、娱乐产业以及影视制作等领域带来了前所未有的冲击与契机。

虽然OpenAI并非文生视频赛道的唯一的玩家,但该领域竞争激烈,众多参与者纷纷涌现。自去年下半年起,谷歌、Meta以及一些AI创业公司开始积极涉足这一市场。国内字节跳动也发布了Pixel Dance文生视频模型。阿里云的Animate Anyone和百度文心大模型也推出了类似的内测功能。


然而,尽管入局者众多,实际效果却不尽如人意。在Runway Gen2、Pika和PixVerse等AI视频工具仍在努力实现数秒内的连贯性时,Sora已经成功地将视频生成时长提升至1分钟,大大提高了视频的实用性。

Sora是如何实现其卓越性能的?OpenAI发布了一份关于Sora的技术报告,详细介绍了其技术原理和应用。

Sora的突破得益于LLM的成功经验,OpenAI通过引入视觉块嵌入代码(patches),这种高度可扩展且有效的视觉数据表示形式,大大提高了生成模型处理多样化视频和图像数据的能力。


在高维空间中,OpenAI首先将视频数据压缩到一个低维潜在空间,再将其分解为时空嵌入,将视频转化为一系列编码块。接着,OpenAI训练了一个专门用于降低视觉数据维度的网络,该网络将原始视频作为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩后的潜在空间中进行训练,并生成视频。

此外,OpenAI还训练了一个解码器模型,可以将这些潜在表示还原为像素级的视频图像。通过对压缩后的视频输入进行处理,研究人员能够提取出一系列的时空patches,这些patches在模型中类似于Transformer Tokens的角色。采用基于patches的表现形式,Sora能够适应不同分辨率、持续时间和宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的patches按照需要的大小排列成网格,来控制最终视频的大小和形式。


虽然原理听起来复杂,但OpenAI所使用的新技术——视觉块嵌入代码(简称视觉块)实际上就像将一堆杂乱无章的积木整理好放入一个小盒子中。这样,即使面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。

由于视频数据被转化为了一个个小方块的形式,当OpenAI向Sora提供一个新的视频任务时,他们会首先从该视频中提取出一些包含时间和空间信息的小方块,然后交给Sora让其根据这些信息生成新的视频。这样就可以像拼拼图一样,把视频重新组合起来。

这样做的好处是,计算机可以更快地学习和处理各种不同类型的图片和视频。随着Sora的训练越来越深入,OpenAI的研究人员还发现随着训练计算量的增加,样本质量得到了显著提高。


训练文本到视频生成系统需要大量带有文字标题的视频。OpenAI将在DALL·E 3中引入的重新标注技术应用到视频上,利用GPT将用户的简短提示转换成更长的详细说明,然后发送给视频模型,从而使得Sora能够生成高质量的视频。

除了可以从文字转化而来,Sora还能接受图片或已有视频的输入。这项功能让Sora能够完成各种图片和视频编辑任务,比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等。

形成“SORA”字样的逼真云朵图像。


在一个装饰华丽的历史大厅里,一道巨大的海浪正准备冲击而来。


Open AI利用其大语言模型优势,将LLM和Diffusion结合训练,通过学习视频,理解现实世界的动态变化规律,并模拟、创造出新的视觉内容,由此产生的视频真实感十足。360董事长周鸿祎指出,现在所有文生图、视频的模型都在2D平面上对图形元素进行操作,并未适用物理定律。


Sora技术虽然具有模拟现实世界的强大能力,并能模仿摄影师和导演的创意手法来生动呈现AI视频,但仍然面临一些挑战。OpenAI坦诚,Sora在处理空间问题和复杂场景的物理原理上存在局限性,可能会误解因果关系,混淆空间细节,或者难以精确描述随时间变化的事件。

Sora目前正在向部分用户开放,以便评估其潜在的风险。OpenAI意识到Sora可能被用于制造虚假信息和煽动仇恨内容,特别是在即将到来的2024年总统大选期间。

为了应对这一风险,OpenAI正在组建专家小组,研究Sora可能被滥用的途径,并寻求加强系统安全性的建议。同时,公司还在开发能够识别和分类由Sora生成的误导性内容的技术工具。


回顾历史,文生视频之所以能够在全球范围内引发关注并成为新一轮AIGC竞赛的焦点,主要是因为人们嗅到了短视频在全球直播电商、内容创作等新兴行业的巨大潜力。

周鸿祎认为,Sora可能会对广告业、电影预告片以及短视频行业产生深远影响,并成为激发创造力的工具。数字经济应用实践专家骆仁童博士也认为,Sora的真正价值在于赋予大众创作的能力,而不仅仅是替代摄影或艺术创作。这种潜力预示着全新的商业模式的出现。

Sora在展示其视频制作技能的同时,也揭示了大型模型日益增长的现实世界理解及模拟能力,预示着未来将有更多令人瞩目的创新和成功。


业界专家普遍认为,应用层面的最终目标将是真正通用人工智能(AGI)时代的到来。Sora的技术文档指出,“我们的结果表明,视频生成模型有望向构建通用物理世界模拟器迈进”。这与Sam Altman筹集7万亿美元打造全球AI芯片基础设施的宏伟蓝图相呼应。

因为要实现通用人工智能,必须具备巨大的算力支持。近期有投资界人士透露,Open AI正在讨论新一轮融资,估值高达千亿美元。作为AI行业的领头羊,拥有重塑全球AI芯片行业雄心的Open AI,无疑将继续借助资本的力量不断壮大。《》


在这场AI公司和资本交织的游戏中,技术迭代始终是跳跃式的,不会给人们太多的时间适应。然而,OpenAI坚信Sora目前的实力表明,持续扩展视频模型是朝着开发能够模拟物理世界和数字世界及其内部物体、动物和人类的模拟器的一条充满希望的途径。

未来的世界和AI行业将驶向何方?现在还无法断言。但可以肯定的是,2024年必将是充满刺激和变革的一年。

商道童言(Innovationcases)欢迎点赞和分享哦!~~

免费电子书: | | | |

数字经济应用实践专家 骆仁童主讲课程

人工智能:

数字应用:

数字中国:

数字化转型:

产业数字化:《》

宏观与趋势:

思维与技能:

创新与创业:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
波尔图官方:孔塞桑单方面宣布终止合同并不再担任球队主帅

波尔图官方:孔塞桑单方面宣布终止合同并不再担任球队主帅

懂球帝
2024-06-04 09:11:17
底薪签下CBA状元?再见了,陈国豪!人家才是广东队的内线答案!

底薪签下CBA状元?再见了,陈国豪!人家才是广东队的内线答案!

绯雨儿
2024-06-04 12:48:50
昨天还被捧上天的郭有才,今天就成了人人喊打的过街老鼠

昨天还被捧上天的郭有才,今天就成了人人喊打的过街老鼠

娱乐八卦木木子
2024-06-04 01:28:08
104岁国医大师:最好的抗心梗方法并非跑步和深呼吸,很多医生打卡

104岁国医大师:最好的抗心梗方法并非跑步和深呼吸,很多医生打卡

今日养生之道
2024-06-01 14:36:30
毛星火被封号,传递出一个重要信号

毛星火被封号,传递出一个重要信号

杏坛金语
2024-06-03 18:33:40
盛京医院征收决定、征收公告、补偿方案均已发布!

盛京医院征收决定、征收公告、补偿方案均已发布!

栋察楼市
2024-06-04 09:20:40
都市丽人的珠宝之旅

都市丽人的珠宝之旅

白宸侃片
2024-06-04 11:39:44
CCTV5直播!国足VS泰国,阿兰首秀,韦世豪逆袭,王大雷或受重用

CCTV5直播!国足VS泰国,阿兰首秀,韦世豪逆袭,王大雷或受重用

元爸体育
2024-06-04 17:15:10
特朗普大儿子开心猎杀蒙古濒危国宝盘羊,花掉54万,蒙古官员陪同

特朗普大儿子开心猎杀蒙古濒危国宝盘羊,花掉54万,蒙古官员陪同

民寒食艺呀
2024-06-04 06:32:10
笑不活了!公司取名“深圳不怕影子斜”被拒,笑死在网友评论区里

笑不活了!公司取名“深圳不怕影子斜”被拒,笑死在网友评论区里

钱多多多多
2024-06-04 09:49:45
早期计票不及预期,印度股汇债齐跌

早期计票不及预期,印度股汇债齐跌

华尔街见闻官方
2024-06-04 14:50:57
露“奶”装,露“下乳”?女明星大胆“镂空裙”?评论区炸了

露“奶”装,露“下乳”?女明星大胆“镂空裙”?评论区炸了

室内设计师阿喇
2024-06-04 08:47:35
2014年,印度商人为了庆祝45岁生日,穿4公斤黄金打造的纯金衬衫

2014年,印度商人为了庆祝45岁生日,穿4公斤黄金打造的纯金衬衫

茅舍品史
2024-06-01 23:40:02
深度818当年天涯上炒作最热的周公子事件,背后真相细思恐极!

深度818当年天涯上炒作最热的周公子事件,背后真相细思恐极!

一夜万古
2024-06-01 12:13:41
2比0!中国18岁小花法网3连胜,89分钟4破发力克强敌

2比0!中国18岁小花法网3连胜,89分钟4破发力克强敌

曹老师评球
2024-06-04 09:20:51
出人意料!德国队做出决定,克罗斯并未被选为欧洲杯上的球队队长

出人意料!德国队做出决定,克罗斯并未被选为欧洲杯上的球队队长

星耀国际足坛
2024-06-03 21:49:26
最新:落水失联两驴友被找到,人已死亡!“帮倒忙”抽烟男被骂惨

最新:落水失联两驴友被找到,人已死亡!“帮倒忙”抽烟男被骂惨

鬼谷子思维
2024-06-04 15:09:41
在法国呆了一个月,真的受不了了..

在法国呆了一个月,真的受不了了..

悠闲葡萄
2024-06-03 15:41:32
黄仁勋重磅官宣!“全球最强大的芯片”已开始投产

黄仁勋重磅官宣!“全球最强大的芯片”已开始投产

每日经济新闻
2024-06-03 07:50:10
空客将向中国出售100多架宽体客机

空客将向中国出售100多架宽体客机

花非花008
2024-06-04 15:37:44
2024-06-04 18:28:49
商道童言
商道童言
关注数字经济及创新案例研究
1545文章数 1549关注度
往期回顾 全部

科技要闻

斯坦福团队抄袭国产大模型后道歉 承诺撤下

头条要闻

两驴友被溪流冲走溺亡 律师:拉绳的蓝衣男子可能担责

头条要闻

两驴友被溪流冲走溺亡 律师:拉绳的蓝衣男子可能担责

体育要闻

一位糖尿病患者,和他的24年皇马梦

娱乐要闻

杨幂留言为热巴庆生,姐妹情深惹人羡

财经要闻

又一座城市,房价“鹤岗化”了!

汽车要闻

2.0T+云辇-P+天神之眼 方程豹豹8还配软包内装

态度原创

时尚
手机
亲子
艺术
家居

四十岁女人放弃扮嫩吧,尝试这样的贵气感搭配,美得高级大气

手机要闻

iPhone 16 Pro系列即将成为史上最窄边框手机,仅1.15mm

亲子要闻

海军的第一所幼儿园——海军青岛示范幼儿园

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

家居要闻

简而不冷 明朗的治愈能量

无障碍浏览 进入关怀版