网易首页 > 网易号 > 正文 申请入驻

一段文字生成60秒视频,虚拟和现实融为一体,Sora冲击波震荡国内

0
分享至

本文来自“潮新闻客户端”,记者:张云山。

“一切来得太快,我们目前还在观望。”Rokid CEO祝铭明(musa)说,Sora带来的冲击波到底有多大,他们也在时刻关注。

2月16日凌晨,OpenAI正式发布他们的文本生成视频大模型Sora,其逼真的视觉效果让其在一夜之间“刷屏”,再次重现了一年前用ChatGPT轰动全世界的场景。



Sora生成视频截图

相比之前的文生视频软件Pika、runway、SVD等,Sora一出场就惊艳世界。目前OpenAI还没有发布Sora的公开使用版本,但已经发布的40多个演示视频中,包含有细节拉满的场景、复杂的摄像机以及多个充满情感的角色。OpenAI宣称,Sora可以理解物体在物理世界中如何存在,并准确地解释道具并生成引人注目的角色来表达充满活力的情感。

Sora最主要有三个优点:第一,“60s超长视频”,之前文本生成视频大模型一直无法真正突破AI视频的4秒连贯性瓶颈,而Sora直接做到了60秒连贯视频。第二,单视频既能有多角度镜头也能一镜到底,可以很好地展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。第三,Sora所合成的内容与物理世界规律保持一致,即不会出现违反世界客观规律的视觉信息。OpenAI并未单纯将Sora视为视频模型,而是作为“世界模拟器”。它能像人一样,理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现“汽车撞毁坦克”这样的情况。这就是“世界模型”的强大之处。

总的来说,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,也就是一种“扩散型Transformer”。

Sora背后是建模世界底层模型的大突破

Sora背后的工作原理到底是什么?

浙江大学计算机学院党委书记和人工智能研究所所长吴飞对潮新闻记者表示,Sora实现了内容合成从文本领域、到图像领域、再到视频领域的跨越,其背后的原理为“对合成内容中最小单元进行上下文关联有意义组合”。比如,若干单词在上下文维度上有意义组合可合成一篇文章、一批视觉子块在空间布局维度上有意义组合可合成一幅图像、一系列视觉子块在时空耦合上有意义拼接可合成一段视频。为了实现这一目的,自注意力机制(self-attention)、扩散模型(diffusion model)和变换神经网络(transformer)等被组合在一起使用。虽然这次Sora的技术原理尚未公布,但是一些外部专家猜测其仍是基于这些技术来训练视频生成模型。

吴飞教授表示,Sora很难将物理世界中牛顿定律、湍流方程和量子学定理等规律一条一条在模型中显式罗列实现,而是通过对海量数据学习来隐式表达客观规律,这或许是来自于神经网络模型的涌现之力。神经网络的涌现之力指量变产生了质变,在亿万个非线性映射函数组合之下,神经网络可生成意想不到的结果,即合成世界上先前从未出现过的内容,这正是这一轮人工智能在“数据、模型、算力”三驾马车推动下发展的应有之义。

浙江大学计算机学院CAD&CG国家重点实验室副主任、博士生导师陈为在接受潮新闻记者采访时表示,Sora是“文生长视频”功能上的突破,视频越长越难保证视频内容的合理性。Sora对AGI世界建模问题的研究有重要推动作用。Sora不止可以完成文生视频,更重要的是它可以被看作(但还不是) 建模世界底层物理规律的模型。因为其能生成符合世界运行规律的视频,所以可以认为其通过“阅读”大量视频,学会了预测下一个时刻的世界会是什么样子(在特定场景的视觉意义上),它学会了一些世界运行的底层物理规律。但目前来看,Sora的这个能力还是严重不足的,会产生大量不符合物理规律的视觉内容,比如漂浮的椅子、篮球穿过篮框、狼的数量忽多忽少等。

Sora今年底或将产生小时级文生视频

突飞猛进的人工智能,也让人类对文生视频的未来产生了好奇。陈为教授认为,Sora今年底或将产生小时级的文生视频。“文生视频从秒级到分钟级的视频生成很难,但从分钟级到小时级的挑战可能相对要容易,因为生成小时级的文本对大语言模型已经不是难事,我预测大概率今年底或明年达到小时级的合理文本内容。”他表示,小时级别的视频一定是人机协同创作的结果,否则视频中的矛盾点会多如牛毛。

吴飞教授也注意到,这次OpenAI公布的Sora合成视频所对应的提示词写得很精彩,具有生动的细节感,因此善于提出问题、设计内容以及使用工具都是我们每个人在从信息化时代迈向数智化时代需要不断加强的能力,“行之力则知愈进,知之深则行愈达”!

未来的文生视频模型一定是多模态的

“文生视频领域的中外差距又拉大了。”陈为认为,中国学术界或产业界有能力实现文生图,在此基础上可以产生秒级 (10秒以内) 视频,但难以做到视频前后语义一致性,或只能局限于特定场景,这与之前的国际前沿是差不多的。但与Sora相比,差距甚大。“这种差距本质上是我们在大语言模型(LLM)和多模态大模型上的差距的直接映射,因为Sora背后的技术在本质上与LLM技术类似:LLM是大量读书,Sora是大量读图(视频),且通过学习大量“视文对”样本来实现视文对产,进而实现文生视频。“确实,我们又落后了!”

当然,Sora作为世界模型也存在一些问题,例如通过大量“读图”学习世界运行的规律固然是合理的,但类比“人”,仅“睁眼看世界”是学不会牛顿定律等物理学可以演绎的世界规律的。世界模型一定是多模态的,Sora最终很可能面临如何与“牛顿定律”等符号型知识对齐并进行泛化性演绎的挑战。

国内外科技圈沸腾了

Sora横空出世,学术圈炸开锅了,各路大佬也纷纷开麦。

日前,360创始人周鸿祎发微博称,Sora的诞生意味着AGI的实现可能从10年缩短至两年左右。他表示:“有了大模型技术作为基础,再加上人类知识的引导,可以创造各个领域的超级工具。”

出门问问创始人李志飞在微信朋友圈称:“LLM(大语言模型)ChatGPT是虚拟思维世界的模拟器,以LLM为基础的视频生成模型Sora是物理世界的模拟器,物理和虚拟世界都被建模了,到底什么是现实?”

Lepton AI公司创始人贾扬清认为,Sora的问世可能会给对作OpenAI的公司带来一波被大厂收购的机会,他称这类收购为“FOMO”,中文意思是“害怕错过机会而导致的收购”。贾扬清预测,大模型市场长期仍将呈现整寡头的格局,开源大模型仍然需要一段时间才能追赶上。他同时表示,Sora这类文生视频大模型的出现无疑将会推动AI基础设施的需求猛增。

纽约大学助理教授谢赛宁(经典网络结构ResNeXt的一作)直言,Sora将改写整个视频生成领域。谢赛宁分析,Sora应该是建立在DiT这个扩散Transformer之上的。简而言之,DiT是一个带有Transformer主干的扩散模型,它=[VAE 编码器 + ViT + DDPM + VAE 解码器]。谢赛宁猜测,在这上面,Sora应该没有整太多花哨的额外东西。关于视频压缩网络,Sora可能采用的就是VAE架构(深度生成模型),区别就是经过原始视频数据训练。而由于VAE是一个筐,所以DiT从技术上来说是一个混合模型。他还有猜测,Sora可能有大约30亿个参数。



LLM(大语言模型)图据视觉中国

OpenAI估值达800亿美元

在Sora引发全球关注的同时,OpenAI的估值也再次拉高,成为全球第三高估值的科技初创公司。

随着最新要约收购完成,OpenAI的估值正式达到800亿美元,仅次于字节跳动和Space X。

这笔交易由风投公司Thrive Capital牵头,外部投资者可以从一些员工手中购买股份,2023年年初时OpenAI就完成过类似交易,使其当时的估值达到290亿美元。

而在Sora发布后,GPT-4 Turbo也大幅降低速率限制,提高TPM(每分钟最大token数量),较上一次实现2倍提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3-1!世预赛最惨球队诞生:6轮拿10分却出局,白忙活一场了

3-1!世预赛最惨球队诞生:6轮拿10分却出局,白忙活一场了

元爸体育
2024-06-14 10:01:54
问界M9翻滚下山崖全景图曝光之后,网友们对山崖又有了新的认识

问界M9翻滚下山崖全景图曝光之后,网友们对山崖又有了新的认识

映射生活的身影
2024-06-13 18:26:51
穆斯卡特:若有人创造故事是对球员侮辱,李帅脚踝肿得很严重

穆斯卡特:若有人创造故事是对球员侮辱,李帅脚踝肿得很严重

懂球帝
2024-06-14 22:57:07
欧盟一意孤行,对中国征收25%关税,不到24小时,中方回应5句话

欧盟一意孤行,对中国征收25%关税,不到24小时,中方回应5句话

美人茶话会
2024-06-15 04:46:36
71岁大爷娶媳妇,32岁孕妻全程垮着脸,知情人:孩子不是大爷的

71岁大爷娶媳妇,32岁孕妻全程垮着脸,知情人:孩子不是大爷的

佑宛故事汇
2024-06-13 17:20:16
“我们不在乎制裁,因为我们有人民币”

“我们不在乎制裁,因为我们有人民币”

观察者网
2024-06-14 21:53:17
昔日队友除外最想和谁做队友?库里:霍勒迪 几乎所有人都在夸他

昔日队友除外最想和谁做队友?库里:霍勒迪 几乎所有人都在夸他

直播吧
2024-06-15 01:05:12
难度超过芯片!美日完全垄断,中国企业连山寨版的都造不出

难度超过芯片!美日完全垄断,中国企业连山寨版的都造不出

嘿哥哥科技
2024-06-15 03:56:33
一碗胜过十只鸡!建议女人常喝它,气血足精神好,心态越活越年轻

一碗胜过十只鸡!建议女人常喝它,气血足精神好,心态越活越年轻

多思味
2024-06-13 18:55:03
发现妻子出轨第5天,我麻利做完财产分割,微笑祝福他俩白头偕老

发现妻子出轨第5天,我麻利做完财产分割,微笑祝福他俩白头偕老

星辰故事屋
2024-06-05 12:18:58
退休金待遇比较高的人,一般都是什么类型的人呢?

退休金待遇比较高的人,一般都是什么类型的人呢?

社保小达人
2024-06-08 12:57:46
在山东,设计院倒闭潮要如约而至了

在山东,设计院倒闭潮要如约而至了

开心体育站
2024-06-14 11:52:16
冲奥大结局!荷兰队3-0出线,12支参赛队出炉,中国女排双喜临门

冲奥大结局!荷兰队3-0出线,12支参赛队出炉,中国女排双喜临门

何老师呀
2024-06-14 17:16:07
央媒怒批!湖南这一夜,孙楠凭一己之力,扯下了华语乐坛的遮羞布

央媒怒批!湖南这一夜,孙楠凭一己之力,扯下了华语乐坛的遮羞布

娱记掌门
2024-06-12 18:32:23
抓了一下WinRAR广告弹窗过程,这下舒服了!

抓了一下WinRAR广告弹窗过程,这下舒服了!

冒泡泡的鱼儿
2024-06-13 19:32:41
御姐风!太高级!要不起的感觉

御姐风!太高级!要不起的感觉

梧州生活宝
2024-05-22 23:14:03
_央视名嘴_:曾力挺日本排核污水并指责亚运会,逃往日本后怎样

_央视名嘴_:曾力挺日本排核污水并指责亚运会,逃往日本后怎样

王小乖
2024-05-20 15:08:33
下半年,财神点名,迎来事业和财运大丰收的三星座

下半年,财神点名,迎来事业和财运大丰收的三星座

小晴星座说
2024-06-14 17:40:36
姜萍被重点高中家长吐槽:凭啥我儿子做不到,她中专女却能做到?

姜萍被重点高中家长吐槽:凭啥我儿子做不到,她中专女却能做到?

熙熙说教
2024-06-14 17:11:08
河南拨放三千万抗旱资金,好事,为啥全是质疑声?网友:说出猫腻

河南拨放三千万抗旱资金,好事,为啥全是质疑声?网友:说出猫腻

三月柳
2024-06-14 11:26:43
2024-06-15 06:16:49
景联文科技
景联文科技
做AI行业客户的数据参谋
263文章数 0关注度
往期回顾 全部

科技要闻

马斯克重获信任 豪言特斯拉市值超10个苹果

头条要闻

欧洲杯-维尔茨斩首球哈弗茨破门 德国5-1苏格兰

头条要闻

欧洲杯-维尔茨斩首球哈弗茨破门 德国5-1苏格兰

体育要闻

我们为什么还爱欧洲杯?

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

“石油美元”协议走向终结 影响几何?

汽车要闻

提供100/240kW双电机版本车型 乐道L60实车曝光

态度原创

艺术
本地
教育
手机
公开课

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

教育要闻

姜萍数学竞赛全球12名,各大高校推荐数学专业,招生氛围感拉满

手机要闻

全球第一!OPPO Find X7 Ultra DXO电池成绩160分:充电5分钟续航10小时

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版