网易首页 > 网易号 > 正文 申请入驻

「世界通用模拟器」 Sora 真的能懂物理世界吗?

0
分享至

机器之心PRO · 会员通讯 Week 08

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. 「世界通用模拟器」 Sora 真的能懂物理世界吗?

Sora 的技术有哪些独特之处?Sora 到底是不是世界模型?世界模型和生成视频的关系是什么?Sora 生成符合物理规律的视频是否意味着能理解物理世界?同期其他相关研究工作在技术路线上有哪些差异?...

2. 热归热,Groq 离取代英伟达 GPT 有多远?

Groq 为何一夜爆火?LPU 和 GPU 有什么区别?各方大佬都如何对比 Groq 和 H100 的成本?Groq 有希望取代 GPU 吗?...

3. YC 发布 2024 年最值得关注的 20 个创业方向

20 个 创业方向都有哪些?知名创投公司 YC 近期都投资了哪些方向的创业公司?涉及重点创业方向的公司目前发展的怎么样?...

...本期完整版通讯含 3 项专题解读 + 33 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 6 项,国外方面 15 项...

本期通讯总计 27819 字,可免费试读至 9 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)



要事解读 ①「世界通用模拟器」 Sora 真的能懂物理世界吗?

日期:2 月 16 日

事件:OpenAI 发布了文本到视频生成模型 Sora,因其生成效果惊艳,同时可以生成不同时长、长宽比和分辨率的视频和图像,最多可以输出长达一分钟的高清视频,打开了文生视频的新格局。Open AI 在 Sora 的技术报告中称「Video generation models as world simulators」,关于 Sora 是否是由数据驱动的物理引擎/世界模型,能否真正懂物理世界...等等引发了业内大佬们的热议。

Sora 的技术有哪些独特之处?

1、Open AI 受到大型语言模型通用训练的影响,将所有类型的视觉数据转化为统一表示 patches,采用时空 patches 充当 Transformer 的 tokens,这也是 Sora 的核心。研究者先将视频压缩到较低维的潜在空间,然后将表示分解为时空 patches,从而将视频转换为 patches。[3]

① patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示。带有时间和空间信息,还可以自由排列,灵活度极高,可以用于训练不同类型的视频和图像的生成模型。

② patches 的概念最早出自于论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》,研究者提出将图像编码成一个个序列单元 patches。[1]

2、研究者通过降低视觉数据维度的网络将原始视频作为输入,输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练,而后生成视频。

3、同时,研究者将扩散 Transformer 用于视频生成,Sora 是个扩散模型,研究者通过给定输入噪声 patches(以及文本提示等调节信息),训练出的模型来预测原始的「干净」patches。

① Diffusion Transformers的技术被认为来源于 Sora 作者之一 William Peebles 的论文《Scalable diffusion models with transformers》。[2]

② 在该论文中,研究者提出了一种基于 transformer 架构的新型扩散模型即 DiT。研究者训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。然后通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。

与以往文生视频模型相比,Sora 有哪些突破?

1、先前 Runway、Pika 等机构发布的文生视频产品及相关工作通常只关注一小类视觉数据、较短的视频或固定大小的视频。而 Sora 是视觉数据的通用模型,可以生成不同时长、长宽比和分辨率的视频和图像,而且最多可以输出长达一分钟的高清视频。

2、OpenAI 在技术报告中阐述了 Sora 的几项能力[4] ,包括:

① 3D 一致性。Sora 可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中保持一致移动。

② 长程一致性和物体永久性。对于视频生成系统来说,一个重要的挑战是在采样长视频时保持时间上的一致性。研究者发现,Sora 通常能够有效地建模短程和长程的依赖关系,但并非总是如此。

③ 与世界互动。Sora 有时可以模拟对世界产生简单影响的动作。例如,画家可以在画布上留下持续存在的新笔触,或者一个人可以吃掉一个汉堡并留下咬痕。

④ 模拟数字世界。Sora 能够模拟人工过程,例如在视频游戏中,Sora 可以同时使用基本策略控制 Minecraft 中的玩家,同时以高保真度渲染世界及其动态。

3、最为重要的是,Sora 不仅仅只是被看作为简单的视频生成模型,Open AI 认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。在技术报告中,Open AI 表示,「Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。」

Sora 是不是世界模型?重温「世界模型」的概念及演进

1、Sora 的发布,引起了关于「世界模型」的新一波热议。事实上,「世界模型」并非新的概念。2018 年,David Ha 和 Jürgen Schmidhuber 发表论文《World Models》,但并未论文中给出「世界模型」的定义,而是将心智模型的概念引入到了机器学习模型的构建中。

① 系统动力学之父杰伊-赖特-福雷斯特(Jay Wright Forrester)将心智模式描述为「我们头脑中关于周围世界的印象,只是一个模型。」没有人会在头脑中想象出所有的世界、政府或国家。他只有选定的概念以及它们之间的关系,并用这些概念来代表真实的系统。

② 同时,论文中指出,我们大脑中的预测模型预测的可能不是一般性的未来,而是基于我们的动作的未来的感官数据。这样,我们就能基于这个预测模型采取直觉行动,并在面临危险时执行快速反射行为。这个过程并不需要进行有意识的规划。

2、作为坚持「世界模型」的代表 Yann LeCun,其在发表的论文《A Path Towards Autonomous Machine Intelligence》[5] 中,将世界模型的描述为:

① 世界模型可能预测自然世界的演化,或者预测由行为主体模块提出的一系列动作所导致的未来世界状态。世界模型可以预测多个合理的世界状态,这些状态由潜在变量参数化,这些潜在变量代表对世界状态的不确定性。

② 世界模型是一种模拟世界相关方面的‘模拟器’。世界状态的哪些方面是相关的取决于手头的任务。配置器配置世界模型以处理当前的情况。预测是在包含与任务相关信息的抽象表示空间内进行的。

③ 理想情况下,世界模型会在多个抽象层次上操纵世界状态的表示,使其能够预测多个时间尺度。一个关键问题是,世界模型必须能够表示世界状态的多种可能预测。自然世界并不是完全可预测的。这一点尤为重要。(内容来自 Week 01 通讯内容)

3、南京大学人工智能学院俞扬认为,「世界模型」的核心是反事实推理(Counterfactual reasoning),即对于在数据中没有见过的决策,在 world model 中都能推理出决策的结果。[6]

① Sora 生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答 what if 问题。

② 当前 AI 研究者对于「世界模型」的追求,是试图超越数据,进行反事实推理,回答 what if 问题能力的追求。

4、未来实验室的首席专家胡延平认为,Sora 只是二维视觉的压缩扩散和时空表达,不是物理引擎,也不是世界模型。[7]

① Sora 主要是基于二维视觉的压缩扩散和时空表达,而不是一个物理引擎。Sora 的技术并不是基于物理世界规律的多维表征,而是通过视频生成模型的规模扩大,尝试构建能够模拟物理世界的通用模拟器。这意味着 Sora 更多地关注于二维视觉的生成和表达,而不是深层次的物理世界模拟。

② 尽管 Sora 展现出了生成逼真视频的能力,但其背后并不是基于物理规则或内在形状的数字构建。Sora 的工作原理更多是基于像素、位置、时空信息的变化和表征,而非直接模拟物理世界的规律。这表明 Sora 的技术实现和物理引擎之间存在本质的差异。

世界模型和生成视频的关系是什么?

1、在 Sora 的技术报告中,OpenAI 认为,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。[4]

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辽媒点评韩德君,如果他是国内第一中锋,那他就是近20年最差中锋

辽媒点评韩德君,如果他是国内第一中锋,那他就是近20年最差中锋

篮球侍郎
2024-05-22 22:16:23
媒体人:周定洋和莱切特肯定是打架了,但这在足球队不算稀奇事

媒体人:周定洋和莱切特肯定是打架了,但这在足球队不算稀奇事

直播吧
2024-05-23 17:08:16
格林换米切尔?美记爆火箭骑士有意5换1交易 休城急需重返季后赛

格林换米切尔?美记爆火箭骑士有意5换1交易 休城急需重返季后赛

毒舌NBA
2024-05-23 17:24:08
事关军演!岛内有人看出一些门道来了

事关军演!岛内有人看出一些门道来了

亦纯杂谈
2024-05-23 12:58:20
尴尬!英国华裔主持人采访时被怼:你在马圈里出生,你就是马吗?

尴尬!英国华裔主持人采访时被怼:你在马圈里出生,你就是马吗?

前沿科技学习分享圈
2024-05-20 21:53:29
注意!上海天气即将转折:这天降温+降雨,还有雷电…今年首个台风要来了?

注意!上海天气即将转折:这天降温+降雨,还有雷电…今年首个台风要来了?

上观新闻
2024-05-22 18:46:51
最完整的中国神仙系统

最完整的中国神仙系统

三农老历
2024-05-11 03:25:23
玄学提醒:学会布施,你的财运越来越好。

玄学提醒:学会布施,你的财运越来越好。

小怪吃美食
2024-05-23 17:29:59
警惕!高盛CEO拉响警报:美联储今年恐怕不会降息 消费者正开始控制支出

警惕!高盛CEO拉响警报:美联储今年恐怕不会降息 消费者正开始控制支出

每日经济新闻
2024-05-23 13:31:16
历史时刻!拼多多市值正式超过阿里巴巴,成为中国第一大电商公司

历史时刻!拼多多市值正式超过阿里巴巴,成为中国第一大电商公司

克莱恩财经
2024-05-23 14:59:52
专家:对俄战争已然失败

专家:对俄战争已然失败

俄罗斯卫星通讯社
2024-01-22 15:13:11
5月尾巴,喜从天降,四个星座可得大财进门

5月尾巴,喜从天降,四个星座可得大财进门

朗威谈星座
2024-05-23 19:36:52
辽篮接机现场!郭艾伦跟球迷道歉 一番话很心酸

辽篮接机现场!郭艾伦跟球迷道歉 一番话很心酸

胖子喷球
2024-05-23 17:24:29
29岁男子露营不幸溺亡,涉事营地回应:提示了严禁下水

29岁男子露营不幸溺亡,涉事营地回应:提示了严禁下水

环球网资讯
2024-05-23 12:22:06
湖南公职人员出轨后续:曝在女方家里床上捉奸,其丈夫常年出差

湖南公职人员出轨后续:曝在女方家里床上捉奸,其丈夫常年出差

180°视角
2024-05-22 10:01:36
看了广州一退休教师的家,才知道什么叫岁月静好,一进屋就被治愈

看了广州一退休教师的家,才知道什么叫岁月静好,一进屋就被治愈

装小宅
2024-05-22 11:10:06
浙江交警捏住男子喉管,反问暴不暴力,网友气炸,官方重磅处理

浙江交警捏住男子喉管,反问暴不暴力,网友气炸,官方重磅处理

大强影史
2024-05-23 11:13:23
以我们现在的眼光来看,谁才是抗美援朝主帅的最佳人选?

以我们现在的眼光来看,谁才是抗美援朝主帅的最佳人选?

甜甜笔录
2024-04-03 01:00:03
何超琼现身戛纳晚宴,珠光宝气光彩照人,本人超有气质

何超琼现身戛纳晚宴,珠光宝气光彩照人,本人超有气质

娱乐圈阿榨
2024-05-23 09:38:43
有钱任性!艾弗森:队友科尔曼开劳斯莱斯上班 第二天我也买了一辆

有钱任性!艾弗森:队友科尔曼开劳斯莱斯上班 第二天我也买了一辆

818体育
2024-05-23 18:27:00
2024-05-23 20:22:44
机器之能
机器之能
探索人工智能应用场景及商业化
1918文章数 4356关注度
往期回顾 全部

科技要闻

黄仁勋业绩会万字实录:我们的压力太大了

头条要闻

东部战区位台岛周边演习 三个罕见表述透露重要信号

头条要闻

东部战区位台岛周边演习 三个罕见表述透露重要信号

体育要闻

CBA最有价值球员,为何在总决赛迷失?

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

九鼎金租减值罗生门:郑州银行藏雷?

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

健康
时尚
游戏
数码
手机

在中国,到底哪些人在吃“伟哥”?

翻看日杂才发现:今年流行“项链叠戴、小包配大包”,时髦又高级

逆水寒手游新时装建议玩家不要买,买了直接成为掌管昼夜的神!

数码要闻

小米米家前开盖登机箱 20 英寸上市:支持干湿分离,售价 449 元

手机要闻

OPPO Reno12 / Pro 手机发布:采用四曲柔边直屏,售价 2699 元起

无障碍浏览 进入关怀版