网易首页 > 网易号 > 正文 申请入驻

Sora 都关停了,AI 还怎么理解真实世界?

0
分享至


2025年9月30日的时候,Sora再次更新,迎来了升级版Sora2,当时凭借着生成视频的流畅、连贯,一度让人产生了一种错觉,AI似乎已经不仅仅只是会画图、写字,而是开始理解现实世界。

但戏剧性的是,Sora2的故事并没有沿着实现AGI的方向一路狂飙。在2026年4月26日,在毫无征兆的情况下,OpenAI宣布关闭Sora的APP以及网页版本,这短短的几个月,经历了巨大的变化。这一幕仿佛是给AI热潮按下了暂停键。


Sora刚发布出来的时候,OpenAI还特意撰写一篇雄心勃勃的技术文章《Video generation models as world simulators》。将视频生成模型视作世界模拟器,也把这种模型视为通往AGI的关键步骤。因为Sora不仅仅是把文字变成视频,更像是在学习一个世界如何运转,物体是如何移动,镜头如何变化,人物如何与环境互动。也正是如此,Sora被很多人视为从文生视频工具走向世界模型的一个标志性节点。

当时的Sora几乎就是处于文生视频领域的统治地位。


在Sora推出之前的早期文生视频模型最大的问题,并不是“不能生成视频”,而是它们只是学会了让画面动起来,却还没有真正理解世界如何运转,人物会变形,手指会乱长,物体会凭空出现又消失,前一秒还是同一个人,后一秒就变成另一张脸。更复杂的动作,比如吃东西、走路、拿东西、转身,常常会因为缺乏物理和空间理解而显得非常怪异。


ModelScope Text-to-Video 工具生成


来自于Meta AI 2022


Sora宣传视频

也正因如此,“人物吃东西”这类场景一度成了观察文生视频能力的直观标准。它考验的不只是画面是否清晰,而是模型是否真的能维持物体、动作、因果关系和时间连续性。而 Sora 诞生的意义就在这里。它让人们第一次如此明显地感觉到,AI 视频不再只是把一帧帧漂亮画面拼接起来,而像是在尝试学习一个世界如何连续地运行。人物如何移动,物体如何受力,镜头如何推进,场景如何保持一致——这些原本属于“现实世界规则”的东西,开始在生成视频中显现出来。

这也是为什么Sora会被许多人视为世界模型的雏形。它真正令人震撼的地方,并不只是视频更清晰、更逼真,而是它似乎展现出了一种更深层的能力,在时间中维持物体、动作、空间和因果关系的连续性,仿佛正在学习现实世界如何运行。

那什么是世界模型?为什么其又被称为世界模拟器?

世界模型(World Model)是一种让人工智能在内部建立“虚拟世界”的能力。通俗地说,它让 AI 像人类一样去预测环境的下一步变化,不仅知道物体是什么,还能理解物体如何运动、如何与周围环境互动。

传统的大模型(如语言模型或图像生成模型)主要关注“内容生成”,预测下一个词,生成一张图片。而世界模型关注的是动态变化和因果关系,如果一个人把杯子推向桌边,杯子可能会掉落;如果一个小球从斜坡滚下,它会沿着物理规律移动。AI 在内部模拟这些变化,就形成了它的“认识”。


世界模型概念图

由于世界模型本质上是在AI 内部建立一个可预测环境的模拟器,它也被称为“世界模拟器(World Simulator)”。在这个模拟器中,AI 可以先“试验”不同操作的结果,然后选择最优行动策略。这种能力在机器人控制、自动驾驶、游戏智能和文生视频等领域都有潜在应用。

Sora 和类似的文生视频模型是世界模型概念的直观体现,通过生成连续的视频,模型不仅学习了画面特征,还在某种程度上学习了物体运动规律和场景连贯性。

但想要得到一个真正的“世界模拟器”,并非易事。它不仅需要生成视觉上逼真的画面,更必须理解当前世界的状态——知道物体在空间中在哪里,它们之间的关系,以及可能的交互方式。更重要的是,它还要预测未来可能发生的变化,并在内部模拟不同的行动结果。换句话说,它像人类在做决策前,在脑海中“预演”不同场景,然后选择最合适的行动。这样的能力,远超普通的图像生成或视频生成,它要求AI具备多维度的世界理解能力。

而在迈向世界模型的过程中,文本生成视频模型又几乎是最自然的起点。

原因很简单,视频本身就是世界运行的记录。它不像图片那样只定格某一瞬间,而是把物体的运动、人物的交互、场景的变化,以及事件之间的因果关系,都压缩在一帧又一帧的连续画面里。一个人走路时身体如何摆动,一辆车转弯时轨迹如何变化,一个物体被推动后如何移动——这些现实世界的规律,都被隐含地写进了视频数据中。

而文本则像是一种指令,为模型提供生成目标和行为方向。它告诉模型,这个场景里有什么,人物在做什么,物体应该如何运动,环境又是什么状态。

当一个模型经过了在海量视频数据上的预训练时,它学到的并不只是“如何生成一段好看的视频”。更重要的是,它开始捕捉世界在时间维度中连续展开的规律,物体不能凭空出现或随意消失,人物动作需要前后衔接,空间结构必须保持稳定,光影和视角变化也要符合基本的物理直觉。甚至在更复杂的场景中,事件之间还需要具有一定的因果逻辑——比如球被推了一下才会滚动,杯子受到碰撞才可能倒下。

不过,要让AI真正生成一段连续、稳定、符合常识的视频,并不是简单地把多张图片连在一起。模型需要同时处理文字理解、视觉生成、时间一致性、运动建模以及空间结构保持等多个问题。于是,围绕“如何让视频自然地动起来”,不同的技术路线逐渐发展出来。对于文本生成视频模型来说,主要的技术流派可以分为三种

01

生成对抗网络

——让模型在“真假博弈”中学会生成视频


早期视频生成模型很大程度上受到 GAN 的影响,它可以理解为一场“生成器”和“判别器”之间的真假博弈,生成器负责制造视频,判别器负责判断视频是真实数据还是模型生成。生成器不断尝试骗过判别器,判别器则不断提升辨别能力,二者在对抗中共同进步。在视频生成中,早期 GAN 方法通常会将视频拆分为内容和运动两部分,内容对应人物、物体和背景等相对稳定的信息,运动则描述它们随时间发生的变化。不过,GAN 的训练过程往往不够稳定,也容易出现模式崩溃。再加上视频比图像多了时间维度,模型不仅要生成真实画面,还要保证前后帧连续一致,因此 GAN 在长视频生成、复杂运动建模和精确文本控制方面仍面临较大挑战。

02

扩散模型

——噪声中一步步“还原”视频


相比于第一类的GAN一步到位的视频生成路线,扩散模型采用的是逐步生成的方式。在训练阶段,给图像逐步添加噪声,让模型学会清除噪声的能力;而在生成阶段,则从随机噪声开始,一步步去除噪声,最终生成符合于文本描述的视频。这种生成视频的方法是目前的主流路线。扩散模型的优势很明显,生成质量高、细节丰富、语义控制能力强,也更容易和文本编码器、图像生成模型、视频超分辨模块结合。因此,现在很多高质量文生视频系统都与扩散模型有关。相比于对抗性神经网络,扩散模型生成视频的时间以及帧率更高,但由于扩散模型需要进行多步迭代,导致其所需要的生成时间较长,计算成本也会更高。

03

自回归视频模型

——像写文章一样,一步步预测下一帧


它的思想和 GPT 写文字非常相似,GPT 会根据前面已经出现的词来预测下一个词,而自回归视频模型则会根据前面已经生成的图像帧或者是视频token,继续预测后面的画面。也就是说,它不是一次性生成完整视频,而是按照时间顺序一步步“续写”视频内容。前面的画面会为后面的生成提供上下文,例如人物的位置、动作方向、场景结构和物体状态都需要被延续下去。因此,自回归模型天然适合建模视频中的时间关系和动作连续性。不过,这种方法也有明显局限,由于视频需要逐步生成,速度通常较慢。如果前面某一步生成出错,后续内容也可能受到影响,导致误差不断累积。总体来说,自回归模型就像是在写一篇动态故事,它擅长根据已有内容推演后续发展,但也需要解决效率和长期稳定性的问题。

因此,无论是训练还是部署一个文生视频模型,都意味着巨大的算力成本。据公开资料,训练一个 11B 参数规模的开源视频模型 Open-Sora 2.0,成本可能达到约 20 万美元。而对于参数规模更大、训练数据更多、推理服务更复杂的闭源商业模型而言,实际投入往往只会更高。也正是在这样的背景下,文生视频模型的商业化和持续运行问题变得格外值得思考。它提醒我们,通向世界模型的道路,并不只是不断追求更震撼的生成效果。一个真正可用的世界模型,不仅要能够生成清晰、连续、符合物理直觉的视频世界,还必须能够以可接受的成本被部署和长期运行。

如果一个模型只能在极高算力消耗下生成短暂片段,那么它距离真正可交互大规模应用的世界模拟器,仍然还有很长一段距离。

——End——

参考资料

1.Train and Run Open-Sora 2.0 on HPC-AI.COM: State-of-the-Art Video Generation at a Fraction of the Cost Ha D, Schmidhuber J. World models[J]. arXiv preprint arXiv:1803.10122, 2018, 2(3): 440.

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

2.Brooks T, Peebles B, Holmes C, et al. Video generation models as world simulators[J]. OpenAI Blog, 2024, 1(8): 1. Bruce J, Dennis M D, Edwards A, et al. Genie: Generative interactive environments[C]//Forty-first International Conference on Machine Learning. 2024.

3.Tulyakov S, Liu M Y, Yang X, et al. Mocogan: Decomposing motion and content for video generation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1526-1535.

4.Li Y, Min M, Shen D, et al. Video generation from text[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).

5.Ho J, Salimans T, Gritsenko A, et al. Video diffusion models[J]. Advances in neural information processing systems, 2022, 35: 8633-8646.

部分图片由AI生成

编辑:未

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成都小米车主遇剐蹭维权遭三次殴打致骨折!小米法务称维权到底

成都小米车主遇剐蹭维权遭三次殴打致骨折!小米法务称维权到底

听心堂
2026-05-28 13:41:05
网红边牧“锄头”丢失后遭转卖宰杀 狗主人:不会和解,已提交材料,希望刑事立案

网红边牧“锄头”丢失后遭转卖宰杀 狗主人:不会和解,已提交材料,希望刑事立案

封面新闻
2026-05-29 19:50:04
欧冠决赛首次傍晚开球,阿森纳复仇巴黎

欧冠决赛首次傍晚开球,阿森纳复仇巴黎

赛场名场面
2026-05-29 01:09:39
广东省各市一季度GDP,佛山负增长,中山破千亿

广东省各市一季度GDP,佛山负增长,中山破千亿

白浅娱乐聊
2026-05-29 16:28:06
10420mAh!OPPO新机官宣:5月29日,正式开售!

10420mAh!OPPO新机官宣:5月29日,正式开售!

科技堡垒
2026-05-29 11:11:33
他达拉非立大功!研究发现:中老年吃他达拉非,改善5类难言之隐

他达拉非立大功!研究发现:中老年吃他达拉非,改善5类难言之隐

健康科普365
2026-05-28 21:10:13
演员刘红梅去世,享年61岁,曾出演《水浒传》《功夫皇帝方世玉》

演员刘红梅去世,享年61岁,曾出演《水浒传》《功夫皇帝方世玉》

韩小娱
2026-05-29 17:08:32
签完反华声明,马科斯访日画上句号,不足1天,解放军准时下通牒

签完反华声明,马科斯访日画上句号,不足1天,解放军准时下通牒

影孖看世界
2026-05-29 23:55:52
NVIDIA女员工嫁联发科 黄仁勋崩溃吐槽:众人笑翻

NVIDIA女员工嫁联发科 黄仁勋崩溃吐槽:众人笑翻

快科技
2026-05-29 11:36:07
美股半导体硬件、存储芯片、服务器、应用软件全线爆发 多股再创历史新高

美股半导体硬件、存储芯片、服务器、应用软件全线爆发 多股再创历史新高

财联社
2026-05-29 21:44:13
《主角》大结局,最离谱的并非米兰入狱,而是封潇潇被“糟蹋”了

《主角》大结局,最离谱的并非米兰入狱,而是封潇潇被“糟蹋”了

娱乐故事
2026-05-27 23:07:55
让巴萨球员来执教皇马,只为拖垮穆里尼奥,对银河战舰3.0的重建

让巴萨球员来执教皇马,只为拖垮穆里尼奥,对银河战舰3.0的重建

穆里尼奥主义者
2026-05-28 20:44:55
江苏通报“幼儿园教师用热熔胶烫伤小女孩”:涉事教师已被停职

江苏通报“幼儿园教师用热熔胶烫伤小女孩”:涉事教师已被停职

闪电新闻
2026-05-29 19:33:40
日媒:中方一天三个部门警告日本属实罕见,日专家“中日难缓和”

日媒:中方一天三个部门警告日本属实罕见,日专家“中日难缓和”

徐纗老表哥
2026-05-28 19:45:44
如果当初决策层相信了许小年,中国可能会比现在落后二十年

如果当初决策层相信了许小年,中国可能会比现在落后二十年

素衣读史
2026-05-29 21:42:06
全球球衣销量前十:皇马巴萨前二,迈阿密国际第五,胜利第十

全球球衣销量前十:皇马巴萨前二,迈阿密国际第五,胜利第十

懂球帝
2026-05-29 22:20:07
欧冠决赛就在眼前,大巴黎与阿森纳布达佩斯一决胜负

欧冠决赛就在眼前,大巴黎与阿森纳布达佩斯一决胜负

晚风知我意21
2026-05-30 01:15:24
内分泌科主任:糖尿病最危险信号,不是口渴,是频繁出现6异常

内分泌科主任:糖尿病最危险信号,不是口渴,是频繁出现6异常

健康之光
2026-05-29 20:40:05
0-2上海!广厦队能夺冠吗?王仕鹏给出了自己的答案

0-2上海!广厦队能夺冠吗?王仕鹏给出了自己的答案

体育哲人
2026-05-29 17:07:11
双管齐下!曼联1.5亿锁中场双星,纽卡飞翼+2英冠球员进引援名单

双管齐下!曼联1.5亿锁中场双星,纽卡飞翼+2英冠球员进引援名单

体坛鉴春秋
2026-05-29 12:35:53
2026-05-30 01:44:49
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
10210文章数 136557关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

健康
房产
手机
本地
公开课

尝试干细胞疗法如何避免踩坑?

房产要闻

顺德澐璟「澐冠」再出圈:顶阶人群不是买房,是追加“传世资产”

手机要闻

自研OS+玄戒+AI大模型,小米18系列,稳了!

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版