网易首页 > 网易号 > 正文 申请入驻

什么是世界模型?为什么Sora不是 world simulator?

0
分享至


导语

新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野。那么什么是世界模型?Sora 到底是不是 world simulator 呢?南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题。Sora没有准确学到物理规律这一现象或许表明,简单的堆砌数据并不是通向更高级智能技术的道路。


俞扬老师此前在集智凯风研读营做了主题为“因果强化学习探索”的分享,深入讲解了强化学习中的世界模型,回放视频现已免费上线。扫描下方二维码可观看视频,欢迎感兴趣的朋友关注!

研究领域:世界模型,因果强化学习,因果阶梯,反事实推理

俞扬| 作者

随着媒体狂炒 Sora,OpenAI的介绍材料中称Sora是 “world simulator”,世界模型这个词又进入视野,但很少有文章来介绍世界模型。这里回顾一下什么是世界模型,以及讨论 Sora 是不是 world simulator。

什么是世界模型

当AI领域中讲到 世界/world、环境/environment 这个词的时候,通常是为了与 智能体/agent 加以区分。研究智能体最多的领域,一个是强化学习,一个是机器人领域。因此可以看到,world models、world modeling 最早也最常出现在机器人领域的论文中。而今天world models这个词影响最大的,可能是Jurgen 2018年放到arxiv的这篇以“world models”命名的文章,该文章最终以 “Recurrent World Models Facilitate Policy Evolution”的title发表在NeurIPS‘18。


论文题目:Recurrent World Models Facilitate Policy Evolution 论文地址: https://worldmodels.github.io/

该论文中并没有定义什么是World models,而是类比了认知科学中人脑的mental model,引用了1971年的文献。


mental model是人脑对周边世界的镜像

Wikipedia 中介绍的 mental model,很明确的指出其可能参与认知、推理、决策过程。并且说到 mental model 主要包含 mental representations 和 mental simulation 两部分。

an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到这里还是说得云雾缭绕,那么论文中的结构图一目了然的说明了什么是一个world model:


图中纵向V->z是观测的低维表征,用VAE实现,水平的M->h->M->h是序列的预测下一个时刻的表征,用RNN实现,这两部分加起来就是World Model。

也就是说,World model 主要包含状态表征和转移模型,这也正好对应mental representations 和 mental simulation。

看到上面这张图可能会想,这不是所有的序列预测都是world model了?其实熟悉强化学习的同学能一眼看出来,这张图的结构是错误(不完整)的,而真正的结构是下面这张图,RNN的输入不仅是z,还有动作action,这就不是通常的序列预测了(加一个动作会很不一样吗?是的,加入动作可以让数据分布自由变化,带来巨大的挑战)。


Jurgen的这篇论文属于强化学习领域。那么,强化学习里不是有很多model-based RL吗,其中的model跟world model有什么区别?答案是没有区别,就是同一个东西。Jurgen先说了一段:


基本意思就是,不管有多少model-based RL工作,我是RNN先驱,RNN来做model是我发明的,我就是要搞。

在Jurgen文章的早期版本中,还说到很多 model-based RL,虽然学了model,但并没有完全在model中训练RL。


没有完全在model中训练RL,实际上并不是model-based RL的model有什么区别,而是model-based RL这个方向长久以来的无奈:model不够准确,完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。

编注:强化学习算法可以分为无模型(model-free)强化学习与有模型(model-based)强化学习,后者中的模型也被称为世界模型(World model)。在基于世界模型的强化学习方法中,智能体首先学习一个关于环境的内嵌的模型,在内嵌的模型中学习行为决策,从而提高在真实环境中的表现。

聪明的Sutton在很久以前就意识到model不够准确的问题。在1990年提出Dyna框架的论文 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(发表在第一次从workshop变成conference的ICML上),管这个 model 叫 action model,强调预测action执行的结果。RL一边从真实数据中学习(第3行),一边从model中学习(第5行),以防model不准确造成策略学不好。




论文题目:Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming 论文地址:https://dl.acm.org/doi/10.1145/122344.122377

可以看到,world model对于决策十分重要。如果能获得准确的world model,那就可以通过在world model中反复试错,找到现实最优决策

这就是world model 的核心作用:反事实推理/Counterfactual reasoning, 也就是说,即便对于数据中没有见过的决策,在world model中都能推理出决策的结果。

了解因果推理的同学会很熟悉反事实推理这个词,在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯:

  • 最下层是“关联”,也就是今天大部分预测模型主要在做的事;

  • 中间层是“干预”,强化学习中的探索就是典型的干预;

  • 最上层是“反事实”,通过想象回答 what if 问题。

Judea为反事实推理绘制的示意图,是科学家在大脑中想象,这与Jurgen在论文中用的示意图异曲同工。



左:Jurgen论文中的世界模型示意图。右:Judea书中的因果阶梯。

到这里我们可以总结,AI研究人员对world model的追求,是试图超越数据,进行反事实推理,回答what if问题能力的追求。这是一种人类天然具备,而当前的AI还做得很差的能力。一旦产生突破,AI决策能力会大幅提升,实现全自动驾驶等场景应用。

Sora 是不是 world simulator

simulator这个词更多出现在工程领域,其作用与world model一样,尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组,但意思不变。

Sora生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答what if问题

甚至难以评价Sora的生成能力有多强,因为完全不清楚demo的视频与训练数据的差异有多大。

更让人失望的是,这些demo呈现出Sora并没有准确地学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处。(OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?https://www.zhihu.com/question/644478663/answer/3398992400)

我猜测OpenAI放出这些demo,应该基于非常充足的训练数据,甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。OpenAI认为Sora证明了一条通往simulators of the physical world的路线,但看起来简单的堆砌数据并不是通向更高级智能技术的道路

本文首发于作者知乎:https://zhuanlan.zhihu.com/p/661768957,经作者授权转载。‍

学者简介

自由能原理与强化学习读书会启动

由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”,它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律,从第一性原理出发解释智能体更新认知、探索和改变世界的机制,从而对人工智能,特别是强化学习世界模型、通用人工智能研究具有重要启发意义。

集智俱乐部联合北京师范大学系统科学学院博士生牟牧云,南京航空航天大学副教授何真,以及骥智智能科技算法工程师、公众号 CreateAMind 主编张德祥,共同发起「」,希望从自由能原理这个更底层的视角重新审视强化学习世界模型,探讨自由能原理、强化学习世界模型,以及脑与意识问题中的预测加工理论等前沿交叉问题,探索这些不同领域背后蕴含的感知和行动的统一原理。读书会从3月10日开始,每周日上午10:00-12:00,持续时间预计8-10周。欢迎感兴趣的朋友报名参与!

详情请见:

1.

2.

3.

4.

5.

6.

​​​​​

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凯特舅舅发声了!事关凯特,听到这个消息,大家为之捏一把汗

凯特舅舅发声了!事关凯特,听到这个消息,大家为之捏一把汗

亦纯杂谈
2024-05-17 17:37:58
莫文蔚成为第一位在鸟巢举办演唱会艺人

莫文蔚成为第一位在鸟巢举办演唱会艺人

楚门记
2024-05-17 16:21:43
到底谁是弱智?

到底谁是弱智?

梳子姐
2024-05-14 16:37:12
局长去世后人走茶凉,全局只有女副科长去吊唁,2年后女子成正局

局长去世后人走茶凉,全局只有女副科长去吊唁,2年后女子成正局

二十一号故事铺
2024-05-09 14:20:21
重庆市铜梁区龙廷城市开发建设有限公司副总经理孟江被查

重庆市铜梁区龙廷城市开发建设有限公司副总经理孟江被查

界面新闻
2024-05-17 15:30:43
原来真有员工是被老板养着的!网友:烦死了,两个老板同时看上我

原来真有员工是被老板养着的!网友:烦死了,两个老板同时看上我

时尚的弄潮
2024-05-17 20:19:00
浙江:女子嫁二婚,如今后悔了,女子:长得帅也没用,中看不中用

浙江:女子嫁二婚,如今后悔了,女子:长得帅也没用,中看不中用

心轩专栏
2024-05-18 00:21:09
网友发现屋顶的这一幕,感觉自己被监控啦!

网友发现屋顶的这一幕,感觉自己被监控啦!

英国那些事儿
2024-05-15 22:13:36
中俄已谈妥,枪口一致对美,美军方连夜来电,解放军立下3条规矩

中俄已谈妥,枪口一致对美,美军方连夜来电,解放军立下3条规矩

文雅笔墨
2024-05-17 19:51:44
四川加码以旧换新 鼓励传统油车更换新能源车

四川加码以旧换新 鼓励传统油车更换新能源车

北青网-北京青年报
2024-05-17 08:27:05
江青和王洪文合影照,两人在一起笑容满面,关系紧密

江青和王洪文合影照,两人在一起笑容满面,关系紧密

历史控
2024-05-04 23:54:43
为什么今年钱越来越难赚?告诉你几个残酷的社会真相,你就明白了

为什么今年钱越来越难赚?告诉你几个残酷的社会真相,你就明白了

侃故事的阿蚌
2024-05-18 00:19:53
他42岁主政宁夏,62岁任国务院总理,四个子女都无人为官

他42岁主政宁夏,62岁任国务院总理,四个子女都无人为官

华人星光
2024-05-15 17:40:38
帕森斯:骑士现在最大分歧点是米切尔 他们要在垮台之前把他送走

帕森斯:骑士现在最大分歧点是米切尔 他们要在垮台之前把他送走

直播吧
2024-05-18 02:12:19
中国银行原数据中心副总经理杨志国接受审查调查

中国银行原数据中心副总经理杨志国接受审查调查

界面新闻
2024-05-17 18:15:08
瑞士加速向中国运黄金,英法德日等8国集体抛美债,拜登无能为力

瑞士加速向中国运黄金,英法德日等8国集体抛美债,拜登无能为力

猫咪百万的日常
2024-05-17 13:17:08
隐瞒了我们62年!摘假发卸掉浓妆,79岁高龄的李谷一其实长这样?

隐瞒了我们62年!摘假发卸掉浓妆,79岁高龄的李谷一其实长这样?

农人老寓
2024-05-17 20:30:18
《庆余年2》:九大女演员信息

《庆余年2》:九大女演员信息

股票短线实盘指导操作
2024-05-17 14:13:44
41岁大学老师因疫情后遗症去世,最后照片可怕,师兄发文披露隐情

41岁大学老师因疫情后遗症去世,最后照片可怕,师兄发文披露隐情

求实者
2024-05-15 18:45:49
阿托伐他汀每年停用一段时间,更安全还是更危险?告诉你大实话

阿托伐他汀每年停用一段时间,更安全还是更危险?告诉你大实话

奇妙的本草
2024-05-14 20:00:02
2024-05-18 07:34:44
集智俱乐部
集智俱乐部
科普人工智能相关知识技能
4520文章数 4588关注度
往期回顾 全部

科技要闻

京东拼增长,大力出奇迹

头条要闻

媒体:菲律宾在南海闹事时 美国航母紧急"撤"到新加坡

头条要闻

媒体:菲律宾在南海闹事时 美国航母紧急"撤"到新加坡

体育要闻

中超疯狂星期五!5场28球,单场5球起步

娱乐要闻

《庆余年2》首播口碑出炉!有好有坏

财经要闻

重磅!楼市王炸来了 多部门出手救楼市

汽车要闻

内饰与配置全新升级 全新途观L PRO将于5月30日上市

态度原创

亲子
旅游
数码
手机
艺术

亲子要闻

小朋友背着琵琶下课,像极了琵琶放假~

旅游要闻

火车票改签收手续费了?12306回应

数码要闻

驰为 CoreBox 迷你主机发布:i5-13500H、2.5G 网口,1999 元起

手机要闻

vivo X100s首销战报出炉,蓝厂真赌对了

艺术要闻

真诚度101%,35岁的诚品画廊为什么选择北京?

无障碍浏览 进入关怀版