网易首页 > 网易号 > 正文 申请入驻

GAN之父Ian Goodfellow病后归来,剑指高效世界模型

0
分享至

编辑|陈陈

沉寂许久的 Ian Goodfellow,终于再次现身。

这位提出 GAN(生成对抗网络)、被称为 GAN 之父的研究者,曾一手开启 AI 生成技术的早期浪潮。但在最近几年由大模型主导的新一轮生成式 AI 竞赛中,Goodfellow 的公开声音却并不频繁。

直到最近,终于有了他的消息。



文章作者共三位:

  • Ian Goodfellow 是生成模型时代的开创者,2014 年提出 GAN,开启了 AI 图像生成的第一波浪潮;
  • Chris Manning 则是 NLP 先驱、斯坦福教授,自然语言处理领域最具影响力的学者之一,长期推动大语言模型的发展;
  • Fan-Yun Sun 是 Moonlake AI 联合创始人兼 CEO,研究方向集中在多模态世界模型。

文中提出利用符号化表示(symbolic representations)以及游戏虚拟世界的数据,可能是构建具备动作条件(action-conditioned)的多模态世界模型的最佳路径。这类模型能够支持对长时序任务(long-horizon tasks)进行可靠的预测与规划。



文章地址:https://x.com/moonlake/status/2029983120087470545

以下是文章内容:

当人类以及其他动物生活在世界中时,它们可以感知周围正在发生的事情。但人类所做的远不止观察:人们还能预测环境中其他生物或物体接下来可能的行为,并据此规划自己的行动以实现某个目标,无论是去获取晚餐,还是说服别人和自己一起踏上一次冒险之旅。要成功完成这些复杂任务,就需要一个高效的世界模型

所谓世界模型,是指一种能够表示环境运作方式的模型,包括环境的动态变化(dynamics)以及其中的因果结构(causal structure)。这一概念可以通过强化学习中的模型来形式化描述:在强化学习框架中,环境通常被建模为一个部分可观测马尔可夫决策过程(POMDP)。在这个框架下,世界模型用于近似环境的状态转移函数 P (s′∣s,a),也就是在当前状态 s 下执行动作 a 时,预测下一个世界状态 s 的概率。

借助世界模型,我们可以基于对世界行为的心理模型来进行预测、规划、推理和行动,而无需每次都通过与真实世界直接交互来观察行动的后果。

然而,在现实中,人类并不能直接获得世界的真实状态 s。我们所能获得的,只是对真实状态的一部分观测 o。换句话说,人类始终是在不完全信息的条件下理解和行动于这个世界之中。



人们在观察或测量世界时采取了不同的方法,并利用不同的模态来构建世界模型。例如,一个像 ChatGPT 这样的大语言模型,仅通过文本就能学习到某种形式的潜在世界模型:在其数十亿参数之中,隐含着对物理世界和社会世界的某种表示,以及对因果关系的一定理解,使得模型能够在 token 空间中通过输入和输出,模拟世界中的事件、行为体和环境。

然而,我们所生活的世界并不只是文本,它还包括视觉、声音、触觉等多种感知形式。因此,在这篇文章中,作者重点讨论的是多模态世界模型(multimodal world models)。

在构建多模态世界模型时,我们需要先提出两个关键问题:我们为什么要构建这个世界模型?以及是否能够获得可规模化的数据来源来对其进行训练?

我们为什么要构建世界模型?

构建世界模型的目标,是为了实现能够释放巨大经济价值的 AI 能力,并帮助人们摆脱那些不受欢迎的工作。尽管当今的 AI 在某些复杂任务中已经能够自主运行,但现实世界中的任务往往要求理解行动在时间维度上如何产生后果,而不仅仅是识别观察数据中的模式。关键不仅在于理解世界中各种对象或现象如何同时出现,更在于理解它们之间的因果关系。例如,一个人在房间里对另一个人大喊,可能会让对方感到不开心;但一个人感到不开心,并不会导致房间里另一个人开始大喊。作者认为,在多模态环境中进行因果推理的能力,是通向具身 AGI 最重要的核心能力之一。

当人们谈到多模态世界模型时,很多人会首先想到生成式视频模型(例如 Sora 或 Genie 3)。这些模型通常能够生成视觉效果极为逼真、质量很高的场景,并在视频制作等领域具有广泛应用。但从本质上看,这类模型是在通过像素观测来度量四维世界的变化,并尝试建模连续视频帧之间的关系。

如果只是想表达一辆赛车在急弯中高速转弯、轮胎发出刺耳摩擦声的画面,那么基于像素的世界模型显然比文本更直观。然而,这种方式并不一定能够真正捕捉世界的因果结构。例如:猛打方向盘会导致汽车急转弯,而急转弯又会导致轮胎摩擦发出尖叫声。此外,由于缺乏抽象层和语义结构,纯像素建模在速度和成本上往往效率较低。一些研究(例如《Are Video Generation Models World Simulators?》也指出,即使是当前最先进的模型,仍然会出现物理或空间理解上的问题,比如固体物体漂浮在空中,或两个实体相互穿透等现象。

如果目标是为下一步行动进行规划,那么问题就出现了:我们真的需要一个高分辨率的像素视图来建模世界吗?作者认为,在大量具有经济价值的任务中,其实并不需要如此细致的视觉信息。毕竟,人类即使在各种感官能力存在局限的情况下,也能完成几乎所有现实任务。此外,在很多情况下,仅用几句话描述一个场景(例如汽车急转弯时轮胎发出刺耳摩擦声)就足以支持理解与决策。相关实验也表明,人类在处理视觉信息时往往并不是完整解析所有像素,而是以自上而下、任务驱动的方式进行处理,并依赖于对象层级的抽象表示。在绝大多数情境中,部分信息加上语义理解就已经足够。

因果关系本身可能非常复杂。那么,人类在理解世界方面到底有什么特殊之处,使我们能够不断深化对世界的认识?事实上,许多生物,即使是像乌鸦这样相对简单的动物也能够通过观察世界来形成某种内部世界模型,并据此制定计划实现目标。人类之所以比其他生物拥有更强大的能力,关键在于我们发展出了认知工具(cognitive tools)。其中最重要的是自然语言,以及后来发展出的各种符号表示,例如数学和编程语言。

这些认知工具能够帮助人类以更高效的方式对世界进行抽象,并准确表达因果关系和结果。它们不仅使人类能够更高效地推理世界中真正重要的因素,还让我们能够通过语言沟通和协作,从而影响他人的行为。

更重要的是,工具和抽象可以让模型把表示能力集中在那些真正影响决策的世界要素上,从而在数据和计算效率上都更具优势。与其试图通过原始感官数据完整重建整个世界,不如利用语义层面的抽象来实现更强大、更高效的理解和操作。这一点与如今代码生成模型处理编程语言的方式类似:通过符号系统进行操作,而不是直接处理底层机器状态。

这种表示方式具有高度紧凑的特点,使得模型在面对长时间跨度任务或需要记住大量历史事件的情境时,也能够进行有效预测与推理。

我们可以从哪里获得可扩展的数据来源来训练因果世界模型?

文章指出,数据是构建有效模型中最关键的因素。目前,大多数最先进的视觉世界模型仍然是基于像素的世界模型,但这些模型通常并不具备动作条件(action-conditional)能力。虽然互联网上存在海量视频数据(例如来自 YouTube),但真正记录行动本身及其结果的数据却非常稀缺,而正是这些数据才能帮助模型理解行动会带来什么后果。

目前也有一些研究路径尝试让像素世界模型具备动作条件能力,但作者认为,更具数据效率和计算效率的一条道路,是利用软件抽象来构建多样化的合成世界(synthetic worlds)以增强模型训练。这些合成环境同样可以成为训练动作条件像素世界模型的重要数据来源。

抽象机制可以让模型在更少数据的情况下实现高性能。当下,这些抽象大多以符号表示(symbolic representations)的形式存在,例如代码和自然语言。这些符号可以通过一种高度可扩展的数据采集接口获得,即计算机及其输入设备(例如键盘和鼠标)。此外,符号表示也更适合人类进行精细、有效的控制。由于它们正是人类表达意图的接口,因此可以形成一个同时包含行动(actions)与观测(observations)的数据飞轮。对于一个需要由人类操作的模拟环境而言,必须存在一个有效的交互接口,而这一接口往往最自然地通过人类语言和软件代码这样的符号系统来实现。

最后,作者认为,要成功构建世界模型,一条能够实现商业自我持续发展的路径尤为关键。只有当商业化激励持续推动数据产生和模型改进时,模型能力才能不断提升。类似的模式已经多次出现,例如智能手机中的惯性测量单元(IMU)推动了相关技术发展,以及大语言模型在自然语言处理领域的快速进步。

因此,作者提出,应当从数字世界开始构建多模态世界模型。像游戏这样的交互式媒体既能够提供明确的参与激励(例如娱乐),又具备可扩展的数据采集接口(键盘和鼠标),从而让数据自然积累。这条路径有望最终实现一种模型:在完全成熟的形态下,它不仅能够生成环境,还能用于训练和控制任何具身智能体,无论是在虚拟世界还是现实世界中。目前已经出现了一些迹象,表明这种跨环境的泛化能力正在逐步显现。

展望

文章指出,这并不是在否定像素作为世界表示方式的价值,也不是认为未来只会存在一种统一的世界表示形式。作者强调,更关键的是:世界模型的设计应当围绕我们希望从中学习到的策略(policy)来展开。在此基础上,需要借助合适的抽象方法和工具,使模型能够聚焦于那些真正影响决策的环境因素,从而在数据效率和计算效率之间取得更优平衡。

如果目标是在多模态环境中理解因果关系,那么无论世界模型是用于虚拟世界还是现实物理世界,它都需要优先满足一些关键属性。例如:在长时间尺度上保持空间和物理状态的一致性,并能够推动世界状态的演化,使其真实反映行动带来的后果。

文章最后提到,这正是 Moonlake 当前正在探索和构建的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

老猫观点
2026-03-26 07:35:34
200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

罗说NBA
2026-03-26 06:21:27
卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

起喜电影
2026-03-26 13:20:15
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

史海孤雁
2026-03-24 17:26:17
50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

八卦南风
2026-03-24 15:15:25
“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

新民晚报
2026-03-25 18:45:33
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

沧海旅行家
2026-03-26 13:11:41
估价32万!这4种年份的1元硬币,可要留好了!

估价32万!这4种年份的1元硬币,可要留好了!

富哥爱收藏
2026-03-26 13:51:45
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
稀土案告破:截获220吨,够造90架F-35核心材料

稀土案告破:截获220吨,够造90架F-35核心材料

策略述
2026-03-26 13:45:33
62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

云霄纪史观
2026-03-26 11:47:26
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

近史谈
2026-03-25 20:26:28
海关总署署长孙梅君到广东调研

海关总署署长孙梅君到广东调研

证券时报
2026-03-26 13:26:01
49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

让时间说真话
2024-03-26 15:23:22
张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

哲学船
2026-03-25 00:44:19
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

新浪财经
2026-03-26 03:04:38
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
2026-03-26 14:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
教育
艺术
公开课
军事航空

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

教育要闻

高考地理中的花海经济

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版