网易首页 > 网易号 > 正文 申请入驻

下一场人工智能革命可能始于世界模型

0
分享至


来源:科技世代千高原

作者:德尼·埃利斯·贝沙尔

编辑:埃里克·沙利文

为什么当今的人工智能系统难以保持一致性,以及新兴的世界模型如何旨在使机器能够稳定地理解空间和时间。


你可能见过人工智能系统出错的情况。你要求播放一段狗狗的视频,当狗狗跑到沙发后面时,它的项圈消失了。然后,随着镜头拉远,沙发变成了三人沙发。

部分问题在于许多人工智能模型的预测特性。例如, ChatGPT所使用的模型经过训练可以预测文本,而视频生成模型则预测接下来最有可能出现的画面。这两种情况下,人工智能都没有一个清晰定义的世界模型,也无法持续更新该模型以做出更明智的决策。

但随着许多人工智能领域的研究人员致力于创建“世界模型”,这种情况正在发生改变。这些模型的影响范围不仅限于视频生成和聊天机器人的使用,还包括增强现实、机器人、自动驾驶汽车,甚至类人智能——或通用人工智能(AGI)。

理解世界建模的一个简单方法是通过四维模型(三维加上时间)。为了更好地理解这一点,让我们回顾一下2012年,《泰坦尼克号》在上映15年后被精心转换成立体3D版本。如果你暂停任何一帧画面,你就能感受到船上人物和物体之间的距离感。但如果莱昂纳多·迪卡普里奥背对着镜头,你就无法绕到他身后看到他的脸。电影的3D幻觉是通过立体成像技术实现的——通常快速交替投射两幅略有不同的图像,一幅对应左眼,一幅对应右眼。影院里的每个人都能看到相同的图像对,因此拥有相似的视角。

然而,得益于过去十年的研究,多视角成像正变得越来越可行。试想一下,如果你意识到应该从另一个角度拍摄一张照片,然后人工智能可以自动调整角度,从而赋予同一场景全新的视角。自 2020 年起,NeRF(神经辐射场)算法为创建“逼真的新视角”提供了一条途径,但这需要将多张照片拼接起来,以便人工智能系统能够生成 3D 模型。其他 3D 方法则利用人工智能预测性地填充缺失信息,但这种方法与现实的偏差更大。

现在,想象一下,《泰坦尼克号》的每一帧都以 3D 形式呈现,这样整部电影就以 4D 形式存在了。你可以滚动时间线观看不同的场景,也可以滚动空间线从不同的视角观看。你还可以生成新的版本。例如,最近一篇预印本论文《NeoVerse:利用自然场景单目视频增强 4D 世界模型》描述了一种将视频转换为 4D 模型,从而从不同视角生成新视频的方法。

但4D技术也能帮助生成新的视频内容。另一篇近期发表的预印本论文《TeleWorld:基于4D世界模型的动态多模态合成》就适用于我们最初讨论的场景:一只狗在沙发后面奔跑。作者认为,当持续更新的4D世界模型指导视频生成时,AI视频系统的稳定性会得到提升。该系统的4D模型可以防止沙发变成长椅,也能防止狗的项圈脱落。

这些只是初步结果,但它们预示着一个更广泛的趋势:模型会在生成过程中更新内部场景地图。然而,4D建模的应用远不止于视频生成。对于增强现实(AR)——例如Meta公司的Orion原型眼镜——4D世界模型是用户所处世界随时间演变的地图。它使AR系统能够保持虚拟物体的稳定性,使光照和透视效果逼真,并拥有对近期事件的空间记忆。它还支持遮挡效果——即数字物体被真实物体遮挡。一篇2023年的论文直截了当地指出:“要实现遮挡效果,需要一个物理环境的3D模型。”

快速将视频转换为 4D 格式,还能为训练机器人和自动驾驶车辆了解真实世界的运作方式提供丰富的数据。通过生成机器人所处空间的 4D 模型,它们可以更好地导航并预测接下来可能发生的事情。如今的通用视觉语言人工智能模型虽然能够理解图像和文本,但无法生成清晰定义的世界模型,因此经常出错;一篇在 2025 年会议上发表的基准论文指出,这些模型在基本的世界建模能力方面存在“显著局限性”,包括“在区分运动轨迹时准确率接近随机”。

关键在于:“世界模型”对于那些致力于通用人工智能(AGI)的人来说意义远不止于此。例如,目前领先的大型语言模型(LLM),例如ChatGPT所使用的模型,都从训练数据中隐含地感知着世界。“从某种意义上说,我认为LLM已经拥有一个非常好的世界模型;只是我们并不真正了解它是如何实现的,”加州大学伯克利分校电子工程与计算机科学系助理教授Angjoo Kanazawa说道。然而,这些概念模型并非对世界的实时物理理解,因为LLM无法实时更新其训练数据。甚至OpenAI的技术报告也指出,其模型GPT-4一旦部署,“就无法从经验中学习”。

“如何开发一个能够接收实时输入、不断更新对世界的理解并做出相应反应的智能LLM视觉系统?”金泽说,“这是一个尚未解决的重大难题。我认为,如果不解决这个问题,通用人工智能(AGI)就不可能实现。”

尽管研究人员仍在争论语言逻辑模型(LLM)是否能够最终实现通用人工智能(AGI),但许多人认为LLM是未来人工智能系统的重要组成部分。金泽表示,LLM将作为“语言和常识进行交流”的桥梁;它将充当“接口”,而一个更清晰定义的底层世界模型将提供当前LLM所缺乏的“时空记忆”。

近年来,许多知名的人工智能研究人员开始关注世界模型。2024年,李飞飞创立了World Labs,该公司近期推出了Marble软件,该软件能够根据“文本、图像、视频或粗略的3D布局”创建3D世界(据该公司宣传资料所述)。去年11月,人工智能研究员Yann LeCun在LinkedIn上宣布离开Meta,创办一家名为Advanced Machine Intelligence(AMI Labs)的初创公司,旨在构建“能够理解物理世界、拥有持久记忆、能够推理并能够规划复杂动作序列的系统”。他在2022年的一份立场文件中提出了这些想法,他在文件中探讨了为什么人类能够在从未遇到过的情况下表现良好,并认为答案“可能在于……学习世界模型的能力,即学习世界运作方式的内部模型”。越来越多的研究证实了内部模型的优势。2025年4月发表在《自然》杂志上的一篇论文报道了DreamerV3的研究成果,DreamerV3是一款人工智能代理,它通过学习世界模型,能够通过“想象”未来场景来改进自身的行为。

因此,在通用人工智能(AGI)的语境下,“世界模型”更侧重于描述现实运作方式的内部模型,而不仅仅是4D重建。然而,4D建模技术的进步可以提供一些组件,帮助我们理解视角、记忆,甚至进行短期预测。同时,在通往AGI的道路上,4D模型可以提供丰富的现实模拟环境,用于测试人工智能,确保当我们让它们在现实世界中运行时,它们知道如何在现实世界中生存。

https://www.scientificamerican.com/article/world-models-could-unlock-the-next-revolution-in-artificial-intelligence/

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
账号被封禁,所有作品已清空!

账号被封禁,所有作品已清空!

艳姐的搞笑视频
2026-01-16 10:10:11
战胜宁波,拒绝连败!北京男篮头号“毒瘤”,试出来了

战胜宁波,拒绝连败!北京男篮头号“毒瘤”,试出来了

弄月公子
2026-01-18 22:50:38
嫣然天使儿童医院陷困境,实地探访:还用着10年前的病床,手术室灯仍亮着,有市民专程前往捐500元!

嫣然天使儿童医院陷困境,实地探访:还用着10年前的病床,手术室灯仍亮着,有市民专程前往捐500元!

大风新闻
2026-01-17 10:18:06
为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

今朝牛马
2026-01-08 16:05:10
钱再多有什么用,聂卫平遗孀现状,给所有“老少恋”夫妻提了个醒

钱再多有什么用,聂卫平遗孀现状,给所有“老少恋”夫妻提了个醒

小白兔YY
2026-01-17 03:20:18
网友:汕头智慧停车位收费太高、设置不合理!官方答复!

网友:汕头智慧停车位收费太高、设置不合理!官方答复!

ilove汕头
2026-01-18 18:38:23
A股:周日下午传来7个核弹级利好!下周很可能会迎史诗级别大行情?

A股:周日下午传来7个核弹级利好!下周很可能会迎史诗级别大行情?

股市皆大事
2026-01-18 15:05:00
澳洲一家人日本旅游破防:到处被嫌弃,只有7-11收留我们!

澳洲一家人日本旅游破防:到处被嫌弃,只有7-11收留我们!

新欧洲
2026-01-18 20:59:29
国家再次“点名”胖东来,释放三个强烈信号,刘强东的话真没说错

国家再次“点名”胖东来,释放三个强烈信号,刘强东的话真没说错

春晓暖语声
2026-01-18 04:55:28
比朝鲜还封闭的国家?富得流油,首都只能开白车,建筑只能是白色

比朝鲜还封闭的国家?富得流油,首都只能开白车,建筑只能是白色

铁锤简科
2025-12-09 11:13:15
你要做到:表面上不要和任何人翻脸,但内心可以和任何人说再见

你要做到:表面上不要和任何人翻脸,但内心可以和任何人说再见

木言观
2026-01-11 12:11:23
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

梦录的西方史话
2025-12-31 13:44:44
万亿央企蛀虫终于揪出来了!离职七年难逃法网,25年腐化史现真容

万亿央企蛀虫终于揪出来了!离职七年难逃法网,25年腐化史现真容

墨兰史书
2026-01-06 11:30:03
聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

好贤观史记
2026-01-16 11:32:24
见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

现代小青青慕慕
2026-01-12 16:43:32
“地震中消失的人去哪了?”网友的扎心评论,直接看哭了上万网友

“地震中消失的人去哪了?”网友的扎心评论,直接看哭了上万网友

另子维爱读史
2026-01-15 18:13:19
199元!华为突然官宣:2月9日,新品开售

199元!华为突然官宣:2月9日,新品开售

3C毒物
2026-01-18 00:09:22
贝克汉姆和贝嫂没向儿媳道歉,儿子表示:你们以后别跟我联系了

贝克汉姆和贝嫂没向儿媳道歉,儿子表示:你们以后别跟我联系了

小书生吃瓜
2026-01-15 17:46:37
夫妻俩是这3属相的,孩子个个出息大,发财富贵全都占

夫妻俩是这3属相的,孩子个个出息大,发财富贵全都占

人閒情事
2026-01-12 10:08:31
一路走好!梁小龙逝世原因曝光,家属代发告别文,泪目!

一路走好!梁小龙逝世原因曝光,家属代发告别文,泪目!

皮蛋儿电影
2026-01-18 23:16:35
2026-01-19 02:39:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4484文章数 37393关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

时尚
亲子
教育
旅游
艺术

美拉德过时了?今年冬天最火的4个颜色竟然是它们

亲子要闻

文咏珊带助理游曼谷,生娃3个多月瘦出“排骨胸”,不像母乳喂养

教育要闻

3所不校考的公办大学!轻松锁定录取

旅游要闻

后海故事 藏在银锭桥胡同里

艺术要闻

放大看油画,细节之美令人惊叹不已!

无障碍浏览 进入关怀版