网易首页 > 网易号 > 正文 申请入驻

AI的下一场革命,智源“押注”世界模型

0
分享至

回顾国内AI的早期发展历程,一定离不开北京智源研究院。2021年3月,智源发布的悟道1.0开启了中国的大模型时代,杨植麟、唐杰等后来的国内大模型翘楚均曾在此工作,也正因如此,智源研究院一度被视为国内大模型的“黄埔军校”。

当时间推移到2026年6月,智源的主要研究方向却并不再是大语言模型。理由很简单。“作为新型研发机构,智源主要做高校、企业不愿意做的人工智能方向重大科研创新,我们一直都在人工智能大模型的最前沿。”智源研究院院长王仲远告诉新京报贝壳财经记者。

6月11日,新京报贝壳财经记者随“活力中国调研行”走访智源研究院,了解到了当下王仲远认为“最前沿”的领域——世界模型。智源研究院,也是国内最早倡导世界模型的科研机构。



新京报贝壳财经记者 罗亦丹 摄

世界模型不是3D生成,而是“预测下一个物理状态”

新京报贝壳财经记者曾体验过不少“世界模型”产品,如用户提供一张图片,世界模型可以依据该图片生成一个“3D世界”,一些产品还允许用户进入该“世界”进行移动探索,从表现形式来看,更类似视频生成或者网络游戏。

但在王仲远看来,视频生成并不等于世界模型,“现在业内普遍把视频生成模型称作世界模型,源头是OpenAI发布 Sora时用了‘世界模拟器(World Simulator)’的说法,这个叫法原本只是形容视频生成。如今热门的视觉-语言-动作模型(VLA)、世界动作模型(World Action Model),只是把画面视频和动作数据拼在一起。目前来看,大家都在叫的世界模型都不是真正意义上的世界模型。”

什么是世界模型?这一概念实际上众说纷纭,6月初,被誉为“AI之母”的李飞飞就曾发布长文,试图给世界模型“下定义”。而此次对话,王仲远给出了一个更易理解的答案——相比大语言模型预测的是“下一个Token(词元)”,世界模型所预测的应该是“下一个物理状态”。

“你看到的3D世界生成的产品概念更多应用于虚拟世界,在这一领域,目前许多游戏已经拥有了非常逼真的模型、光线以及物理引擎。但仿真引擎也有自己的上限。我们所希望的世界模型是大模型驱动,只要数据量足够就会远超人类经验构建出来的引擎。在潜力方面,就像现在大语言模型将来用于科学发现一样,世界引擎也可以用来帮助我们发现新的规律,作为未来的世界基座模型,世界模型在理论上存在更大的上限空间。”王仲远告诉新京报贝壳财经记者。

王仲远表示,智源一直都在人工智能大模型的最前沿,“早在当年的语言大模型时代,我们发布了悟道1.0、2.0和3.0,也孵化出了智谱、面壁这些主流大模型公司。正是因为有了这样的布局,才会有大模型不同阶段的成果产出。而2023年,智源开始涉及世界模型,2025年发布emu3和emu3.5多模态世界模型,2026年推出了physis和orca,一直在探索前沿。”

“从智源研究院的角度来看,我们一直沿着几年前对于人工智能技术的预判不断发展。”王仲远强调,智源不是在跟风,而是在按照既定的战略方向稳步推进。大语言模型两年之前就已经完成探索,交给智谱、面壁这些企业去做;现在开始注重世界模型,因为这是下一个十年的主战场。

他的理念是:技术先行,早于产品,早于系统,“就像深度学习是从2006年提出的理念和解决方案,Transformer2017年提出,而大语言模型直到2022年底才爆发。因此,现在就需要对技术路径进行各种各样的探索,可以引领和促进世界模型的爆发。”

王仲远说,在大语言模型时代,智源是跟随者,但到了多模态时代,智源已经开始提出自己独立的技术路径,“世界模型开始,我们有了自己对于这个问题的定义,技术路线上也有我们自己的信仰,某种程度上也证明了中国人工智能力量在努力探索前沿方向,希望能够最终引领。”

世界模型仍处于初级阶段,“就像2012年的大语言模型

尽管智源对世界模型的未来充满信心,但王仲远毫不讳言当前的真实处境——世界模型依然处于非常早期的阶段。“必须承认物理AI特别是世界基座模型的研究,在全世界范围依然处于非常早期,甚至概念和技术路径都远没有收敛。”

他比喻称,目前世界模型所处的阶段类似于“2012年的大语言模型”,彼时深度学习刚刚开始兴起,虽然神经网络已有十层、一百层,但依然只能解决较为具体的问题和任务,经过不断升级迭代和互联网海量数据的积累,才有了GPT的出现。

“当下世界模型还没到GPT时代,因为数据非常缺乏。”王仲远表示,从2012年到2022年底ChatGPT发布,走了十年,现阶段随着人工智能越来越强,演化速度越来越快,可能三年五年就能有足够多的数据累积。

数据是当前最核心的卡点。王仲远表示,长期来看,构建世界模型的真实世界数据依然缺乏,对于有价值的信息,现在的科研技术还没有充分挖掘。他举例称,一个2岁的小女孩也可以通过天天刷短视频,在父母没有教过她的前提下学会拆糖果,他认为,正如同现在孩子获取信息的渠道比之前一辈人更多,极大加速了脑中认知的形成,世界模型也有“异曲同工”之处。

实际上,当前世界模型的技术路线也远未收敛。王仲远总结了现在世界模型的四种主流技术定义方式:以像素为中心、以三维结构为中心、以视觉表征为中心,以及以语言为中心。他表示,当前智源更接近第四种以及视觉与语言的融合方向,同时也坦承,这不代表其他路线就没有价值。

“世界模型不同路线的差异客观上造成了一定的认知混乱,但这也并非坏事,而是行业开始形成共识的过程,意味着人才、资本、技术解决方案的不断提出,客观上会促进世界模型的迭代、演进和发展。”王仲远说。

青年挑大梁:大四学生成为世界模型团队负责人

在采访中,新京报贝壳财经记者注意到,智源世界模型团队的人员构成非常年轻,如智源行为世界模型创新中心负责人陈博远今年大四。

“智源研究院一直都在强调青年挑大梁,不看帽子资历,给年轻人舞台。这些年轻、高潜力、又有代表作的青年科学家恰恰就是智源研究院成立八年以来一直努力做事的体现,也是智源在大模型时代、多模态时代产生行业和科研成果的基础。”王仲远说。

这样的人才是如何被发现的?王仲远用“惺惺相惜”来形容,“优秀的人才和天才都是有重力场的,会互相吸引。比如当前世界模型研究团队的两位负责人是在一个寻常的中午,吃盒饭聊天时‘发掘’出来的,经过谈话,我们发现虽然世界模型有很多定义,但我们的理解和目标完全一致,之后几乎当场拍板,决定要一起来做这件事。”

对此,陈博远也表达了自己的看法:“可能我并不算是千里马,但伯乐一定非常难寻。在智源研究院搞研发,核心愿景就是制造出来能够超越人类智能水平的通用AGI,我觉得这不一定是虚无缥缈的学术理想,它可以实际落地、改变生活。”

王仲远认为,这体现了智源研究院创新的机制体制以及灵活决策的优势,“智源愿意提供这样的环境和舞台,让这样一群优秀的、有着技术信仰的年轻人聚集在一起,不被外界干扰,不被琐事影响,专心致志进行技术突破。”

这种模式的核心是什么?王仲远总结了几个关键要素:有规划的前沿科研探索,基于对人工智能技术路径的发展;青年挑大梁,不以帽子,不以资历,而是以代表作和潜力选择人才,给予充足的资源搞科研;开源开放的生态,不管是科研成果还是跟很多企业合作,使得路越走越宽。智源一定会坚持去做这些“对的事情”。

对于世界模型的未来,王仲远保持着乐观但理性的态度。“智源推出的产品中,不论是悟界Physis还是RoboBrain·Orca,目标都不是短期就要在真实物理世界大规模部署,周期可能是三年甚至更长时间。世界模型是一个长期过程,短期落地不是我们最着急的事。”

在采访最后,当被问及智源去进行前沿技术的早期“试错”,如果失败怎么办,以及是否考虑更加商业化这一问题时,王仲远给出了颇具个人风格的回答:

“企业有企业的商业逻辑和商业目标,所以不太可能像我们这样纯粹地思考和探索。对于可能失败的模型、新的方向和技术路径的探索,智源需要担起这样的责任,去开创,去创新,去突破,当然也有可能失败,但这也恰恰是科研的魅力。”

记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经首席记者 罗亦丹

编辑 杨娟娟

校对 杨许丽

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国最好吃10种下酒菜,你吃过几个?最后一道让无数老饕魂牵梦萦

全国最好吃10种下酒菜,你吃过几个?最后一道让无数老饕魂牵梦萦

阿龙美食记
2026-06-09 15:12:16
《外来媳妇本地郎》口水威:无戏可拍炒股为生,儿子脑瘫生活悲惨

《外来媳妇本地郎》口水威:无戏可拍炒股为生,儿子脑瘫生活悲惨

白面书誏
2026-06-12 13:54:08
“大半夜吓我一跳” 世界杯开幕式遭吐槽 国外网友:期待中国办1次

“大半夜吓我一跳” 世界杯开幕式遭吐槽 国外网友:期待中国办1次

风过乡
2026-06-12 07:06:19
特斯拉 Model 3 新车降价一半,太离谱了!

特斯拉 Model 3 新车降价一半,太离谱了!

花果科技
2026-06-12 19:03:39
上海交大解剖200名肺病死者,惊讶发现:易患肺癌的人,有4大恶习

上海交大解剖200名肺病死者,惊讶发现:易患肺癌的人,有4大恶习

芹姐说生活
2026-06-09 13:29:12
16岁少女被五人灌“快乐水”,强奸后跳楼身亡,5人里有2名警察?

16岁少女被五人灌“快乐水”,强奸后跳楼身亡,5人里有2名警察?

法纪实录簿
2026-06-10 10:49:17
今晚上市!马斯克或成史上首位万亿富豪,约400名员工将成亿万富翁

今晚上市!马斯克或成史上首位万亿富豪,约400名员工将成亿万富翁

上观新闻
2026-06-12 15:44:40
美方宣布对9个驻香港的中国籍个人和实体实施制裁,外交部回应

美方宣布对9个驻香港的中国籍个人和实体实施制裁,外交部回应

新京报
2026-06-12 16:00:07
醒醒吧!没水平就别硬开演唱会,观众抵制声一片

醒醒吧!没水平就别硬开演唱会,观众抵制声一片

一娱三分地
2026-06-09 21:37:49
谁也没想到,刚打完3胜1负的中国女排,第二周被塞进“地狱模式”

谁也没想到,刚打完3胜1负的中国女排,第二周被塞进“地狱模式”

童叔不飙车
2026-06-12 11:02:57
关晓彤没想到,2026世界杯开幕当天,36岁鹿晗会以这种方式火出圈

关晓彤没想到,2026世界杯开幕当天,36岁鹿晗会以这种方式火出圈

丁丁鲤史纪
2026-06-12 11:41:48
6月这6种鱼,全是纯野生的,人工养不出来,肉嫩刺少,懂行的在抢

6月这6种鱼,全是纯野生的,人工养不出来,肉嫩刺少,懂行的在抢

阿龙美食记
2026-06-09 15:26:48
美智库:美军只要36个小时,就能让中国境内5万个目标全瘫痪

美智库:美军只要36个小时,就能让中国境内5万个目标全瘫痪

勇哥读史
2026-06-12 15:18:14
梅西新广告回应“慌得一批”表情包,梗图迎来结局

梅西新广告回应“慌得一批”表情包,梗图迎来结局

娱乐嗑学家.
2026-06-12 16:57:23
虎扑网友开帖炮轰:华为营销“太恶臭”,千亿费用引质疑

虎扑网友开帖炮轰:华为营销“太恶臭”,千亿费用引质疑

自愈小日子
2026-06-12 01:05:49
又一价格“屠夫”来了!奥迪A6L给出16.49万优惠,你心动吗?

又一价格“屠夫”来了!奥迪A6L给出16.49万优惠,你心动吗?

汽车网评
2026-06-11 22:21:19
告别惨败?U23夺亚军打脸喷子,西班牙主帅扯下中国足球遮羞布

告别惨败?U23夺亚军打脸喷子,西班牙主帅扯下中国足球遮羞布

以茶带书
2026-06-12 15:09:26
钓鱼岛爆发激烈对峙,日舰艇嚣张挑衅查船,中国海警当即警告回击

钓鱼岛爆发激烈对峙,日舰艇嚣张挑衅查船,中国海警当即警告回击

共工之锚
2026-06-10 14:39:09
不止“手伸进裤子”!那些片场潜规则,正在毁掉多少年轻女演员?

不止“手伸进裤子”!那些片场潜规则,正在毁掉多少年轻女演员?

川渝视觉
2026-06-10 08:59:23
“一天一个价”,山姆盒马鸡蛋产品限购?最新回应

“一天一个价”,山姆盒马鸡蛋产品限购?最新回应

河南交通广播1041
2026-06-12 13:41:05
2026-06-12 22:19:00
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
65784文章数 14031关注度
往期回顾 全部

科技要闻

鸿蒙7发布,余承东:首个完成AI化改造系统

头条要闻

内塔尼亚胡:特朗普不打伊朗了 没提前告诉我

头条要闻

内塔尼亚胡:特朗普不打伊朗了 没提前告诉我

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

游戏
教育
亲子
数码
公开课

《羊蹄山之魂》PS5销量近500万 《马拉松》不到35万

教育要闻

绵阳中考作文题公布!直击绵阳中考首日

亲子要闻

给孩子报个幼儿园还要工资流水?难道这就是传说中的“因财施教”

数码要闻

磐镭HO5迷你主机HX 470款上市:32GB + 1TB,7599元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版