网易首页 > 网易号 > 正文 申请入驻

从预训练到世界模型,智源借具身智能重构AI进化路径

0
分享至

6月6日至7日,第七届智源大会在北京举行,被“众星捧月”的嘉宾从去年的月之暗面创始人杨植麟变更为今年的宇树科技CEO王兴兴。在多位与会人士看来,一轮又一轮明星公司或创业者崛起的背后,AI(人工智能)越来越快的发展速度是核心驱动力。

参与主论坛的图灵奖得主、深度学习领域奠基人之一的蒙特利尔大学教授Yoshua Bengio称:“我们低估了AI进步的速度。”面壁智能CEO李大海也在采访中表示,技术的发展是非线性的,大模型作为基础技术与基础设施,待未来发展到一定程度后,行业一定会更关注基础设施之上的应用,这是行业合理规律。

今年智源大会传递出的AI重点从大语言模型的预训练,更迭为世界模型的培育发展。智源研究院院长王仲远表示,AI正加速从数字世界走向物理世界,也因此,智源研究院宣布从“悟道”时代迈入“具身智能”探索阶段。

何为世界模型

对于世界模型的精准定义,王仲远在采访中表示,目前世界范围内暂时没有共通的定义,已存在的名称包括“空间智能”“时空智能”等。此次智源研究院发布的一系列相关产品与技术,也代表了自身对世界模型的理解。

智源发布大模型产品可以追溯至2021年3月的悟道1.0,作为中国首个超大规模信息智能模型,悟道1.0填补了中文超大预训练模型生态的空白。悟道2.0在知识推理、多语言生成等方面逐渐提速。2023年的悟道3.0开始在通用视觉与多模态等方面取得突破。

近年来,大语言模型和多模态模型的发展,进一步推动机器人从1.0时代迈向2.0时代。目前,大模型与机器本体深度耦合,进而驱动以具身智能为核心的机器人2.0时代,正在加速数字世界与物理世界融合。

因此今年,智源推出“悟界”系列大模型,承载的是智源对人工智能从数字世界迈向物理世界的技术趋势判断与思考。具体来讲,“悟界”系列包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。

其中,Emu3对多模态技术的升级迭代具有重要作用。多模态是通往AGI(通用人工智能)的必由之路,系同时使用多种不同类型的数据形式——如图像、文本、语音、视频、传感器信号等,来共同表达信息或完成任务的技术或系统。

此次Emu3升级的意义在于,传统多模态训练方法需要复杂的扩散模型或将不同模态分开处理再组合,但Emu3不需要这些复杂操作,可以通过一种新的视觉tokenizer(可以把图像和视频转换成类似文字的符号序列),将图像与视频变成和文本一样的离散符号,进而在一个统一框架里处理所有模态数据。这意味着模型可以在一个模态上学习到的知识直接迁移到其他模态上,大幅简化多模态学习的复杂性。

王仲远表示,大模型技术过往基于互联网数据,尤其是互联网文本数据训练而来,固然对知识的理解很强,但对真实世界的运作规律并不理解。AI从数字世界跨向物理世界时必须突破数字世界的隔阂,最重要的隔阂和边界是空间和时间的感知。这也是此次智源一系列AI产品进行具身与脑科学等行业落地时,可以进一步探索的方向。

底座大模型如何破瓶颈

无论是物理世界还是数字世界,AI落地都需要底座大模型的智能化支撑。

王仲远认为,大模型技术还远没有到发展的尽头,过往所说的“百模大战”更多的是大语言模型的竞争,而大语言模型受限于互联网数据的使用,基础模型性能虽然还在提升,但是提升速度不如以前,突破瓶颈的解法包括强化学习、数据合成、多模态数据三方面。

强化学习在后训练和推理方面的提升作用已明确表现在OpenAI o1、o3、o4、DeepSeek R1等产品上,合成数据目前学术界仍在努力突破。至于多模态数据,在全世界范围内,多模态数据规模可达文字数据的百倍、千倍甚至万倍以上,但这些数据远未被高效利用,多模态技术的发展也是本届大会讨论的重点之一。

去年智源便对大模型的技术路线进行了预判:从大语言模型向多模态,尤其是原生多模态世界模型的方向发展。而原生多模态世界模型本质上是为了让AI感知和理解物理世界,进而推进与物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。

针对物理世界对数据需求量大、目前多模态数据又不足的难题,王仲远表示这是具身智能目前存在循环悖论——具身能力不足限制了真机数据的采集,数据稀缺导致模型能力弱、落地难,无法进一步提升能力。这一困难从不同角度出发有不同解法,智源走的是大模型路线,更多依靠互联网数据帮助机器人学习智能。

具体训练方式表现为不断学习海量已有数据,再通过强化学习和少量真实世界的数据不断训练其能力,不断突破具身智能的发展上限,这与大模型发展路线不谋而合,基础能力发展到一定程度后,可以通过强化学习进一步激发智能化程度。

需注意的是,王仲远强调,由于目前具身领域的技术路线尚未收敛,不同厂商、不同团队都在用不同方式进行探索,智源走的技术路线目前只是“一家之言”。

具身热但发展状态尚

具身智能不仅是智源提及世界模型与物理世界建立联系的“渠道”之一,更是此次大会重点核心议程。

智源提供的解决方式之一便是跨本体的具身大脑,未来行业可以通过具身智能的融合模型突破硬件构型、数据类型,使得这些数据能够被真正有效集成起来,这样采集的真机数据不会被浪费。但同时,王仲远表示,具身大脑的跨本体相对较为容易,而具身大脑最重要的是感知与理解世界,通过与世界交互,完成任务规划与指令拆解,这部分仅仅通过大脑是不够的,还需要指挥硬件本体,后者是更大的挑战。

另外,跨本体的小脑技能目前还未完全掌握技术路线。王仲远以美国机器人初创公司PhysicalIntelligence为例,该公司已经能够将各种硬件采集下来的数据用于模型训练,进而得到更加泛化的能力,目前来看该路线具备一定效果,但还并未达到行业广泛共识的水平。想要真正实现跨本体、跨硬件的具身智能小脑模型,还需要硬件在一轮轮的产业迭代中进行淘汰与收敛。

另在北京人形机器人创新中心有限公司CTO唐剑看来,机器人行业发展还面临多项痛点,第一就是机器人的场景泛化能力差,比如一款机器人只能工作在一个场景内,打螺丝的专职打螺丝,酒店送餐的专职送餐,很难看到原来干打螺丝工作的机器人跑去酒店送餐。即使在单一场景内,机器人也需要搭载不同的程序与软件来完成,因此机器人的任务泛化能力也很差。第三点便是机器人的本体泛化能力差,厂商一般针对具体某一类工作场景设计一款机器人本体。

至于控制技术层面,唐剑以行业过去常用的MPC(基于数学模型预测的控制,Model Predictive Control)为例,该控制方式的优点包括高可靠性、高确定性、高精确度,但也伴随预编程(单一场景任务)、仅适用于结构化环境、仅适用于固定流程与操作对象等缺点。

整体来看,王仲远总结称:具身大模型的发展仍处于非常早期的阶段,可类比大模型在GPT-3 之前的技术探索期,具体包括技术路线尚未形成共识,学界与产业界对核心技术路径存在分歧,仿真数据、强化学习、大小脑融合架构等方向仍在探索中,尚未形成统一方法论;另外产业落地尚需突破,尽管智源推出具身智能跨本体大小脑协作框架等成果,但离大规模商用仍有较长距离,需解决“感知-决策-行动”协同、多模态数据融合等基础问题。具体技术路径的成熟与产业落地仍需多方长期共同努力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

LULU生活家
2026-03-26 14:50:15
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

洲洲影视娱评
2026-03-25 13:16:24
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

180视角
2026-03-25 10:17:11
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

小樾说历史
2026-03-26 11:30:53
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
2026-03-26 16:59:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
248239文章数 621904关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
旅游
家居
房产
军事航空

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

家居要闻

傍海而居 静观蝴蝶海

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版