网易首页 > 网易号 > 正文 申请入驻

清华、北信科、复旦团队解读具身智能!如何让机器人懂物理、思考

0
分享至

当机器人能像人类一样理解自然语言指令,还能预判环境变化、自主规避物理风险时,通用人工智能的落地似乎不再遥远。近日,清华大学计算机科学与技术系,北京信息科学与技术国家研究中心,复旦大学可信具身智能研究所联合发布《Embodied AI: From LLMs to World Models》。系统性梳理了具身智能的技术脉络,尤其聚焦大语言模型与世界模型的协同。

▍先搞懂什么是具身智能?它和普通AI 有啥不一样?

提起AI,很多人会想到只在数字世界对话的系统,或是图像识别这类被动处理数据的工具,这些都属于离身智能,它们不直接和物理世界互动。



而具身智能的核心是活在物理世界里:它需要像人一样,通过传感器主动感知环境,用认知系统处理经验,再用执行器做出动作,形成感知- 认知 - 互动的闭环。就像家里的扫地机器人能避开桌椅、规划清扫路径、调整刷子转速,就是一种简单的具身智能;更复杂的像救灾无人机自主避开障碍物、工业机械臂灵活抓取不同零件,都属于这一范畴。

该研究团队强调,具身智能的终极目标是接近人类级别的通用智能,它不是只解决单一任务,而是能在动态、不确定的物理世界里自主适应。举个例子,一个具身智能机器人,既该听懂把客厅的杯子放到厨房,又该知道杯子是易碎品,还能避开路上的宠物。

▍从单感官到多感官,具身智能如何突破局限?

早期的具身智能更像偏科生,有的只靠视觉导航,有的只靠语言做任务规划,这种单模态模式有明显短板。


单模态与多模态具身智能


纯视觉的机器人,在昏暗环境或动态场景里很容易迷路;纯语言控制的机器人,可能会因为没考虑物理规律提出离谱指令。



后来技术转向多模态融合:把视觉、语言、触觉、听觉等信息整合起来。就像现在的服务机器人,既能通过摄像头看到物体位置,又能通过语言理解用户需求,还能通过触觉感知物体重量,这种多模态能力让它能更灵活地处理复杂任务,能够轻轻拿起装满水的玻璃杯。

研究团队用一张图形象对比两者:单模态是感知、认知、互动各管一摊,多模态则是三者互相配合、信息互通。而推动这一转变的关键,正是大语言模型和世界模型的突破。

▍两大核心技术:大语言模型负责懂,世界模型负责做

具身智能要在物理世界生存,需要解决两个核心问题:理解任务和符合物理规律。而大语言模型和世界模型,恰好分别补上这两个短板。

1. 大语言模型:让机器人能听懂、会规划

大语言模型的核心作用是赋予语义智能,它让机器人从只能执行固定指令,升级为能理解模糊、复杂的人类语言,并拆解任务。

举个例子,你跟机器人说准备下午茶,大语言模型会先做语义推理,理解下午茶通常包括泡茶、拿点心、摆盘子;再做任务分解,把大目标拆成去厨房拿茶壶、接水、加热、去冰箱拿蛋糕、放到茶几等具体步骤。

该研究团队提到Google 的 SayCan 案例:它给大语言模型搭配真实世界动作库,避免大语言模型提出不切实际的动作,同时用价值函数验证每个动作的可行性。不过早期大语言模型的局限也很明显,它依赖固定的动作库,换个新机器人或新环境,就可能水土不服。


多模态大语言模型


后来出现的多模态大语言模型进一步突破这个问题。就像PaLM-E、RT-2 这些模型,能直接处理图像、语言、触觉等多模态信息,看到杯子、听到拿杯子、感知杯子重量,直接输出控制机械臂的动作序列,不用再依赖固定动作库。

2. 世界模型:让机器人懂物理、能预判

如果说大语言模型负责想明白要做什么,世界模型就负责想明白这么做会有什么后果,它相当于给机器人建立大脑里的物理世界模拟器。


具身世界模型发展路线


世界模型主要做两件事:

  • 构建内部表征:把传感器收集的复杂信息压缩成结构化的内部地图,包含物体位置、物理属性、空间关系。这样机器人不用每次都重新观察世界,就能快速调用关键信息。

  • 预测未来变化:根据物理规律预判动作的后果。比如机器人想推桌子,世界模型会先模拟推桌子时会不会把上面的杯子碰倒;救灾无人机想穿过峡谷,世界模型会预判气流会不会让机身不稳。这种预判能力,能帮机器人避开风险、提高效率。


具身智能关键技术模型


研究团队提到几种主流的世界模型架构:RSSM 擅长处理时序信息,适合做短期动作预测;JEPA 擅长提取语义特征,适合理解物体属性;Transformer-based 模型则擅长处理长序列信息,适合复杂环境的长期规划。

不过世界模型也有短板,它擅长模拟物理,但不擅长理解抽象语义。它能预判推杯子会让杯子移动,但可能听不懂把杯子送给妈妈里的妈妈是什么意思,这就需要和大语言模型配合。

▍大语言模型+ 世界模型,1+1>2 的协同架构

该研究团队的核心观点之一是,单独用大语言模型或世界模型,都无法实现高级具身智能;只有让两者结合,才能打通语义理解和物理执行的鸿沟。


搭载多模态大语言模型与世界模型的具身智能


为什么这么说?看两者的互补性就知道,大语言模型懂语义,但不懂物理。它可能规划出让机械臂穿过桌子拿东西的步骤,却不知道这违反物理规律。世界模型的问题懂物理,但不懂语义。它能预判推桌子会碰倒杯子,却不知道为什么要推桌子。

而两者结合后,就能形成语义指导物理,物理约束语义的闭环,大语言模型先根据用户需求拆解任务,生成初步动作计划。世界模型验证这个计划是否符合物理规律,并预测每个动作的后果。如果计划有问题,世界模型反馈给大语言模型,大语言模型再调整计划。最终生成既符合用户需求、又符合物理规律的动作序列,让执行器落地。

该研究团队举了EvoAgent 的例子:这个具身智能体用大语言模型做任务规划和自我反思,用世界模型做环境建模和动作预测,结果能在不同环境里自主完成长期任务,全程不用人类干预。

简单说,大语言模型让机器人不糊涂,世界模型让机器人不莽撞,两者结合,才是具身智能走向实用的关键。

▍从家庭到工业,具身智能已经在改变什么?

以前的服务机器人,比如酒店送物机器人,只能走预设路线,遇到客人挡住就会卡壳;现在结合大语言模型和世界模型的服务机器人,能听懂把水送到302 房间,顺便问客人需不需要续杯,还能实时调整路线避开行人,甚至能根据客人的语气判断是否需要多送一瓶水。

研究团队提到的RT-2 机器人,能根据视觉信息自主识别杯子、桌子,再结合语言指令规划动作,哪怕杯子的位置和之前训练时不一样,也能灵活应对。

传统救灾无人机需要人类远程操控,在复杂环境里很容易失联,而具身智能无人机,能通过世界模型模拟环境风险,通过大语言模型理解救援指令,自主规划安全路径并传回受灾情况。

在工业领域,以前的机械臂,大多是专机专岗,换个生产线就不能用了,现在结合大语言模型和世界模型的机械臂,能通过大语言模型理解生产指令,通过世界模型预判抓取力度,不用重新编程就能切换任务。

▍具身智能还需要突破哪些难关?

现在的具身智能,还需要大量人类标注的数据或预训练,未来要实现自主进化,机器人能在新环境里自主探索,从失败中学习,甚至不用人类干预就能完成长期任务。

具身智能对硬件要求很高,机器人要实时处理多模态数据,还要快速做出反应,这需要更高效的芯片、更低延迟的传感器。未来的硬件优化,会更注重算法-硬件协同,针对大语言模型和世界模型的计算特点,设计专用加速器;或者通过模型压缩,让复杂的具身智能算法能在边缘设备上运行。

此外,单一机器人的能力有限,未来更需要群体具身智能,可以预见的是,未来场景下会出现多个救灾无人机协同搜索,多个工业机械臂配合组装,甚至机器人和人类协同完成任务。这需要解决群体认知问题,让机器人知道如何共享环境信息,如何分配任务,如何应对个别机器人故障。

具身智能机器人会直接和人类互动,安全性和可解释性至关重要。未来需要让机器人的动作可追溯,它为什么要这么做,万一出错了如何快速调整,还要确保它符合人类伦理,比如遇到危险时优先保护人类,而不是完成任务。

未来,当机器人能更自主、更安全、更灵活地在物理世界生存时,通用人工智能的梦想,或许就不再遥远。而大语言模型和世界模型的结合,正是这条路上最关键的一步。

论文地址:https://arxiv.org/pdf/2509.20021v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国企成第二大股东后,剑南春集团再入围四川民企百强

国企成第二大股东后,剑南春集团再入围四川民企百强

白浅娱乐聊
2025-11-08 14:51:58
豁免到手,欧尔班:谢谢您,总统先生

豁免到手,欧尔班:谢谢您,总统先生

观察者网
2025-11-08 15:18:03
太空碎片威胁升级,神舟二十号飞船遭撞击,专家:不排除形成灾难

太空碎片威胁升级,神舟二十号飞船遭撞击,专家:不排除形成灾难

一个有灵魂的作者
2025-11-06 09:00:47
俞敏洪正式官宣孙东旭离职,文案信息量大,证实董宇辉当年没说错

俞敏洪正式官宣孙东旭离职,文案信息量大,证实董宇辉当年没说错

花小猫的美食日常
2025-11-08 05:55:45
他接受纪律审查和监察调查

他接受纪律审查和监察调查

锡望
2025-11-07 10:32:53
安徽一对夫妻杀人后潜逃20年,各自另组家庭,谁料,妻子成公司高管丈夫成大老板

安徽一对夫妻杀人后潜逃20年,各自另组家庭,谁料,妻子成公司高管丈夫成大老板

LULU生活家
2025-11-06 18:29:11
为何毒蛇再毒也杀不死猪?有科学依据能证明,猪是毒蛇的天敌吗?

为何毒蛇再毒也杀不死猪?有科学依据能证明,猪是毒蛇的天敌吗?

温读史
2025-11-05 19:05:37
一个敢想,一个敢干?沙特寻求中国,签万亿大单,共创沙漠奇迹

一个敢想,一个敢干?沙特寻求中国,签万亿大单,共创沙漠奇迹

知鉴明史
2025-11-08 14:46:36
真相炸裂,吴石夫人王碧奎家族齐发声,三面横幅揭开尘封百年身世

真相炸裂,吴石夫人王碧奎家族齐发声,三面横幅揭开尘封百年身世

大国纪录
2025-11-07 15:34:14
大家发现没?蒋欣身上有个玄学准的可怕,只要她演就火的一塌糊涂

大家发现没?蒋欣身上有个玄学准的可怕,只要她演就火的一塌糊涂

乐悠悠娱乐
2025-11-08 14:43:35
斯诺克赛程:希金斯德比迎战7冠王,手握2优势,会师吴宜泽冲冠?

斯诺克赛程:希金斯德比迎战7冠王,手握2优势,会师吴宜泽冲冠?

刘姚尧的文字城堡
2025-11-08 08:17:41
不出意外的话!苏林会成为第二个黎笋

不出意外的话!苏林会成为第二个黎笋

近史谈
2025-11-02 18:54:35
灾情严重!马科斯通告全球:菲律宾进入紧急状态,中国还会援助吗

灾情严重!马科斯通告全球:菲律宾进入紧急状态,中国还会援助吗

娱乐的宅急便
2025-11-08 14:33:55
起风了,第二个侯友宜出现,黄国昌态度骤变,郑丽文有言在先!

起风了,第二个侯友宜出现,黄国昌态度骤变,郑丽文有言在先!

阿伧说事
2025-11-08 12:53:41
攻势如潮,热火首节攻下53分,仅次于勇士和灰熊位列历史第二

攻势如潮,热火首节攻下53分,仅次于勇士和灰熊位列历史第二

懂球帝
2025-11-08 10:25:10
不查不知道,一查吓一跳!陈芋汐主教练余晓玲,原来如此深藏不露

不查不知道,一查吓一跳!陈芋汐主教练余晓玲,原来如此深藏不露

以茶带书
2025-11-08 11:53:21
0分验货局!交易克莱!湖人嘴都笑歪了!

0分验货局!交易克莱!湖人嘴都笑歪了!

柚子说球
2025-11-08 12:45:02
陪睡陪玩根本不够!目无王法、舔手,大花撕破脸,都不装了

陪睡陪玩根本不够!目无王法、舔手,大花撕破脸,都不装了

情感大头说说
2025-11-08 05:53:27
1985年,中央同意了宋时轮辞职,宋时轮:我终于看到了未来的希望

1985年,中央同意了宋时轮辞职,宋时轮:我终于看到了未来的希望

简史档案馆
2025-11-07 11:05:03
“福建舰”是一场革命,让美国看清现实

“福建舰”是一场革命,让美国看清现实

观察者网
2025-11-08 08:32:05
2025-11-08 16:08:49
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
5908文章数 4552关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

加拿大总理:加美经济关系已结束

头条要闻

加拿大总理:加美经济关系已结束

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

梁婷为辛芷蕾发声:没什么可质疑的

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

游戏
亲子
教育
房产
公开课

运营之路走向结局 《光环:无限》即将迎来最终更新档

亲子要闻

官媒背书保障品质的朝鲜族辣白菜,孕妇也能吃

教育要闻

不要在老师面前抱怨你的孩子!

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版