具身智能：人工智能的下一个浪潮与大模型的赋能之路|机器人|智能体|云计算费用

分享至

从图灵之梦到具身时代

1956年，达特茅斯会议首次提出“人工智能”概念，开启了人类对机器智能的漫长探索。从计算智能、感知智能到认知智能，AI历经三次浪潮，如今正迈向一个更具颠覆性的阶段——具身智能。

清华大学刘云浩教授在新书《具身智能：人工智能的下一个浪潮》中指出，具身智能不仅是智能体的物理化，更是思考、感知与行动在真实世界中的有机融合。而大语言模型的崛起，如ChatGPT、GPT-4，正为这一领域注入全新动能。

何为具身智能

不同于传统AI的“离身”特性，具身智能强调智能体与物理世界的深度交互。它可以是纳米机器人，也可以是巨型机械，核心在于通过感知环境、自主决策、实时行动，完成复杂任务。刘云浩在书中提到： “具身智能揭开了人类驯服机器的科学路径。 ”

大语言模型：具身智能的“新大脑”

最近，大语言模型的热潮席卷了整个技术界，也迅速与具身智能领域紧密结合。有人形象地说，引入大模型就像是给机器安装了一个新的大脑，似乎只要将其简单地嵌入，就能赋予机器全新的生命力。先来说“加 buﬀ（增益）”的地方。

1. 自然语言交互：打通人机沟通壁垒

首先，大语言模型能够帮助智能体与人类以自然语言进行交流。人类能够直接说出任务要求，大模型能够对此进行编码并得到更加方便机器进行处理的语义表示形式。同样，大模型也能够根据智能机器当时的状态生成自然语言，反馈给人类。这正如我们所看到的 Figure 01 机器人与人类用户对话交流并执行任务的过程。

2. 任务规划与常识推理

其次，大模型能够提供一些解决问题的“常识”，或者说高层次的语义指导。例如，如果我们问它：“如何把大象装进冰箱？”大模型可能会输出：“拉开冰箱门，把大象放进去，关上冰箱门。”我们姑且不论这个方案的可行性如何，大模型确实是能够将解决问题的完整过程拆解成多个子步骤并且给出一个执行方案的。因此，大模型具备成为优秀的行动规划器的潜力。

3. 多模态感知与代码生成

最后，多模态大模型，例如预训练的视觉—语言模型（Visual-Language Models，VLMs），能够为智能机器进行多模态感知和认知提供更为通用的选择。例如，CLIP 能够将视觉信息和文本映射到统一的表征空间，使得机器能够直接以视觉数据作为输入。3D-VLA 提出了一种新的三维视觉—语言—动作模型，它通过引入一个生成世界模型来无缝连接三维感知、推理和动作。与现有的基于 2D 输入的 VLA 模型不同，3D-VLA 更加贴近现实世界的 3D 物理环境。

当然，除了生成自然语言，大模型在未来也是能够生成可用的代码的。Code as Policies 通过训练大语言模型来为机器编写策略代码。给定自然语言的指令，大模型生成一段代码，然后这段代码就可以在智能机器上运行，持续接收传感器的输入并输出行动指令。有研究证明，这种生成代码的方式比直接生成行动规划要更好。VoxPoser 也是使用了大模型来生成代码，然后这个代码与前面提到的视觉—语言模型进行交互，为后续的动作规划提供信息。

挑战：从虚拟到现实的“最后一公里”

尽管大模型为具身智能提供了“大脑”，但其落地仍面临关键瓶颈：大模型的一个显著缺陷就是缺乏现实世界中的经验。还是刚才说的，如果我们给大模型一个“把大象装进冰箱”的任务，它可能会正儿八经地生成一段逻辑上合理的指导，却不会思考这样的步骤是否真的能实现。

为解决这一问题，谷歌的一项研究 SayCan 提出使用预训练技能，为模型提供现实世界的知识基础，这样大语言模型输出的内容就被约束在这些预训练技能对应的范畴内。这种方法有点类似于我们为大模型准备好了很多能够执行的 API（应用程序编程接口），然后大模型通过调用它们完成行动。在这种配置中，智能机器充当模型的“手和眼”，执行具体任务，而大语言模型则负责提供关于任务的高级语义指导。GLiDE 尝试在大模型的语义和智能机器在物理世界的行动轨迹之间建立关联，这个过程使用了人类的演示数据，这样系统就能够将自然语言的任务指令翻译为机器的具体行动序列。

刚才讨论的一些方法很多都是利用其他应用领域预训练好的大模型，因此需要进行额外的“接地”操作，即从大模型输出的符号（语言、代码等）转换到物理世界的行动。而谷歌的 RT 系列大模型，通过端到端的训练一步到位输出行动序列。在 RT—1 中，谷歌科学家首次提出一个模型类，叫作 Robotics Transformer（RT）。RT—1 的设计思路秉承了大模型“力大砖飞”的理念，也就是说，模型容量大，可以吸收大量的各类数据，也可高效地泛化。

之后的 RT—2 似乎不满足之前的训练力度，于是将基于互联网规模数据训练的一个视觉—语言模型直接整合到端到端机器人控制中，进一步提升模型的泛化能力。

而 2024 年新推出的 RT—H 开始走分层路线，提出行动层级（action hierarchy）的概念，将复杂任务分解成简单的语言指令，然后将这些指令转化为机器人的行动，以提高任务执行的准确性。

例如，以“盖上开心果罐的盖子”这一任务和场景图像作为输入，RT—H 会利用视觉—语言模型预测语言动作，如向前移动手臂和向右旋转手臂，然后根据这些语言动作，输出具体的机器行动。这个过程允许人类的干预，人类的修正也能够帮助机器进行学习。

可以这么说，大模型作为目前人工智能领域的一个方法论，必将成为具身智能发展的重要推动力。我们有理由相信，不久的将来，具身智能体将具备执行通用任务的能力和强大的学习能力，它们将能够更深入地理解我们的世界，并以前所未有的方式参与其中。

至少，在回答“如何把大象装进冰箱”这一问题时，一个“充满人性”的具身智能体可能会这样回答：“首先，我们需要确认大象是否有意愿被关进冰箱里；其次，考虑到大象的体量，我们可能需要一个特制的大型冰箱；最后，确保在关上冰箱门之后，大象拥有足够的空间和舒适的环境。”

大语言模型赋能智能体的尝试

2023 年，斯坦福大学和谷歌的研究者基于大语言模型，构建了一个由 25 个人工智能体组成的虚拟小镇。这个斯坦福人工智能体虚拟小镇成了当年最激动人心的人工智能体实验之一。与以往讨论单个大语言模型的能力不同，多个人工智能体的存在使交互变得更加复杂和引人入胜。这项工作的核心在于记忆流（Memory Stream）技术，它使得智能体能够以自然语言的形式保存和检索大量的经历。每个智能体都能够根据自己的记忆流来规划行动，这不仅增强了它们的决策能力，也为它们提供了一种独特的自我表达方式。

研究者为每个智能体设计了详细的背景故事，这些故事用自然语言编织，描述了智能体的职业、人际关系以及它们在虚拟社会中的角色。这些信息构成了智能体的“种子记忆”，塑造了它们的个性和行为模式。

以林约翰为例，他是柳树市场药店的热心店主，致力于为顾客提供便捷的药品服务。林约翰与他的妻子林梅伊—一位博学的大学教授，以及他们对音乐理论充满热情的儿子埃迪共同生活。此外，林约翰还与邻居萨姆·穆尔和珍妮弗·穆尔这一对和蔼的老夫妇保持了多年的友好关系。

在这个虚拟世界中，智能体通过一系列行动与环境互动。每一个动作都伴随着描述其当前行为的语言输出，例如“林约翰正在帮助顾客选择合适的药品”，这些描述随后转化为可以实际影响虚拟世界的具体行动。

智能体还能以自然语言进行交流。当它们感知到周围有其他智能体时，它们会做出反应并进行互动。例如，伊莎贝拉和汤姆就小镇即将到来的选举进行了深入讨论。伊莎贝拉说：“我还在考虑选谁，一直在和萨姆·穆尔讨论选举的事情。你对他怎么看？”而汤姆则回答说：“老实说，我不太喜欢萨姆·穆尔。我觉得他与社区脱节，没有真正把我们的利益放在心上。”

小镇中提供了许多常用设施，如咖啡馆、酒吧、小公园等，每个公共场景都定义了具有功能的子区域和其中的对象。智能体在小镇中自由漫游，与环境互动，从而影响环境状态。例如，它们可以拿光冰箱里面的食材来做一顿早餐，此时冰箱就会变空。

我们可以观察到社会行为的自然涌现，例如，智能体通过互动交换信息，逐渐形成新的关系网。这些社会行为不是预设的脚本，而是动态生成的。比如，在杂货店偶遇时，萨姆和汤姆的一段对话可能会触发一连串的社交活动。在这次对话中，萨姆透露了自己在即将到来的当地选举中的参选意向。很快，萨姆的候选资格成了小镇上的热门话题。

随着时间的推移，小镇的居民之间也建立了新的联系。例如，萨姆在约翰逊公园散步时遇到了拉托娅。他们互相做了自我介绍，拉托娅提到了她正在进行的摄影项目。在后续的交往中，萨姆时常询问这个项目的进展，显示出了对拉托娅的持续关注。

同时，伊莎贝拉作为 Hobbs 咖啡馆的经营者，计划在 2 月 14 日情人节当天下午举办一场派对。她从这个计划的种子想法出发，向遇到的朋友和顾客发出邀请。她的好友玛丽亚也加入了准备工作，并邀请了她暗恋的对象克劳斯一起帮忙布置派对。情人节当天，5 名小镇居民于下午 5 点钟聚集在 Hobbs 咖啡馆，共同享受了这一欢庆活动。

如果说斯坦福虚拟小镇中发生的故事更多是以语言的形式来表达，Minecraft 这款高自由度的沙盒游戏则给了具身智能体真正的发挥空间。例如，由英伟达和加州理工大学等机构的研究人员设计的 VOYAGER 智能体，尝试在Minecraft 世界中进行自我探索和学习。

Minecraft 提供了一个开放的游戏世界，要求玩家探索广阔的三维地形，并利用收集的资源解锁“科技树”（在电脑游戏中，选择发展不同的技术升级方向，会导致不同的结果，通常用树状图表示）。玩家通常从学习基础知识开始，如开采木材和烹饪食物，然后推进到更复杂的任务，如打击怪物和制作钻石工具。

你会发现，一个有效的虚拟智能体拥有着与人类学习进化过程中类似的能力：（1）能根据其当前的技能水平和世界状态提出合适的任务，例如，它如果发现自己处于沙漠而不是森林中，就会先学习收获沙子和仙人掌；（2）能根据环境反馈来完善技能，并将掌握的技能存入记忆，以便将来在类似情况下重复使用（例如，打击僵尸与打击蜘蛛是类似的任务）；（3）不断探索世界，以自我驱动的方式寻找新任务。

VOYAGER 智能体的“大脑”是 GPT—4，研究人员设计了三个核心模块，使 VOYAGER 智能体能够在没有人类干预的情况下，自主地在 Minecraft 世界中进行探索和学习。

第一个核心模块是“自动化任务序列”模块，它根据智能体的当前技能水平和世界状态提出合适的任务，引导智能体循序渐进地探索和学习。

GPT—4 会生成完成任务的代码，这些代码经过多轮迭代优化，最终形成一个完善的行动程序，被存储到“技能库”模块（这是第二个核心模块）中。有了这些技能的积累，智能体在后续执行类似任务的时候就可以直接从库中检索需要的技能，而无须再次学习。

第三个核心模块是“迭代提示机制”，它将环境反馈、执行中的错误和任务成功的自我验证结果都作为提示发送给GPT—4 引擎，以迭代优化行动程序的代码。通过这样的方式， VOYAGER 智能体在 Minecraft 世界中不断“练级”，学会越来越多的技能，打造自己的科技树，制造更先进的工具。

玩过网络游戏的读者对“挂机”这个概念应该不陌生。过去的外挂程序往往只能执行简单的攻击、喝恢复药水等机械的循环指令，而在不远的将来，当我们在游戏中遇见一位装备精良、操作熟练，甚至能与我们唠嗑的玩家时，小心，这位玩家可能并非人类玩家，而是一个虚拟智能体。

炽热与寒意并存的新时代

正如《百年孤独》中“冰正在沸腾”的隐喻，具身智能时代既令人兴奋又充满未知。从斯坦福虚拟小镇的社交机器人，到Minecraft中自主“练级”的VOYAGER，我们已窥见未来一隅。刘云浩在书末写道：“多年以后，面对人工智能，人们会想起图灵在花园里的那个遥远的下午。”而此刻，我们正站在新纪元的起点，见证智能从代码跃入现实，从辅助进化为共生。

刘云浩著

中信出版集团

2025年1月

作者简介：

刘云浩，清华大学全球创新学院院长，清华大学自动化系教授、博导，ACM Fellow，IEEE Fellow, ACM主席奖、国家自然科学二等奖、教育部技术发明一等奖、中国计算机学会自然科学一等奖和中国电子学会自然科学一等奖获得者。在清华大学自动化系获得工学学士学位，在美国密西根州立大学计算机系获得工学硕士和工学博士学位。曾任清华大学软件学院院长和美国密西根州立大学计算机系系主任。

内容简介：

人类已经完成了“人工智能初级阶段”的原始积累，正式进入向“更高阶段”迈进的时代。在人工智能诞生之初，其目标或许是实现具身智能--这种智能体不仅拥有物理形态，还能与物理世界进行互动。

具身智能这条路径能通向通用人工智能吗?逻辑学、统计学、神经科学和计算机科学等领域的研究者分别从符号主义、联结主义和行为主义三个纲领出发研究人工智能。打造通用人工智能是否需要第四种纲领?还是依靠这三者的融合就能解决?这些问题现在给出确定的答案还为时尚早，但知古而论今，本书以当前比较火热的具身智能话题为引，讨论人工智能的过去、现在和将来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.