12月2日,《咬文嚼字》编辑部发布2025年度十大流行语,“具身智能”以高票位列第二。这一结果恰与时代浪潮形成深刻呼应——作为具有物理载体、能通过身体与环境交互实现感知决策行动一体化的智能形态,它不仅重塑着汉语词库结构,更标志着人工智能从虚拟算法迈向实体智能的关键转折。《咬文嚼字》主编黄安靖指出,这类智能相关语词的涌现,印证了人工智能对世界的深刻改造。
![]()
而在科技政策领域,2025年更迎来里程碑时刻:具身智能首次被写入《政府工作报告》,与量子科技、6G等共同列为重点培育的未来产业。作为“十五五”规划明确的新增长点,这一信号迅速激活全产业链活力,从国家实验室的前沿攻关到智能制造的场景落地,具身智能正以政策为帆、技术为桨,驶入规模化发展的黄金航道。
从ChatGPT惊艳亮相到DeepSeek全球走红,大语言模型的突破让人们见证了离身智能的潜力;而2025蛇年春晚舞台上,人形机器人扭秧歌的场景,则让具身智能走进大众视野。如今,人类已完成人工智能初级阶段的积累,正式迈向更高阶段——正如人工智能诞生之初的愿景,打造拥有物理形态、能与现实世界互动的智能体。
具身智能这条路径,能通向通用人工智能(AGI)吗?逻辑学、统计学、神经科学和计算机科学等领域研究者分别从符号主义、联结主义和行为主义三大纲领出发探索答案,那么,打造通用人工智能是否需要第四种纲领,还是依靠这三者的融合就能解决?
深耕物联网与智能系统研究数十年的清华大学教授、新晋中国科学院院士刘云浩,长期聚焦智能体与物理世界交互研究,在他所著的《具身智能:人工智能的下一个浪潮》中,我们能透过这一热点话题,读懂人工智能的过去、现在与未来。本书与当下政策导向、行业热潮形成精准同频,为这场科技革命注入了权威学术注脚。
![]()
何谓“具身智能”
说了这么多,到底什么是具身智能呢?
这一概念最先渊源于艾伦·图灵,那位公认的“计算机科学之父”与“人工智能之父”。1950年,图灵在他的经典论文《计算机与智能》中就展望了人工智能可能的两条发展道路:一条路径是专注于抽象计算所需的智能,比如让机器下国际象棋;另一条路径则是为机器配备最佳的传感器,教机器说话,使其可以与人类交流并像婴儿一样“成长”。
这两条道路,分别对应着“离身智能”与“具身智能”。不过,“具身”的含义并非指字面上的“身体”,而是指通过身体的感知来实现的智能。离身智能缺乏实体“躯体”,只能与预设的数据进行互动,无法从与环境的真实互动中获得“常识”。只有赋予它能自主控制的躯体,并让它像普通个体一样融入物理世界和人类社会,它才能形成真正的自我感觉和意识。
![]()
在图灵理论的基础上,人工智能学界衍生出了三大学派。符号主义学派借助逻辑推理和算法操作,依据物理符号系统假说和启发式搜索原则来解析智能。它关心的是智能的心理和逻辑结构,即心智的抽象和计算层面。联结主义学派采用生物仿生学的方法,致力于通过模拟生物大脑的结构来探索智能的秘密。它关注的是智能的生理承载,即大脑的实际组织结构。而行为主义学派则通过研究“感知—行动”模式,强调环境反馈与智能行为之间的直接因果关系,从而揭示智能。这一学派并不关心智能的生理或逻辑结构,而是专注于智能的行为表现。
由于行为主义学派认为智能和认知不仅仅与大脑的功能有关,而且与身体结构和环境的互动密切相关,因此,智能始终是具体的、身体化的,必须建立在与环境互动的具身智能身体的基础上,而不是单纯存在于抽象的思考之中。“具身智能”终于登上了历史舞台。
![]()
实现具身智能的五大步骤
那么,从当下主流的理论出发,具身智能如何让自己的“身体”与“智能”紧密联结在一起呢?书中认为,这可以分为五个相互联系的环节:感知、认知、决策、行动、进化。这些环节真实模拟了人类与外部环境发生交互的过程。
感知:机器学习模型如何能够更好地模拟人类的感知智能?关键在于整合具身经验,让机器能够在真实世界的复杂环境中学习和适应。科学家们发现,动物的物理身体,以及身体在与环境交互中的体验,对感知的形成有着意想不到的重大影响。通过让机器1∶1地进行生物学模仿,并在真实世界中实时互动和适应复杂环境的变化,不仅能让它学习特定的动作和模拟相应的反应,而且能够理解这些行为背后环境因素和上下文,从而真正实现高级的感知和认知功能。这种对复杂真实世界情境的模拟和交互,或许是实现真正智能机器的关键步骤。
认知:在探讨机器认知时,一个至关重要的概念就是“世界模型”。它是智能体对外部环境的一种内部表示,包括了智能体所掌握的关于世界的知识、规则以及预期。当前阶段,机器学习世界模型的过程主要涉及两个步骤:表征学习和预测。表征学习就像是机器的大脑进行初步加工处理,从原始的高维数据(如图像、文本)中提取出更加简洁和抽象的特征表示,而一旦学习到了这些抽象的表征,机器就能使用这些数据来建模和预测现实世界。
![]()
决策:机器在做决策的时候,需要“决策模型”的支持,它通常与以下三个方面紧密相关:(1)任务目标:这是决策的出发点和归宿,它定义了智能体要达成的最终目的。(2)环境状态:智能体需要理解当前所处的环境状态以及自身的状态,这是决策的基础。(3)自身能力:智能体需要清楚自身的能力范围,包括能够执行哪些动作,以及这些动作可能带来的效果。通过对这三个问题的回答,智能体就能够构建起一个决策模型,以指导自己在复杂多变的环境中做出最合适的行动选择。
对于构建决策模型,机器学习领域已经发展出多种方法来模拟和优化这一过程。其中,模仿学习和强化学习是两种重要的方法。具体而言,模仿学习是指机器通过分析大量的人类决策数据,学习如何在特定的情境下做出合适的选择,而强化学习则是通过奖励和惩罚来引导机器的行为,使机器能够在不断尝试和犯错误中学习最优的策略。
行动:在具身智能领域,如何借鉴人类神经系统的“冗余自由度”,优化机器人的运动控制,是一个待解决的关键挑战。当前的研究正在尝试通过各种算法模拟这一过程,例如通过机器学习算法来识别和模拟最有效的动作模式,从而在保证任务执行效率的同时,减少能量消耗和提高控制的准确性。进一步地,研究者还探索使用模块化的控制策略,将复杂动作分解为若干简单模块,每个模块对应特定的动作自由度。这种方法不仅可以简化控制算法的设计,也有助于提高整体系统的适应性和可靠性。
![]()
进化:人类研究者给具身智能体提供了进化的土壤——仿真人类的进化历程环境。它们是一个理想的平台,用以开发、测试和完善智能体的能力。如“互联网之父”温顿·瑟夫所言,仿真环境不仅允许研究人员在没有物理限制的情况下探索与环境的复杂交互,最重要的是智能体可以在无风险的情况下进行大规模和重复的训练,无须担心设备破坏真实场景或产生高昂的维护费用。此外,仿真环境的一个关键优势是其能够支持大规模并行处理,我们可以在成千上万个线程中同时训练多个智能体,显著提高训练效率和速度。
![]()
从理论到实践的落地密码
书中反复强调的一点是:具身智能的核心,是让智能体和物理世界形成高效的交互闭环。2025年下半年的产业实践,正好成了这个理论最生动的例子。
针对书中分析的大模型接地难题,有些团队推出了混合推理体系:遇到工业诊断这类复杂逻辑,就用深度思考模式拆解开;要适配实体低延迟的需求,就切换到轻量响应模式,这和书中推理深度需匹配落地场景的论断完全吻合。而书中重点讲解的VLA(视觉-语言-动作)融合技术,已经在智能座舱里实现突破——车载智能体不只能听懂打开空调的指令,还会结合乘客体温、室外环境自动调风速,这也印证了多模态协同是核心能力的判断。
对于具身智能多路径发展的预判,产业实践也给出了呼应。书中明确提到,人形机器人只是其中一条路,大模型+专用实体+强化学习、万物智联催生的智能涌现,潜力其实更大。这个观点在能源、制造领域得到了验证:油田勘探时,传感器阵列靠持续采集数据实现油藏动态预测,成了无实体机器人的典型案例;汽车行业则通过精简模型,把决策响应压缩到秒级以内,践行了实体特性决定模型形态的主张。
书中还列出了具身智能的三大瓶颈——从仿真环境到现实场景的迁移差距、多模态对齐的稳定性、数据隐私安全,这些现在都是行业攻关的重点。有些团队借鉴书中人类演示数据辅助对齐的方法,把机械臂失误率降低了40%;基于联邦学习的方案实现了工业数据可用不可见,这也回应了书中技术进步需兼顾伦理的提醒。
![]()
当“具身智能”从年度热词生长为《政府工作报告》中的国家战略,这本著作恰如一盏明灯:既为研究者拨开技术迷雾,指明从理论到落地的清晰路径;也为实践者提供底层逻辑,让智能创新不再局限于实验室的构想。本书将搭建一座桥梁,让研究者看到落地的可能,让实践者读懂技术的本质。
它记录的不只是人工智能从虚拟走向实体的转折,更在为人类定义智能时代的核心法则——当机器真正学会与物理世界对话、与人类需求同频,这场技术革命便不再是冰冷的算法迭代,而是重塑生产方式、生活形态乃至文明边界的全新开端。在具身智能的浪潮中,这本著作所点燃的理论与实践共鸣,终将推动人类迈向更具温度、更富效率的智能文明新图景。
↓我们还有下面这些活动↓
-End-
2025.12.3
编辑:闪闪 | 审核:孙小悠
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.