![]()
在人工智能与物理世界交汇处,具身智能正开启人形机器人的无限可能。在11月15日「心智合一:AI时代的人与组织进化新范式」高峰论坛上,北京人形机器人创新中心CEO熊友军分享了他与团队关于人形机器人及具身智能的前沿思考与实践探索。本文依据演讲整理。
全文 4168 字|阅读 8 分钟
![]()
尊敬的各位来宾,我是熊友军,很荣幸今天能在此与各位分享我们在具身智能领域的一些创新与实践。我来自北京人形机器人创新中心,中心已于去年十月升级为国家地方共建的具身智能机器人创新中心。因此,我的研究领域主要涵盖两个方向:人形机器人与具身智能。
方才,再次聆听陈老师的演讲,深感启发,每次都有醍醐灌顶之感。其中,“AI战略投资于人”的理念,对我们后续的企业运营具有极其重要的指导意义。今天,我将主要从技术、企业与产业的角度,分享我们关于人形机器人及具身智能的一些思考与探索。
![]()
首先,我们需要明确“具身智能”的定义。这一概念最早可追溯至图灵的论文,即“具身智能”(Embodied Intelligence)。其核心在于,智能系统必须基于一个物理实体,通过该实体感知环境,并与物理世界进行交互,最终实现具体的行动与行为。因此,其关键词在于:物理身体、环境交互、实际行动。
这与当前主流的ChatGPT、DeepSeek等生成式AI模型有本质区别。后者主要在虚拟或数字空间中运作,而具身智能则根植于物理世界,是机器人技术与物理环境交互的核心研究领域。它是人工智能与机器人技术两大前沿方向的深度融合。
具体而言,一个完整的具身智能系统类似于人类,包含三大部分:
(1)智能大脑:负责人机自然交互、环境感知、意图识别、任务规划与决策。
(2)机器人小脑:负责运动控制,如行走、抓取、安放及更复杂的动作执行。
(3)身体形态:其载体不限于人形机器人,轮式机器人、四足机器狗,乃至具备高度自动化能力的电动汽车,均可视为具身智能体的代表。
我们的研究强调构建一个“一脑多机、一脑多能”的通用具身智能平台,即“慧思开物”,能够赋能多种形态的机器人本体,应用于工业生产、商业服务、家庭陪伴乃至特种作业等多样化场景。
这要求系统具备三大泛化能力:
场景泛化:适应从会议室、工厂到家庭等不同环境。
任务泛化:胜任从文职辅助、重体力劳动到危险环境作业等各类任务。
本体泛化:驱动双足、轮式、四足等多种形态的机器人载体。
在此背景下,人形机器人被视为人工智能融入物理世界、形成新质生产力最理想的高级载体之一。它并非唯一载体,但因其仿人形态,能够无缝接入人类既有的环境与工具体系,部署成本低,适应性最强,被认为是未来最具通用性的机器人产品形态,将深刻颠覆人类的生产与生活方式。
从国家战略与产业发展视角审视,人形机器人与具身智能正面临历史性的战略机遇期。人工智能与机器人技术的深度融合已步入生产实践阶段,人形机器人作为最佳载体已成为行业共识。我国相关产业已从过去的“并跑”阶段,进入有望“领跑”的关键时期。当前格局呈中美两强竞争态势,加紧布局,我们完全有能力在未来三至五年内占领行业制高点,实现如电动汽车产业般的“弯道超车”。
市场需求的拉动同样强劲。在工业领域,老龄化社会与劳动力短缺,尤其在流水线及枯燥重复的岗位上,催生了对此类自动化解决方案的迫切需求。在社会服务领域,其仿人形态带来的天然亲和力与多模态自然交互能力,使其能更好地融入商业与社会环境。未来的工厂可能呈现“7:2:1”模式——70%工作由传统工业机器人与自动化设备完成,20%由人形机器人补足,剩余10%则仍需人类的独特智慧。
此外,人形机器人产业具备强大的全产业链拉动效应,如同曾经的房地产与汽车产业,将对上游的先进制造业(传感器、电机、减速器等)和下游的软件与人工智能技术产生巨大促进作用。
在消费市场,它甚至有望超越个人电脑与智能手机,成为第三代的人机交互中心。其多模态主动交互方式(通过语言、眼神、习惯等),以及能产生实质性行为输出的特性,将带来远比手机和PC更丰富、更直观的体验。例如机器人会根据人的日常生活习惯自动解决问题,无需等待人类主动发出指令。
![]()
人形机器人的应用普及将是一个渐进过程。
当前,其主要应用于特种场景,即“3D”领域——危险(Dangerous)、脏活(Dirty)、枯燥(Dull),如特高压电网、有毒化工厂、生物病毒实验室等。
下一步,将逐步渗透至泛工业领域(如汽车、3C制造)与商业服务领域(商场、博物馆、企业展厅)。
最终远景是进入家庭,初期以陪伴功能为主,逐步过渡到对失能、失智老人的精细化生活服务。
这一过程绝非一蹴而就,而是由点及面、全方位逐步渗透,根据多方预测,未来人形机器人的数量甚至可能会达到人类数量的几倍。
产业的飞速发展,主要得益于两大驱动力:
第一,市场需求拉动。“3D”领域场景应用、劳动力成本上升与老龄化趋势是重要动力。
第二,技术驱动与成本下降。机器人核心硬件成本正从百万级迅速下降,未来有望降至十万元级别,趋于“家电化”。同时,人工智能技术,特别是人机交互技术的快速迭代,使得机器人能力更强、体验更佳、适用场景更广。
要实现从实验室演示到规模化应用的跨越,即从“最能跑”的运动能力展示,到“最好用”的实际任务执行能力,我们必须在三大智能方向上实现突破:
运动智能:聚焦下肢能力,强调在复杂环境中的全身控制、自主导航与抗干扰能力。
操作智能:聚焦上肢能力,强调脑-眼-手协作,依赖于VLA大模型解决轨迹规划与多样化行为生成问题,以完成端茶倒水、分拣搬运、拧阀门等精细操作。
学习智能:使机器人能够理解世界、进行预测、规划并评估解决方案,具备持续学习与进化的能力。其发展将呈现两种模式:一种是增长式模式,机器人出厂后通过与用户交互持续学习,逐步成长;另一种是专家式模式,出厂即集成最先进AI技术,具备多场景即时服务能力。
![]()
基于上述认知,我们构建了两个核心研发平台:软件算法平台“慧思开物”与硬件平台“具身天工”。
在“慧思开物”平台中,集成了多类关键模型,包括负责自然交互与环境感知的具身多模态大模型、承担策略思考与决策规划任务的世界模型,以及具备泛化能力的通用操作VLA模型,共同构成该平台在人工智能领域的核心能力体系。
另一方面,在机器人本体技术层面,平台持续推进包括环境感知、关节驱动、电力控制等核心元器件的迭代升级。
基于该技术平台的支持,我们在运动智能、操作智能与学习智能三大方向持续开展深入研究。
1.运动智能:奠定物理移动的基石
我们的目标是实现“全自主导航的全身控制”。在今年八月于北京举办的世界人形机器人运动会上,我们的机器人是全场500多台参赛机器人中,唯一无需遥控、完全自主完成所有比赛的机型,并在100米、400米接力和1000米项目中均获得奖牌,其中100米夺冠。
这背后依赖的是OCC环视感知模块与全身协同控制算法,使机器人能实时感知环境(如跑道线、障碍物),并做出精准、稳定的运动决策。
此外,我们致力于提升机器人的环境适应性与抗干扰能力。今年四月,我们的机器人以自主方式,2小时40分42秒的成绩完成了世界机器人半程马拉松比赛。
在非结构化的户外测试中,机器人能够基于视觉感知,自主攀爬百余级高度不一的台阶,并稳定行走于石子路、草地、沙地、斜坡等多种地形。我们甚至进行了抗冲击测试,在承受十公斤沙袋的冲击时,机器人能通过自主调节保持平衡。
这为实现“人能到之处,机器人皆可至”的科技向善目标奠定了坚实基础,为在危险与特种环境中的应用铺平了道路。
2.操作智能:实现灵巧精准的任务执行
操作智能的核心在于泛化能力。我们正通过构建VLA(视觉-语言-动作)大模型,来赋予机器人强大的上肢操作能力。该模型能指导机器人完成多种任务,而非局限于单一编程。
任务泛化:同一机械臂可执行拿取杯子、倒水、取手机等不同指令,并能适应产线上的分拣、搬运。
场景泛化:在物流流水线上,机器人能完成识别包裹、贴标签、打包、放置到传送带等一系列眼-脑-手协同作业。
本体泛化:模型可适配单臂、双臂等不同构型的机器人。我们特别展示了双臂机器人在协同操作上的进展,例如处理无定形物体(如软包、纸张)的抓取与放置,这比操作刚性物体更为复杂。同时,机器人已具备处理长程任务的能力,例如,当接收到“帮我去冰箱拿杯水”的模糊指令时,它能自主拆解为导航、开门、识别物体、抓取等一系列子任务并完成规划与执行。
3.学习智能:赋能理解与决策的“大脑”
为提升机器人的认知与决策能力,我们独创了“双模驱动的具身智能世界模型体系”。
具身多模态大模型:负责人机交互、环境感知、空间理解、状态检测与任务规划。它如同机器人的“前台客服”与“初级规划师”。
世界模型:这是一个嵌入了物理规律(重力、摩擦力、材料属性等)的仿真环境。当具身大模型生成多个备选行动方案后,会在此世界模型中进行“预演”与推演。世界模型会模拟出执行这些方案后的物理结果。
双模协同:世界模型生成策略集(方案A/B/C)并输出模拟结果,具身大模型则对方案进行评估与择优,最终输出一个在物理世界中可行、高效的解决方案。
这套体系能大幅降低从仿真到实际(Sim-to-Real)的迁移差距,提高训练效率,缩短部署时间,让机器人真正地理解并适应物理世界的运行规律。
![]()
技术的最终价值在于应用,在完成运动能力的突破后,我们正积极推动具身智能在多场景下的试点应用,包括工业制造、特高压电力运维等。
同时,我们认识到,数据是驱动具身智能飞轮转动的核心燃料。与互联网AI不同,机器人的操作数据需在真实或高保真仿真环境中采集与积累,用以训练专用大模型。
产业化仍面临诸多挑战,如中试验证平台缺失、标准不统一等。我们正致力于构建标准化的工艺、生产设备与检测方法,并向行业开源开放。未来,人形机器人可能像汽车一样需要“上牌”,涉及安全、伦理等规范,因此,建设权威的检测平台与公共服务体系至关重要。
此外,我们正积极打造开源社区,将“天工”平台的硬件设计、软件算法等核心技术成果向行业共享,以期加速整个产业链的成熟与应用迭代。
总结而言,我们的实践路径清晰地描绘了从追求极致的运动性能“最能跑”,到聚焦解决实际问题的综合能力“最好用”的演进。
通过运动智能、操作智能与学习智能的协同突破,并辅以坚实的产业化生态支撑,我们坚信,具身智能与人形机器人将在不远的未来深刻重塑我们的社会与生活。(本文完)
![]()
![]()
微信 ID:chunnuanhuakai-cch
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.