模型、数据、落地之争：具身智能来到“破晓”时刻|算法|机器人|大模型

分享至

文｜魏琳华

编｜王一粟

“具身智能，究竟发展到了哪个节点？”对于这个火爆但早期的产业，不少人都有这个疑问。

一方面，是资本用真金白银投出的繁盛。据不完全统计，中国具身智能相关企业数量已接近百万家。今年下半年，包括宇树科技、智元机器人在内的多家公司拿到过亿融资、头部企业筹划上市。热钱涌动，创业者云集，仿佛下一个万亿级产业的黎明已然到来。

而另一方面，却是大量笼罩在行业上空悬而未决的阴霾，具身智能行业充满了基础性的路线之争。

“具身智能目前来看有三座大山：第一，数据稀缺性。第二，数据泛化性。第三，产品落地。”华为云中国区云原生企业业务部部长李鹏程说。

华为云中国区云原生企业业务部部长李鹏程

深入到产业腹地，不难发现，下阶段无论是模型路线、数据策略还是落地效果，整个行业都远未形成共识。参与者们仿佛站在一个巨大的十字路口，行业正在“两条腿走路”，在未确定范式之前，朝着不同的方向先展开探索。

从模型上来说，行业的讨论主要聚焦在VLA、世界模型等不同架构上，目前使用VLA存在的问题是，它的泛化性有限，难以解决跨本体、跨任务的情况；从数据上来说，是使用真机数据还是合成数据为主，两条路线各有优劣势，而没有人确认哪条路径更优。

在不确定的路径中，具身智能行业的玩家们正在通过不同路线的探索，合力向着“智能”的方向前进。

11月14日，由华为云主办的《具身智能产业实践高峰论坛》上，来自学术、产业、企业界的嘉宾共同探讨具身智能行业的发展和实践经验。

模型路线之争：从VLA到世界模型

“具身智能目前还处在非常初级的阶段。”在会议现场，多位嘉宾给出了相同的判断。

“现在到处都是问题，不管是机器人本体、可靠性、核心零部件成本、性能，到软件、大脑、小脑，或者大小脑本身是一个不明确的定义，这些都是要攻克的问题。”提到具身智能当前发展的情况，华为云物理智能创新实验室负责人周顺波说。

其中，模型架构和数据来源，成为频频提起的两个问题。

极佳科技合伙人、副总裁毛继明指出，目前最大的瓶颈在于“通用模型”本身不够通用。

极佳科技合伙人、副总裁毛继明

行业所面临的，是具身智能的第一重，也是最根本的挑战：如何让模型跨越从“认知”到“物理”的鸿沟，真正获得人类与生俱来的通识能力。

当数据来源尘埃未定，通往智能巅峰的模型路径是一片迷雾。目前，VLA（视觉-语言-动作）模型和世界模型（World Model）是两条最受关注，也最具争议的技术路线。

VLA模型是当下的主流选择，它更像一个“翻译官”，将人类的语言指令直接翻译成机器人的动作序列。它的优势在于路径更短，更容易在特定任务上看到效果。

然而在真实使用中， VLA模型遇到了很多问题。华为技术专家表示，目前VLA模型在通用化、自主化操作以及长程精细化操作几个维度上难以做到兼容和平衡。模型本身对物理世界缺乏深层次的理解和预判能力，这让它难以解决更多固定场景之外的复杂问题。

首先是数据依赖的严重性。VLA模型本质上仍然是通过大量特定任务的数据进行训练，但这种泛化仍然是建立在海量数据训练基础上的。当面对一个全新任务时，如果训练数据中缺乏足够相似的场景，模型很可能无法直接处理。

“现在通用模型这块确实还很不通用，这种局限性在面对新环境、新任务时尤为明显。”一位嘉宾直言不讳：“现在很多demo是挑了最好的给大家看，真正上线用的时候很多工厂良率控制要求很高，但凡只有90%成功率都不行。”

更关键的是架构本身的固有问题。VLA模型需要同时处理视觉输入、语言理解和动作输出三个不同模态的信息，这种复杂性导致计算开销巨大，推理速度缓慢。

在工厂的实际应用中，机器人需要满足严格的时间节拍要求，而VLA模型的思考和规划周期比较长，往往无法满足实时性的需求。

面对VLA模型的困境，世界模型路线正在成为一个重要的技术方向。

与VLA不同，世界模型试图让机器人建立对物理世界的底层理解，就如同人类基于对世界的通识认知来理解和执行任务。它的核心是通过构建机器人对物理规律、物体属性、动作结果的深层理解，解决机器人在跨本体、跨任务场景的泛化能力。

世界模型的另一个重要优势是其在数据生成方面的潜力。通过对物理世界的理解，模型可以生成大量高质量的合成数据，这恰好解决了当前机器人训练数据稀缺的问题。

“VLA跟世界模型现在都处在GPT2的时刻，它们还有很大的潜力可以挖，但距离真正的通用型还有比较长的路要走。但是我们觉得这个时间并不会很长，两年内可能就会迎来这样的时刻。”毛继明说。

真机采集、仿真生成，具身企业怎么选？

除了模型路线的变化，数据问题也成为制约行业发展的另一大瓶颈。是使用真机数据还是合成数据？对于两条路径的可能性，多位嘉宾表示，目前还没有探索出一条确切的路径。

但不可否认的是，在算法还有待优化的现阶段，研发企业需要真机数据验证算法的准确性。

周顺波一针见血地指出了问题所在：“根据我们的研发实践，现在没有任何一个场景可以用100%合成数据完成物理世界的落地。所以真机数据确实是很重要的一个数据来源。”

怎么采集真机数据，也是一门学问。

“我们也踩了很多坑，前期做数据标注、数据采集的时候很多数据是废掉的。因为让数据标注人员做数据采集的时候发现并没有一个很好的标准，这个标准是通过不断优化模型，反向做数据采集的设计，这样能够采集到更高质量的数据，喂给模型，让模型更泛化。”聆动通用联合创始人兼市场副总裁、讯飞创投投资顾问周甲甲说。

聆动通用联合创始人兼市场副总裁、讯飞创投投资顾问周甲甲

为了解决数据标准化和共享问题，一些企业开始构建数据服务平台，先去确立标准。

周顺波介绍了华为云的相关实践：“构建具身生态我们在积极推进，但是我觉得更重要的点是现在行业里面并没有对于数据的认知，不知道应该采集什么样的数据，所以需要先建立标准。”

他表示，华为云正在构建一套端到端的工具链，放在了自家平台CloudRobo中。该工具链不仅可以对接数采厂、穿戴式数采，也可以对真机数据做数据增广，或者是基于仿真平台做数据合成。

真机数据的最大优势是其可信度和真实性。但真机数据采集的成本极其高昂，超高质量数据有限，这成为制约行业发展的一大瓶颈。

面对真机数据的高成本、质量低问题，仿真数据也成为当下具身智能企业尝试的重点路径之一。

它不仅具备成本优势，在后期提升泛化性上，起到至关重要的作用：当现有阶段的真机数据种类、场景范围覆盖有限的情况下，使用针对性生成的合成数据，能够帮助模型有效提升泛化能力。

毛继明抛出了一个问题：“真正的通用怎么可能通过采集能够达到那么大的通用？这是不可能的。”

也就是说，要让机器人学会处理一万种不同的场景，不可能要求企业真的去采集到对应的所有数据，唯一的出路，是在世界模型中合成数据，提供给模型训练。

不过，相比于真机数据，仿真数据目前的效果有限，实际训练效果距离真机数据还有一定差距。

“合成数据可能有上限，尤其现在基于仿真引擎合成数据。”周顺波说，“现在刚体的物理仿真可能还行，但是如果上升到流体柔体，其实合成数据的性能会被仿真性能给锁死，这也是大家关注世界模型价值的原因。”

因此，行业正处在一个“真机”与“合成”混用的阶段，真机数据是“种子”，用来锚定真实情况，合成数据则被用来实现规模化和泛化。

且根据不同的场景，真机和仿真数据的混合比例也会动态调整。毛继明透露，在“叠衣服”任务上，合成数据的最佳比例高达90%；而在“收拾桌子”这种刚体操作上，则是70%左右。

产业落地：工厂、娱乐场景探索可能性

在模型和数据这两座大山之下，具身智能的产业化落地，目前还有一段漫长的路要走。

“哪怕只是打螺丝，现在交给机器人还是不太能做得好。”一汽模具研发负责人王瀚霄说。从实际应用的效果来看，当前大多数机器人系统在工厂环境中的表现远未达到商用要求。面对基础的装配操作，实际上涉及到复杂的感知、规划和控制流程，需要各个层面的技术协调配合。

更关键的是成功率的严格要求。上述嘉宾表示，在现实中，工业场景要求至少90%的成功率，而目前大多数系统只能达到10%左右的水平。此外，在操作灵活性和工作效率上，当前机器人表现出的水平也远未满足要求。

谈及人形机器人产业化落地条件，也同样存着大量亟待解决的问题。

北京人形机器人创新中心具身大模型负责人鞠笑竹表示，需要能够做到四种能力：多本体、多任务协同工作能力、自主学习能力、跨本体泛化操作能力和全自主导航能力。

“我们要解决真正的问题是，未来1-2年时间之内，现在采集的数据训练模型能不能高效复用到下一步技术上？跨本体问题不解决，那可能采的数据作用都会大打折扣。”鞠笑竹说，“此外，未来机器人进入到场景之后，除了采集数据、训练部署给到厂家之外，还能做到干中学的效果，包括解决当下被人诟病的自主导航能力——机器人后面老有一个遥控器推着。”

跃入产业端，企业需要解决的不单单是技术问题，还存在大量围绕机器人运行本身需要考虑的供应问题。在这个过程中，产业端需要一套更加清晰的标准和工具支撑能力。

扎根产业端，不做机器人本体，只做“卖铲人”，华为云通过实践和探索，给出了一套自己的答案：

“基于华为工具链平台，它围绕着数据生产、具身智能模型训推、评测，是数据闭环的平台。”周顺波说，“这个闭环就会涉及到运行态，运行态会涉及到一些华为传统的优势，比如多模态数据2D、3D的甚至包括触觉的，这些数据怎么做无损压缩？以及到底计算是发生在端侧还是云上，还是边侧，算力怎么自适应的卸载等等。”

而在更多资金涌入具身智能行业的情况下，未来行业可能会率先在哪些领域取得落地成果？

对此，势乘资本合伙人刘英航表示，目前头部具身智能企业正在联合企业场景完成一些复杂挑战，比如进工厂拧螺丝。此外，一些人形机器人的销售大单去往了商业表演、导览、教育科研等行业。

“我们最近看了一些新项目，大家做的是偏应用类的，跟具身、AI硬件结合的项目，他们做的往往都是基于物理世界模型、运控能力做了陪伴、户外、摄影这些能力，其实这些也回避了交互能力现在不足的点。”刘英航说，“这块可能有下一个大疆的可能性。”

毛继明则表示，极佳看到了世界模型更适合对通用性要求更高的泛服务和家庭场景，所以这两方面是极佳当前的主攻方向。不过客观来讲，具身智能确实更有可能会在工业场景和娱乐场景两个领域率先商业化落地。

“商业化落地的原则是优先选择其中约束条件明确、技术难度相对较低的场景进行突破。” 毛继明表示。工业场景因为有很多约束条件在，可以使得企业有些办法走捷径，绕开一些通用性、泛化性问题，所以被认为是最有可能率先实现突破的领域。

同时，娱乐场景也被视为一个快速的突破口。“娱乐方向我的判断它需要像商业化场景那么严肃，所以有可能通过其他的点打动消费者，进而形成商业化的闭环。” 毛继明说。

回顾过去三年的投资演进，从“看人投团队”到“看demo投项目”再到“看落地”，资本的理性回归正在推动行业回归技术本质。

虽然当前的融资繁荣与实际能力之间存在巨大差距，但正如大语言模型经历了从GPT-1到GPT-3的跨越式发展，具身智能也必将在解决技术路线过程中，逐步接近“通用”时刻。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.