没有共识又如何？头部企业抢夺标准定义权，机器人“暗战”升级|算法|大模型

没有共识又如何？头部企业抢夺标准定义权，机器人“暗战”升级

分享至

一个能够意识到失败的机器人，或许比一个永不出错的机器，更接近AGI（Artificial General Intelligence，通用人工智能）。

在过去的几天中，第一财经记者近距离看到了多次“失误”：机器人铺床时意外卡壳、运动时突然中断“抽搐”、操作中出现延迟……但部分机器人能够在任务失败后，不断尝试新的解法——这种由数据驱动的闭环大模型带来的感知与反复尝试能力，恰恰是行业追逐的技术亮点。

但围绕机器人大模型的分歧也在不断加剧。有人坚持“统一模型直出”，有人选择分层设计，算力消耗、延迟表现与落地场景成为博弈焦点。另一方面，机器人企业也不断推出灵活度更高、更便宜的本体或自研核心零部件产品来抢占市场。

现阶段，共识或许并非必须。在模型或本体的局部竞争之外，行业领先者们正抢夺更重要的话语权：谁来制定统一的性能测评标准？谁能掌握核心数据集的开放权与主导权？这些问题的答案或许将直接决定未来的行业竞争格局。

机器人失败了，也会思考了

机器人正在收拾床铺，但它的抓夹突然停顿，身体失去了平衡，死死地咬住被子的一角不放开。

在机器人主动尝试几次调整角度也未能找到角度松开抓夹时，许华哲宣告了这次任务的失败。他说：“我们的机器人似乎没有找到一个很好的办法来继续完成这次任务，希望大家给他一些时间，稍后再来观看。”

许华哲是清华大学交叉信息研究院助理教授，同时也是星海图的联合创始人。第一财经记者在一旁全程观察到了这次“失败”，许华哲告诉记者，在具身智能模型发展初期，这个状况发生非常正常，“就这几天机器人的工作情况来看，这种情况的发生概率不高”。

星海图首席科学家、清华交叉信息学院助理教授赵行在向记者提及此事的时候，也坦言，在这次失败的过程里，他希望大家能看到的是模型自主学习的能力。这个执行铺床任务的机器人身上搭载的是星海图新发布的端到端双系统全身VLA模型G0。“我们正在做的是一个闭环的大模型系统，所以在搭载G0的机器人察觉到自己任务失败之后，他仍然会反复尝试去完成任务。”

“他起码能够意识到自己没有成功，这是数据驱动的具身大模型一个典型的标志。”赵行解释，传统的机器人系统，更多是按照既定程序机械执行，一旦出现偏差，也会像“走流程”一样继续做下去，哪怕动作已经脱离目标。

但由数据驱动的具身大模型，也是这一波具身智能AI模型的追逐点，是机器人能够利用模仿学习、强化学习等方式，通过传感器感知环境状态，将实时反馈与任务目标进行比对，如果判断未达成预期，就会触发新的动作尝试。

这种能力并非源自人工预设，而是依靠大量数据训练与模仿学习逐步习得，因此它不仅会“做动作”，还会“评估结果”，并且不断学习，最终“琢磨”出一个可行方案。

没有共识又如何？击穿场景才是正经事

在过去的几天中，包括星海图、自变量、宇树科技等机器人企业创始人在内，都在公开场合表达了对具身智能大模型的追逐。

具身智能大模型的背后，是数据、算力和算法。数据和算法又有紧密的关系——数据规模越大，对算力的需求越高，而算力的提升又直接拓展了可处理的数据量级与模型复杂度。

正如宇树科技的创始人王兴兴所说：“大家对于基础数据的关注度太高了。”他认为，相比数据，机器人的模型架构是更应该探讨的点，因为现在的模型“不够好，也不够统一”。

当前，业界追求的主流大模型方向为VLA（Vision-Language-Action，视觉语言动作）模型。自变量机器人创始人兼CEO王潜告诉记者，业界对VLA模型的定义并非绝对统一，“相对宽泛的定义是，只要模型具备视觉、语言和动作处理能力，就可以称为VLA模型”。从这个角度上看，目前业内大部分模型都可归入这一范畴。

不过，在具体架构上，各家企业都还在探索自己的路。自变量的通用具身大模型WALL-A并没有采用分层架构，而是将视觉、语言和动作的输入输出全部交由同一个模型完成，省去了中间分层衔接带来的损耗。“这是为了提升模型效率。”王潜解释，如果采用分层架构，随着信息在不同层之间传递，某一层产生的微小误差可能会在后续环节呈指数级扩散。

这种“一个模型直出”的构型，意味着WALL-A不需要为感知、决策、控制分别调用模型。理论层面，只要模型学习到了丰富的原子技能，就能将长序列任务拆解为这些技能的组合，从而处理更长序列的任务，并执行更复杂的推理与规划。

王潜也向记者坦言，这个构型所需要的算力是“巨量”的，“统一模型的推理过程需要大量算力支撑，因此训练成本很高”。且长程推理虽然具备更强的泛化能力，但也可能带来延迟，在工业生产等高节拍场景中未必适用。

对于这一点，自变量也有明确的商业打法。王潜说，目前团队的短期目标是攻下商业服务和公共服务的场景，如酒店和养老院等。在更贴近C端的场景完成足够复杂的任务，有助于其展现WALL-A模型的长程推理优势。“我们并不局限于某个单点技能，而是希望他能够在真实的世界里做一些传统自动化无法替代的工作。”

“只要能成功击穿一个标杆场景，就证明了我们技术路线的商业价值，届时我们撬动的将是一个千亿元甚至万亿元级别的巨大市场，实现规模化商业落地将是水到渠成的事。”王潜说。

抢夺标准定义权，谁会成功？

在和赵行、王潜、许华哲等人交流的过程当中，第一财经记者注意到，benchmark是一个被他们提及的高频词。Benchmark指的是用来检验和对比模型好坏的统一测评标准，就像一场所有人都参加的统一考试。在这场考试中，也许没有标准答案，但能够通过比较判断出模型的好坏。

Benchmark也能够作为衡量具身智能大模型的标准之一。只是，这个测评标准的定义尚未清晰，行业中已经出现了一些企业，希望来定义这个标准。

星海图于近日开源了数据集 Galaxea Open-World Dataset。这个500小时的数据集不再仅仅包括简单的拿放操作数据，还包括躯干和移动数据，涵盖超过150种任务。星海图目前已经宣布面向全球具身智能开发者开源。

至于开源的目的，赵行告诉第一财经记者，他希望这次数据集的开源，对于行业来说能够构成一个很好的衡量标准。“具身智能在模型层面的发展，在过去很难被衡量。”赵行说，但如果大家用相同的数据和本体去训练模型，那通过结果能够很快比较出谁的算法更优。

为模型的优劣提供一个评判标准，这一举措的背后藏着更大的野心。“我们希望提供数据，吸引更多人来参与到我们的生态当中，让星海图成为一个能够服务更多开发者的平台型、生态型的公司。”赵行说。

想要成为机器人平台型公司的企业并不只有星海图一家。除了一直强调全栈能力的智元、傅利叶等机器人企业之外，此前在本体领域一向低调的自变量机器人也首发了全自研轮式双臂仿人形机器人“量子2号（Quanta X2）”和自研的灵巧手。同时，自变量也在研发自己的遥操平台工具。

从数据环节，到核心零部件，再到机器人的本体和大模型，原本强调单点能力的企业，正在剑指更大的生态环节。

共识尚未达成，头部企业的野心已经显现。“不同企业在VLA与强化学习等技术路径上有差异，但这并不是‘二选一’的问题。”首程控股董事会办公室总经理康雨向第一财经记者如是说道。

去年，首程控股参与设立并管理了规模总计100亿元的“北京机器人产业发展投资基金”，并且已经参与投资了星海图、自变量、宇树科技等企业。在首程控股投资的企业中，各家的技术路径分歧已经出现，比如星海图采用的是分层模型，而自变量则坚持统一模型直出。康雨也坦言，架构是模型的核心与底层问题，“因为它直接决定未来需要的数据量、算法的丝滑程度，以及训练中要消耗多少算力”。

“根据我们的观察，几乎每一家涉及具身智能的公司，都在不断迭代自己的架构。”康雨同意了王兴兴此前表达的观点：架构决定了后续的训练成本与效率。她说，一套优秀的模型架构可能只需极少的数据就能完成泛化，而也许能够成为企业的核心竞争力。

在康雨看来，技术的优势不仅关乎当下机器人的性能表现，更决定了企业未来能否以可控的成本实现规模化落地。

对于正处在快速迭代中的机器人行业而言，这或许才是真正的分水岭——跑得快并不难，难的是在长跑中保持速度与耐力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.