具身智能验证期：马拉松探小脑能力，机器人奥林匹克验证大脑能力|人形

分享至

作者：吕鑫燚出品：具身研习社

近半个月，堪称具身智能“高考季”

一件是模型能力的“高考”，即星动纪元在全球顶级具身灵巧操作智能真机赛事 Benjie’s Olympics（全称:Benjie’s Humanoid Olympics)，一举拿下三项赛道第一；另一件是小脑能力的“高考”，第二届中国人形机器人马拉松即将鸣枪开跑。赛事设置自主、遥控双组别，为行业提供了又一次集中的小脑技术验证场景。

这两件事，看似毫无关系，实则指向同一个行业核心趋势：具身智能产业正通过公开技术验证加速兑现产业价值。

先从这场行业关注度拉满的人形机器人马拉松说起。和去年的首届赛事相比，今年有两个非常核心的变化。首先是参赛主体的大幅扩容，从去年十余家厂商的试水探索，到今年数十家企业同台竞技，这背后，是国内具身智能产业生态的快速完善，从少数企业的单点探索，进入到更多玩家规模化入局的新阶段。其次，是自主模式正式成为核心竞赛组别，机器人不再依赖人工遥控的辅助，全程依靠自身的环境感知、自主导航、实时运动规划能力完成赛程。

这也意味着，行业的竞争焦点，已经从 “实现双足稳定行走” 的基础能力，转向 “脱离人工干预” 的进阶能力，而这正是人形机器人走向商业化落地的核心前提。

如果说人形机器人马拉松，是国内具身智能行业集中展示生态活力、完成集体技术校验的平台，那么星动纪元在全球最难具身灵巧操作顶尖真机赛事 Benjie’s Olympics 上的成绩，则是在国际赛事上，展现中国具身模型能力。

这里值得一提的是，Benjie’s Olympics 是全球具身智能领域公认的高含金量竞技平台，常被评价为是全球具身灵巧操作最难顶尖真机赛事，也是 Physical Intelligence（简称PI）PI 迄今为止唯一主动报名参赛的国际顶级赛事，其派出的闭源模型PI*0.6，代表了 PI 当前的最高技术水准。即便在这样的前提下，面对全球最强具身大脑公司的最高技术压力，星动纪元依然拿下三项第一。

此时，掌声不知道是该给星动纪元还是该给中国具身智能，毕竟不声不响挑战最难的，很符合星动纪元的风格，但是从产业维度看，这绝非单家企业的单次赛事突围，更印证了国内厂商在具身智能大模型的核心能力上，已经稳稳跻身全球第一梯队。

此前海外常提及的国内具身智能 “大脑能力缺位” 的论调，也随着星动纪元这三块金牌的落地，彻底成为了历史。

“It’s theonly contest that forces generalizationnot just replication. Most teams can’t pass Bronze; Gold is near-miraculous.”

（这是唯一强制泛化而非复现的比赛。多数队伍连铜牌都过不了；金牌近乎奇迹。）

这是海外业内专家对Benjie’s Olympics赛事的评价，也是对该赛事难度的精准提炼。毕竟Benjie’s Olympics不受客观因素制约，也没有太花哨的初心，单纯是前Google资深机器人专家Benjie Holson，“看不上”市面上简单的人形机器人赛事挑战，因此用自己名字命名，并通过一系列严格的要求给全行业下战书。

赛事创始人曾预测，完成全部挑战至少需要1年。从某种角度来看，与其说Benjie’s Olympics是一场比赛，不如说其是一场具身模型的“挑刺”大赏。

Benjie’s Olympics有15个比赛项目，参赛规则严苛到写下来比赛事项目都长（略夸张版），且主打一个“真”！

首先，必须是全自主、无遥控、无人工介入、无远程修正，是机器人真自己在干活；

其次是，必须在真实家庭场景下操作，要完全还原光照、纹理、摩擦和噪音等环境因素；

最后是真考试，没有预设考题杜绝了提前偷偷练习的可能性，更不能预扫描地图，环境和物体完全随机。

一套规则组合拳，打断了所有投机取巧的模型，留下的是真正考验机器人在真实复杂环境中的自适应、自决策能力。

从具体赛事来看，Benjie’s Olympics 的核心设计，完全锚定了横亘在具身智能领域最核心的 “莫拉维克悖论”。即人类凭借本能就能轻松完成的日常感知与动作，对机器人而言却是极高难度的技术壁垒，而人类觉得复杂的高阶推理，机器反而更容易实现。

基于这个核心，赛事没有设置任何脱离落地场景的极限炫技项目， 15 项赛事均是贴近家庭、工业真实场景的日常实战任务，分属开门、洗衣、基础工具使用、指尖操作、湿滑路面 5 大场景模块，并按难度梯度划分为金牌、银牌、铜牌三个等级，且要求多次重复稳定完成，而非“赌运气成功”。

其中剥橘子、插钥匙开锁属于最高难度的金牌任务，翻袜子、清洗油腻平底锅属于银牌任务，T 恤翻转折叠则属于铜牌任务。这些看似简单的日常动作，每一项都在考验机器人感知、决策、控制的全链路通用能力，清洗出单一能力强，全栈能力弱的团队；且只要有一环出现失误，则全链条崩塌，仅1-3mm 的误差就可能导致任务失败。为了能让选手更好理解任务流，本杰还亲自示范任务。

这里插播一句，T 恤翻转折叠任务被大部分企业描述为难度极高的任务，常出现在证明模型能力的DEMO中。而在Benjie’s Olympics这只能算是个简单任务。这也是很多专家说多数队伍连铜牌都过不了的原因，有参赛团队耗费6个月打磨Demo，在任务挑战中遭遇“滑铁卢”，3天内失败率高达90%。

更有趣的是，Benjie’s Olympics并不存在“险胜”而是参赛选手的成绩比上一个冠军的成绩至少提高25%，才能获得奖牌，这不是在简单地找冠军，而是找一个碾压式的领先。

通过比赛所有安排来看，更能理解为什么Benjie’s Olympics被视为具身智能模型灵巧操作赛事的“奥林匹克”，原因很简单，二者都是在检验模型灵巧操作能力的边界。

但若深层探内核，Benjie’s Olympics的含金量远不止于奥林匹克级别，毕竟奥林匹克是在人类与生俱来的运动、感知、身体协调能力基底上，冲击生理机能的上限；而 Benjie’s Olympics 要解的核心命题，从来不止是单一能力的峰值突破，更是要直面并攻克横亘在具身智能领域最底层的「莫拉维克悖论」。让机器人完成这些任务，其难度无异于让人类去挑战基因底层代码里从未预设过的能力边界。

也正因如此，这场赛事没有任何参数注水、场景取巧的空间，每一份成绩，都是对具身智能大模型通用能力最硬核的实机验证。

Benjie’s Olympics是PI主动第一次参加比赛。对，这次是PI“本PI”，而且拿的是还没舍得开源的模型，来的原因很简单，PI团队认为该比赛没有其他比赛能比肩。

不得不说，PI作为现阶段全球最强具身大脑其闭源模型能力毫无疑问，也是该比赛拿下最多奖项的团队。但在三个项目，星动纪元的表现让PI只能望其项背。

先从最难的剥橘子（金牌任务）来看，比赛要求机器人精准区分果皮与果肉的细微视觉特征，稍有不慎就会捏烂果肉，需要实时跟踪剥制过程中的果皮形变，要求视觉感知有极高的鲁棒性。PI在这个项目中借助削皮刀耗时2分46秒完成，而星动纪元动作干净利落，不仅在速度上提升了35%，用时1分47秒完成，更是成为赛事首个实现完全无工具纯手剥操作的团队。

在同为金牌任务的开锁项目上，机器人要精准识别只有几毫米的钥匙孔位置和角度，并实时理解钥匙的姿态插入毫米级的钥匙孔。在这个过程中，还要克服光照的变化，和反光的金属以及操作视角偏差。对视觉感知的精度和鲁棒性要求极为严格，别说机器人开锁了，我经常需要反复对齐才能开锁成功。

PI完成开锁用了66秒，而星动纪元仅用49 秒完成，速度提升 25 %。

更有代表性的碾压在银级任务翻袜子上，这是家庭场景中最常见的任务，也是考验泛化能力的标杆任务。毕竟袜子是一个柔性物体，且在操作中会发生毫无规则的复杂形变，属于柔性物体操作、样本泛化、效率敏感的典型场景。这便要求机器人实时跟踪形变，精准区分袜子的内外侧、开口位置，对视觉感知、柔性物体跟踪能力要求极高。

PI 用时1 分 33 秒完成，星动纪元比 PI 速度提升 30%。更为重要也是碾压的在于对样本量的诉求，PI用了 176 个样本，而星动纪元只用了120 个样本，样本量减少 32%。

面对不规则、复杂形变的操作任务，对样本量需求更低表明星动纪元的在复杂任务中展现了极强的泛化性，和落地可行性。正如Benjie’s Olympics考验的一样，不是运气而是真实力。

从这条线中就能看出，星动纪元不只是拿了几块奖牌回来，而是在比赛中，沉淀出了模型更高效落地的方法论。

除了，翻袜子中体现的小样本泛化能力，证明了基础模型的知识迁移能力，大幅提升了数据利用效率外，在开锁等高精度操作任务中，星动纪元通过自适应视觉注意力机制，实现了对钥匙、锁孔等微小目标的动态聚焦与特征增强，显著提升了精细操作对象的感知精度。这套逻辑不仅仅是能拿奖牌，更是证明工业场景中毫米级操作，有了可靠的感知基础。

此外，星动纪元采用异步推理架构，通过提升推理与动作执行频率、缩短运动规划时域，有效抑制了累计动作误差，大幅提升了任务执行的成功率与稳定性。如图所示：VLA 模型通常以特定频率生成单次时长超过 1 秒的小段运动轨迹，为了提高模型对环境动态的实时反应能力和执行精度，在当前运动轨迹没有执行完成时就同时预测下一段轨迹,新轨迹生成后，系统将直接切换至新轨迹执行。

机器人关节沿第 1 段规划轨迹（Chunk 1）运动，当第 2 段新轨迹生成时（对应图中竖线分隔时刻），系统切换至第 2 段轨迹执行，以此类推。向模型发起轨迹规划请求的频率越高（即图中竖线间距越近），机器人对非预期扰动（如袜子堆叠状态偏离预设）的实时响应与应变能力越强。

星动纪元这套技术，说白了就是给机器人装上了 “边动边看边改路线” 的超快反应系统,不用等当前动作做完再规划下一步，而是动作执行的同时就提前算好新路线，新路线一出来立刻切换，改得越勤、越快，机器人应对突发状况就越灵活，动作越不容易走歪，干活的成功率和稳定性也就越高。

整体而言，星动纪元获奖的三个任务，体现的是从柔性操作到长程任务的通用智能潜力：能够精准应对柔性物体的形态变化，完成细腻精细操作；可灵活协调双手完成复杂协同操作，打破单臂执行的局限；对工具应用的深度理解与灵活运用能力，适配不同场景需求；能够高效处理多步骤、长时间规划的复杂任务，具备向更广泛真实场景延伸的潜力。

如果不是星动纪元参赛，Benjie’s Olympics在国内的还属于“小众”圈层谈论的比赛。

但说实话，这种举动很星动纪元。

只要了解星动纪元，丝毫不会对这件事产生疑惑。

纵观星动纪元的发展，你会发现其创始人陈建宇低调的底色早已浸透于这家企业中。此前曾有声音表示，很难看懂星动纪元，原因在于星动纪元好像一直在做些和产业主流步调不同频的事。

从一个中立视角来看，这种声音或者说看不懂，并不是外界的误读，而是星动纪元的认知使然，业内还在炫DEMO翻跟头的时候，其灵巧手已经成为海外追捧的产品，但这件事在国内鲜少有人了解；当更小尺寸的人形机器人以灵活姿态踹开表演大门时，星动纪元又在专研全尺寸双足大人形，并致力于在真实场景中当个厂工，看起来没有跳舞那么炫酷但却是实打实的提质增效；当模型厂商斩获大额融资时，星动纪元虽然没掉队，但又不声不响去挑战最高赛事，好像丝毫不顾及如果失败了，投资人该怎么看。

你看，这些所谓的和产业不同频其实是有一条主线的：星动纪元始终在围绕生产力深耕，且主动屏蔽了噪音。

是的，并不是碍于客观因素制约让星动纪元不同频，而是其主动选择了一条人迹罕至的路。

在产业早期就死磕五指灵巧手，让星动纪元的操作能力跳出简单的“抓取&放置”演示，真正去做些复杂任务；而大人形虽然难落地看起来也不讨巧，但其能无缝融入到生产环境中，更不用说星动纪元用大人形还完成了难度更高的“舞剑”；参加最难模型比赛，通过三块金牌检验了其模型能在柔性、高精度的复杂操作能力。

再举个更具体的两件事情：其一，今年2月陈建宇团队联合斯坦福 Chelsea Finn 团队（PI 联合创始人）研发的Ctrl-World 可控生成世界模型，在全球具身智能顶级世界模型权威评测World Arena榜单中，具身任务能力全球第一、一举击败谷歌、英伟达等国际顶尖模型，且在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度全部登顶。

其二，星动纪元具身大脑ERA-42已在物流、制造、商业服务等多个领域落地，形成了“场景越丰富，模型越智能” 的正向循环。在物流领域，可自主完成不同形状、不同颜色、不同材质、不同大小药品、日化品、包裹、药品、日化品的分拣及扫码，效率已达人工效率80%以上；在制造领域，重点突破 “零部件抓取 - 高精度装配 - 质量检测” 等场景任务；在商业服务领域，可完成门店客座清洁、物品递送、导游导览等。其中，部分场景效率当前达到70%。

这表明，星动纪元已经不是第一次在国际赛事中摘得桂冠，“搞点最难的”一直是这家低调企业的基因，让更前沿的技术在场景中释放生产价值，是这家企业的主旋律。

读懂了这些抉择，就读懂了星动纪元，也能从中窥见抛开情绪资本、外部噪音后具身智能真实的模样。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.