网易首页 > 网易号 > 正文 申请入驻

登顶多项权威基准测试,这家公司将他们的具身智能模型开源

0
分享至

机器人正在我们的日常中频繁出没。送外卖、做咖啡、接商演……但不出意外,它们在提供服务的同时,也会随机“赠送”笑料。

酒店里送餐的机器人坐电梯为了站中间,不惜碾过乘客的脚;做咖啡时,只管拉花,不顾杯子里的咖啡洒没了多少;机器人足球赛上,两方“队伍”在传球和射门之间,选择叠罗汉式摔倒。

你肯定有过疑问,为什么有些时候机器人行云流水,有些时候却笨拙得不可理喻?

事实是,在一些论文和公开实验中,机器人操作精细或复杂的任务时成功率并不高。即便简单如“抓取”,也会受制于几何多样性和复杂的物理环境,成功率“五五开”。

最近,在最新的 SimplerEnv 基准测试中,一家中国的具身智能企业“深度机智”研发的具身智能模型跑出了 80.2% 的平均成功率,超越了“行业标杆” Pi0.5 ( 57.1%),达到行业 SOTA。模型能力突破的关键是这家公司在单单“模仿动作”之外,为具身智能找到另外一条通往“通用性”的道路。

机器人“认死理”

要是你在电梯里被“横冲直撞”的机器人踩到脚,不免脱口而出,真是典型的“一根筋”!作为人类,挺容易理解这个词。它通常指不善变通,认死理,一条道跑到黑。放到机器人的语境下,它有一个专业表达,“泛化”。机器人泛化程度的高低决定了它如何应对从未见过的那些情况。

莫拉维克悖论,人工智能领域公认的一个观察,经过数亿年的自然选择,人类的大脑发育出了一套极其高效的物理引擎和模式识别系统(比如行走、感知、常识判断),这些功能被固化在了大脑最古老的区域。而我们称之为推理、逻辑、抽象的那些刻意思考过程,其实依赖大量无意识的感知预设。

为了让机器人直接跳过“本能进化”这一漫长的演化过程。人类要么搭建“高精度版《模拟人生》”——1:1还原物理定律的虚拟世界,让机器人在里面进行千万次的强化学习。要么穿上传感设备,让机器人像“提线木偶”般模拟出每一个动作。一大把机器人因此有了不错的运动控制,尤其在下肢。

但是“速成”的机器人其实如还未开智的人类孩童一般,往往将死记硬背误以为真的懂了。本质上还是因为机器人学到的是统计相关性,而非物理因果性。机器人是个“熟练工”,可它出不出洋相取决于之前人类“教没教过”,要是题目超纲,那可就是人类的不懂事儿了。

你得先把人类看不上的常识装进机器人的大脑

人类孩童在成长过程中会逐渐编织好一张致密的常识网络。然而,机器人每一次与物理世界的接触,都要重新建构一条统计学逻辑链。

打个比方,机器人很像一个讨巧的“考试型”学生。它一般在上场前得临阵磨枪一番。真正阻碍它成为“全科通才”的原因是,训练数据的稀缺和匮乏。

目前训练机器人,主要靠仿真和遥操作真机采集两种方式得来的数据。但是它们各自面临困境。仿真环境的物理引擎往往过于“洁癖”,难以完美复刻现实中复杂的摩擦力、物体的形变或是光影的乱跳。用于训练真实场景里的机器人,仿真数据得做合格筛选。真机采集固然真实,却面临扩展性瓶颈,每一秒人类操作员的示范都意味着实打实的机械投入和损耗。

于是从去年起,国内外的一些公司开始探讨其他数据采集策略。

今年2月英伟达发布构建了名为 DreamDojo-HV(Human Videos)的数据集,包含44711小时的第一人称视角视频。特斯拉在去年 5 月也称正在把 Optimus 的训练从传统的动作捕捉和遥操作转向纯视觉的视频学习,当前也聚焦在第一视角。深度机智也在去年发布论文成果,他们构建了人类第一视角视频的数据集,并在此基础上训练了一个具身大脑,PhysBrain。


深度机智数采设备

国内外的团队目标大致相同,训练机器人“学会”如人类一般对物理世界进行理解和交互,以此获得物理智能和泛化能力的提升。

在语言智能领域,Scaling Laws 已经是一个被广泛接受的共识。但是在机器人领域,这一规律一直未能建立。直到去年 11 月,Generalist AI(由前 DeepMind 高级研究员创办)基于27万小时人类操作真实物理世界任务的视频做预训练,在其机器人基础模型 GEN-0 身上观察到了可量化的 Scaling Law(扩展定律)。


图源 Generalist AI

从时间点上来看,甚至先于 Generalist AI 证明具身智能的 Scaling Law 更早,深度机智就笃定,人类数据在数据采集上最有可能规模化,“第一视角之下“同时蕴含最为直观的物理直觉。

深度机智成立于去年5月,由北京中关村学院、中关村人工智能研究院共同孵化。创始人陈凯作为北京中关村学院导师,中关村人工智能研究院研究员,曾任微软亚洲研究院首席研究员,一直深耕在人工智能前沿研究。

陈凯与公司 CEO 张翼博同为中科大少年班学院校友,也是大学室友。张翼博是AI for Science领域专家,其一作研究成果曾被Nature子刊录用,并被中科院首页报道,在基础科学与人工智能交叉领域有着深厚积累。

2024年,由于智能眼镜等AI硬件的密集入场,让陈凯敏锐捕捉到人类第一视角数据将迎来爆发,于是下场创业。

今天无论是英伟达、特斯拉,Figure AI 这些耳熟能详的名字,或者国内外的新起之秀,越来越多押注到“用人类数据去增强模型的物理直觉”这条数据策略。这验证了深度机智的判断正确。

如何将物理常识提取,结构成机器能读懂的形式?“数据标注”是深度机智自研的数据处理管线中最为关键的一环。例如一个拿苹果的动作会被拆解成时间关系、空间关系、物体属性、力学信息、目的推理、动作总结、轨迹描述这些7个维度。

那么模型因此“理解”物理世界了吗?

他们观察到了一个有意思的现象,在一个胡萝卜抓取任务中自发“涌现”出变通与纠错的能力。(在微调数据全是夹取成功案例的情况下),机械臂在触碰到胡萝卜时,自发了“推”的动作,试图把胡萝卜推进盘子,推了两次,但尝试无果,最后还是通过夹取完成了任务。

“预编程都搞不出这种灵活性”,陈凯说道。

头脑发达,四肢才不简单

这两年的机器人,但凡外形能看出来像个人,你会发现它们下肢的运动表现远远好于上肢”。但是无论机器人是进工厂还是养老院,它们必须依靠上肢劳作——我们生活的日常环境,至少是现在,都是为了“人”设计。

“机器人必须像人吗?”关于这个疑问有林林总总的讨论。“不必要”,答案来自构型千奇百怪的机器“人”,它们针对特定场景任务的效率提升被开发出来。陈凯认为,当机器人大脑(也就是基座模型)足够聪明之后,任何长尾状况便能靠它自身的泛化能力去解决。至少,这为还在“循序渐进”一个个解锁任务的机器人,提供了另一个“进化思路”。

在今天的中关村论坛上,深度机智将其新训练出的基座模型 PhysBrain 开源。行业做法只是开源模型,但是此次深度机智也将数据集一并开源,并公布了模型架构和训练方法。


传统 VLA 训练有个问题,具体任务微调会导致模型通用性变差。当基座模型不够聪明,而又过于追求某个任务的成功率,调整神经元权重会导致坏结果,模型的特征表示从“理解物理世界”坍缩到了“记忆这几个动作序列”。深度机智设计了全新 TwinBrainVLA “双脑融合” 架构,用大白话说就是,左(理解世界)右(感知和执行)脑各干各的,必要时再通个气儿。

自动驾驶“抬头”错以为黄灯是月亮,机器人一看到毛茸茸就以为是软的。也就是说,如果数据中存在一些“非本质”的规律,机器人会迅速将其视为真理,跳过理解物理规律和操作逻辑。这也称为,“视觉捷径”。

视觉捷径不仅让机器人更迷糊,也更“偷懒”了。一旦把它常见的蓝杯子换成红的,就不“认识”杯子了。还有,机器人经常跳过语言指令,过于依靠视觉画面做动作,可一旦视觉画面嘈杂起来,它可能会将无关像素的移动与自己的任务关联起来。

因此他们同时在模型训练中创新性加入 LangForce 策略,打破“视觉捷径”,模型不是“偷懒”不听指令吗?LangForce 将听话和不听话的结果对比展示出来,并强制模型“听指令”后才执行。


以 PhysBrain 为基座、TwinBrainVLA 为架构、LangForce 为策略,PhysBrain 1.0 模型仅用千小时公开的人类数据就在最新的 SimplerEnv 测试中,跑出了 80.2% 的平均成功率,超越了行业标杆 Pi0.5 ( 57.1%),达到行业SOTA。而传统 VLA 想要达到如此性能跨越需要用数万小时真机数据的堆砌。同时在 RoboCasa 等国际权威测试中也登顶。


深度机智也首次对外展示了一台全尺寸工业级拟人体机器人Prime。因为一开始对具身智能“通用性”的判断和笃定,手部具备20个自由度,能实现毫米级精细化操作。

如果这两年你参观过大大小小的机器人展会,不免嘲笑过那些“累瘫了”(续航和散热跟不上高频率的动作幅度)的硅基生物。

值得一提的是,团队设计 Prime 时在关键的关节处引入了工业机型常用的自锁设计,让机器人实现不通电站立。好处是降低功耗,拉长机器人真正作业的时间。


图说,机器人实际作业时,高负载下的姿态保持往往比动态运动更具挑战,因为通电产生扭矩以抵消重力负载时,电能并未转化为机械动能,而是几乎全部转化为热能,耗电同时更会导致电机过热,造成系统失稳

在拥有了拟人的大脑和身躯之后,这下好了,就连人类假装上班这一招儿,也是被它们学去了。

作者:马文

编辑:普通酱

配图无特殊说明都来自深度机智

点个“小爱心”吧


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
学生饮水收费500毫升0.225元 校方:费用由第三方公司收取 教育局:严禁饮水收费

学生饮水收费500毫升0.225元 校方:费用由第三方公司收取 教育局:严禁饮水收费

闪电新闻
2026-03-27 09:41:59
56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

老猫观点
2026-03-19 08:35:09
20人的山东“老头乐”小厂,给小米汽车上了一课?

20人的山东“老头乐”小厂,给小米汽车上了一课?

道哥说车
2026-03-27 09:54:47
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

李橑在北漂
2026-03-25 23:30:59
8天狂轰12亿票房,沈腾吴京加起来都打不过,2026年度大黑马诞生

8天狂轰12亿票房,沈腾吴京加起来都打不过,2026年度大黑马诞生

卷史
2026-03-27 14:07:26
人到老年才知道,增加骨密度最好的运动,竟然不是跑步和走路

人到老年才知道,增加骨密度最好的运动,竟然不是跑步和走路

坠入二次元的海洋
2026-03-17 10:25:30
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
李鑫养家豪宅亮相,三层别墅装潢奢华,养家哥哥晒弟媳侄子正面照

李鑫养家豪宅亮相,三层别墅装潢奢华,养家哥哥晒弟媳侄子正面照

花小猫的美食日常
2026-03-28 07:58:40
标价 3800 万!阿森纳突袭皇马巨星,这波堪称超级捡漏

标价 3800 万!阿森纳突袭皇马巨星,这波堪称超级捡漏

奶盖熊本熊
2026-03-28 04:53:05
突然爆火,一天一个价!福州市场价格普遍上涨2~3倍!网友:赶紧回家看看……

突然爆火,一天一个价!福州市场价格普遍上涨2~3倍!网友:赶紧回家看看……

环球网资讯
2026-03-26 14:44:06
心如死灰!一乳腺癌患者哭诉抗癌1年,在丈夫外套翻出他达拉非…

心如死灰!一乳腺癌患者哭诉抗癌1年,在丈夫外套翻出他达拉非…

火山詩话
2026-03-27 06:26:22
张凌赫说自己有容貌焦虑,觉得自己发际线太高,普通人直呼受不了

张凌赫说自己有容貌焦虑,觉得自己发际线太高,普通人直呼受不了

情感大头说说
2026-03-28 06:49:01
医生再三告知:老人同房时,需要注意6件事,不然可能麻烦就大了

医生再三告知:老人同房时,需要注意6件事,不然可能麻烦就大了

路医生健康科普
2026-03-21 15:43:25
太扎心!曼联 8500 万锋霸遭巴萨看扁:实力不够,不配来诺坎普

太扎心!曼联 8500 万锋霸遭巴萨看扁:实力不够,不配来诺坎普

澜归序
2026-03-27 06:04:12
苹果用户7年不换机,电池崩了后ChatGPT给了个反常识解法

苹果用户7年不换机,电池崩了后ChatGPT给了个反常识解法

硬核玩家2哈
2026-03-26 14:27:05
现货黄金价格深夜再度跳水,一度跌逾3%!金价为何“上蹿下跳”?

现货黄金价格深夜再度跳水,一度跌逾3%!金价为何“上蹿下跳”?

澎湃新闻
2026-03-27 09:10:27
伊朗称布什尔核电站第三次遭袭 未造成人员和设施损失

伊朗称布什尔核电站第三次遭袭 未造成人员和设施损失

财联社
2026-03-28 06:34:42
绝了!阿森纳因祸得福!埃泽伤缺,塔帅激活新版皮雷破局

绝了!阿森纳因祸得福!埃泽伤缺,塔帅激活新版皮雷破局

奶盖熊本熊
2026-03-28 05:31:14
新婚13天,她被丈夫砍断手指,虐待到终生不孕,葬送了大好星途

新婚13天,她被丈夫砍断手指,虐待到终生不孕,葬送了大好星途

往史过眼云烟
2026-03-13 10:43:13
本菲卡才是心头爱,穆帅拒绝纽卡邀约,重演当年“弃皇马”的忠诚

本菲卡才是心头爱,穆帅拒绝纽卡邀约,重演当年“弃皇马”的忠诚

穆里尼奥主义者
2026-03-27 21:48:25
2026-03-28 09:52:49
果壳 incentive-icons
果壳
科技有意思
27409文章数 4149216关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

现役军官带刀闯中使馆日方仅表示"遗憾" 高市没反应

头条要闻

现役军官带刀闯中使馆日方仅表示"遗憾" 高市没反应

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

游戏
教育
房产
数码
亲子

传《塞尔达传说:时之笛》重制版开发中 下半年发售

教育要闻

“考研6年,输给一条黑裤袜”,女大学生啃老式考研,被嘲研王爷

房产要闻

6.8万方!天河员村再征地,金融城西区开发全面提速

数码要闻

长城X系列电源上新!1000/1200W仅售699/799元

亲子要闻

夫妻生孩子的核心目的就是生孩子

无障碍浏览 进入关怀版