网易首页 > 网易号 > 正文 申请入驻

Figure亮出底牌了

0
分享至

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|Figure

2月21日凌晨,Brett Adcock在X上发布了Figure“历史上最重大的人工智能更新”——Helix。

这是Figure与OpenAI终止战略合作后核心技术成果的首次展示,半个月前,Brett Adcock即预告过这项“人形机器人上前所未有的技术”。

Helix是一种用于通用人形机器人控制的“视觉-语言-动作”(VLA)模型,能够将感知、语言理解和学习控制统一起来,这意味着对机器人技术领域多项长期挑战的克服。

根据官网消息,Helix实现了一系列首创,包括整个上身控制、多机器人协作、拿起任何东西(即使是从未见过的东西)、同一神经网络、已做好商业准备等创新点。

在官方发布的视频中,实验人完全使用语言交流控制,从纸袋中拿出了机器人第一次见的物品,要求机器人通过思考,把眼睛所看到的东西归置到它们应该在的位置,并且要求两个机器人共同协作去放好。

随后,从视频中看来,两个机器人(左A右B)通过识别、推理,机器人分别打开了抽屉柜和冰箱,机器人A将密封物品放进了抽屉柜,机器人B将需要保鲜的物品放进了冰箱。接着,机器人A又将看起来需要保鲜的食物递给机器人B,机器人B接过食物,看了看机器人A,又看了看手中的食物,转手丝滑地放进了冰箱。稍后还有机器人B将物品交给机器人A归置到抽屉柜以及协作将苹果放进左下角黑色圆盘的操作。

也就是说,Helix 是第一款对整个人形上身(包括手腕、躯干、头部和各个手指)进行高速率连续控制的 VLA,可以同时在两个机器人上运行,使它们能够使用从未见过的物品解决共享的、远程操作任务,配备了 Helix 的 Figure 机器人只需按照自然语言提示,就能拿起几乎任何小型家居物品,包括数千种它们从未遇到过的物品。

并且,与之前的方法不同,Helix 使用一组神经网络权重来学习所有行为(如挑选和放置物品、使用抽屉和冰箱以及跨机器人交互),而无需任何针对特定任务的微调。由于是第一款完全在嵌入式低功耗 GPU 上运行的 VLA,它还能够迅速实现商业化。

事实上,去年1月,Figure和宝马就建立了合作关系,宝马在其位于南卡罗来纳州的工厂部署了Figure机器人,人们对人形机器人进入家庭解放双手的期待不断高涨。

听起来简单,但却是机器人技术面临的一大挑战。与受控的工业环境不同,家里堆满了无数的物品——精致的玻璃器皿、皱巴巴的衣服、散落的玩具——每件物品都有不可预测的形状、大小、颜色和纹理。为了让机器人在家庭中发挥作用,它们需要能够按需产生智能的新行为,尤其是对它们从未见过的物体。

对于这个难题,以往的机器人技术有两种解决方案:要么通过N小时的博士级专家手动编程来教机器人一种新行为,要么是N千次演示。然而,家庭问题的样本变化多端,这两种方法的成本都太高了。

Figure大方介绍了自己的模型思考原点。即:如果能简单地将视觉语言模型 (VLM) 中捕获的丰富语义知识直接转化为机器人动作,这种新功能将从根本上改变机器人的扩展轨迹(如下图所示),曾经需要数百次演示的新技能只需用自然语言与机器人交谈即可立即获得。

不过,关键问题在于:如何从 VLM 中提取所有这些常识性知识并将其转化为可泛化的机器人控制?这就涉及到了Figure的突破——Helix。

过去的方法面临着一个根本性的权衡:VLM 主干是通用的,但速度不快,而机器人视觉运动策略是快的,但不通用。Helix 通过两个互补的系统解决了这一权衡,即“系统 1、系统 2”VLA 模型,这两个系统经过端到端的训练,可以进行通信:

系统 2 (S2):一个机载互联网预训练的 VLM,以 7-9 Hz 的频率运行,用于场景理解和语言理解,从而实现跨对象和上下文的广泛概括。

系统 1 (S1):一种快速反应的视觉运动策略,将 S2 产生的潜在语义表征转化为 200 Hz 的精确连续机器人动作。

这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以“慢慢思考”高级目标,而 S1 可以“快速思考”以实时执行和调整动作。例如,在协作行为期间,S1 可以快速适应伙伴机器人不断变化的动作,同时保持 S2 的语义目标。

总结Helix 技术上的创新点就是:

速度和泛化:Helix 匹配专门的单任务行为克隆策略的速度,同时将零样本推广到数千个新颖的测试对象。

可扩展性:Helix 直接输出高维动作空间的连续控制,避免了先前 VLA 方法中使用的复杂动作标记方案,这些方案在低维控制设置(例如二值化并行夹持器)中已取得一些成功,但在高维人形控制中面临扩展挑战。

架构简单:Helix 使用标准架构 - 用于系统 2 的开源、开放权重 VLM 和用于 S1 的简单的基于变压器的视觉运动策略。

关注点分离:将 S1 和 S2 解耦,我们可以分别在每个系统上进行迭代,而不受寻找统一的观察空间或动作表示的限制。

具体来说,Helix能够控制从单个手指运动到末端执行器轨迹、头部注视和躯干姿势等一切。视频演示中,机器人用头部平稳地跟踪双手,同时调整躯干以获得最佳触及范围,同时保持精确的手指控制以进行抓握。

从机器人技术更迭历史看,在如此高维的动作空间中实现这种精度水平被认为是极具挑战性的,即使对于单个已知任务也相当困难,因为一般来说,当头部和躯干移动时,它们会改变机器人可以触及的范围和可以看到的范围,从而产生反馈循环,而这种反馈循环在过去会导致不稳定。之前没有 VLA 系统能够展示这种程度的实时协调,同时保持跨任务和对象泛化的能力。

两个 Figure 机器人之间的协作零样本杂货存储的过程中,机器人成功地操作了全新的杂货(训练期间从未遇到过的物品),展示了对各种形状、大小和材料的稳健泛化。此外,两个机器人都使用相同的 Helix 模型权重进行操作,无需进行针对机器人的训练或明确的角色分配。它们通过自然语言提示实现协调,例如“将一袋饼干递给你右边的机器人”或“从你左边的机器人那里接过一袋饼干并将其放在打开的抽屉里”。

并且,通过简单的“拾起 [X]”命令拾起任何小型家用物品。在系统测试中,机器人成功处理了杂乱无章的数千件新物品(从玻璃器皿和玩具到工具和衣物),无需任何事先演示或自定义编程。

尤其值得注意的是,Helix 一定程度上弥补了互联网规模语言理解与精确机器人控制之间的差距。例如,当被要求“捡起沙漠物品”时,Helix 不仅能识别出玩具仙人掌符合这一抽象概念,还能选择最近的手并执行安全抓住它所需的精确运动命令。

不仅如此,从训练成本来看,Figure总共使用约 500 小时的高质量监督数据来训练 Helix,这仅仅是之前收集的 VLA 数据集的一小部分(<5%),并且不依赖于多机器人化身收集或多个训练阶段。而且,Helix 仅使用一个统一的模型就实现了不同任务的强大性能。仅使用一组神经网络权重(系统 2 为 7B,系统 1 为 80M),Helix 就可以在各种容器中拾取和放置物品、操作抽屉和冰箱、协调灵巧的多机器人交接,并操纵数千个新物体。

OODA首席技术官Bob Gourley对Helix 赞不绝口。

Gab AI的CEOAndrew Torba更是将 Helix 和 Grok3的发布相提并论,认为“未来就在这里”。

Helix的发布很快吸引了投资人的关注,香蕉资本的Turner Novak随即在推特发文问:“多久之后Figure机器人才能实现自我建造?”

Brett Adcock也很快作出了回应,表示今年即将实现大批量生产,用机器人制造机器人,认为这将是“世界上最重要的资产”。

Figure 显然在扩展人形机器人行为方面迈出了变革性的一步。

不过,Figure相当谦虚:“这些早期成果确实令人兴奋,但我们认为它们只是触及了可能性的表面。我们迫切希望看到当我们将 Helix 扩大 1,000 倍甚至更多时会发生什么。”

让我们共同期待。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:33:07
为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

侃神评故事
2026-03-10 18:50:04
4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

4.0 英寸 4050mAh 还有实体键盘!这绝对是今年最酷的新机了

科技狐
2026-03-25 22:34:58
伊朗挂断王毅电话后发全球照会,萨勒曼震怒

伊朗挂断王毅电话后发全球照会,萨勒曼震怒

空间展示知识
2026-03-26 07:06:58
张凌赫和田曦薇,谢谢你俩让我看到了真人秀有多假

张凌赫和田曦薇,谢谢你俩让我看到了真人秀有多假

草莓解说体育
2026-03-26 14:17:01
加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

篮球资讯达人
2026-03-26 15:28:40
新华社消息|覆盖全民!我国加快建立长期护理保险制度

新华社消息|覆盖全民!我国加快建立长期护理保险制度

新华社
2026-03-25 23:15:12
好辣眼睛!黄多多穿三点式泳装,20岁身材矮小,在国外思想开放

好辣眼睛!黄多多穿三点式泳装,20岁身材矮小,在国外思想开放

章眽八卦
2026-03-26 13:22:27
炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

澜归序
2026-03-26 06:08:07
面相这东西真藏不住,停播一个半月的李亚鹏,

面相这东西真藏不住,停播一个半月的李亚鹏,

小光侃娱乐
2026-03-26 16:05:08
押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

小舟谈历史
2026-03-25 06:28:02
发生了什么?午后,沪指再度失守3900点

发生了什么?午后,沪指再度失守3900点

每经牛眼
2026-03-26 15:25:31
李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

离离言几许
2026-03-26 12:11:37
俄警告绝非空言:暗杀伊朗领导人,正在打开中东战乱的潘多拉魔盒

俄警告绝非空言:暗杀伊朗领导人,正在打开中东战乱的潘多拉魔盒

华人星光
2026-03-24 11:45:23
鹅蛋营养价值惊人,发现:常吃鹅蛋的人,不用多久,或有4个改善

鹅蛋营养价值惊人,发现:常吃鹅蛋的人,不用多久,或有4个改善

垚垚分享健康
2026-03-23 17:30:11
000968,午后垂直涨停!油气概念股,集体异动!

000968,午后垂直涨停!油气概念股,集体异动!

证券时报e公司
2026-03-26 16:05:07
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

芳芳历史烩
2026-03-25 22:24:25
张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

谈史论天地
2026-03-25 07:26:54
2026-03-26 17:56:49
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
25980文章数 687624关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
亲子
家居
本地
公开课

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版