当地时间2025年2月20日,人形机器人公司Figure宣布推出自主研发的通用视觉—语言—动作(VLA)大模型Helix。这一模型在性能、架构及训练效率上实现多项突破,首次展示了两台机器人协同完成复杂操作任务的能力,并大幅降低训练数据需求,为具身智能的商业化落地提供新方向。
一、双系统架构实现高速与泛化协调
Helix采用“系统1(S1)”与“系统2(S2)”的双层解耦架构,解决了传统机器人模型在速度与通用性之间的权衡问题。S1作为高速反应式视觉运动策略,以200赫兹的频率将S2的语义分析结果转化为精确的连续动作;S2则基于互联网预训练的视觉语言模型(VLM),以7-9赫兹的频率处理场景理解和语义推理。这一分工使得Helix既能实时执行动作,又能应对复杂情境的泛化需求。
双系统架构的另一优势在于模块化迭代能力。由于S1与S2的解耦设计,二者可独立优化,无需重新调整整体模型。例如,S2采用70亿参数的开源VLM,未来可通过更换更高性能的基础模型提升整体能力;而S1的8000万参数视觉运动策略则专注于动作执行效率。这种设计显著降低了模型升级的复杂性。
对比传统分层模型,Helix通过端到端训练直接输出高维连续动作,避免了复杂的动作标记和规划流程。例如,在官方演示中,两台机器人无需预设指令即可协作完成冰箱物品收纳,展现了其对未知物体的零样本泛化能力。
二、训练效率与商业化落地能力
Helix仅需约500小时的监督数据即可完成训练,数据量仅为传统VLA模型的极小部分。其核心突破在于通过自动化标注技术生成训练指令:模型根据机器人摄像头捕捉的视频片段,反向生成对应动作的自然语言描述,从而大幅减少人工标注成本。这一方法有效解决了家庭场景下海量未知物体的泛化难题。
商业化可行性是Helix的另一亮点。该模型可在嵌入式低功耗GPU上运行,无需依赖云端算力,为家庭、仓储等场景的实时部署提供可能。此外,Helix采用单一神经网络权重集学习所有行为,包括抓取、开关抽屉、跨机器人交互等,无需针对任务微调,显著降低实际应用的开发门槛。
Figure创始人BrettAdcock表示,未来计划将Helix模型规模扩大1000倍,并加速人形机器人量产。目前,Helix已在家庭场景中验证了其处理复杂任务的能力,例如抓取仙人掌、鸡蛋等易损物品。这一进展为机器人从工业环境走向家庭服务奠定了基础。
总结:Helix的发布标志着具身智能在模型架构、数据效率和商业化路径上的重要突破。随着端到端大模型与硬件技术的深度融合,人形机器人产业的泛化能力与落地速度有望进一步提速。
本文源自:金融界
作者:观察君
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.