- 在机器人技术的发展进程中,一个长期困扰研究人员的瓶颈始终存在:可用于训练的有效数据极为稀缺。
- 不同于像ChatGPT这样只需文本输入即可运行的语言模型,机器人必须亲自动手完成物理世界中的任务——比如推开一扇门、旋紧螺栓,或是收拾凌乱的桌面物品。
- 每一次操作尝试都伴随着潜在的风险与不确定性,可能出现碰撞、延迟甚至失败,使得高质量数据的获取过程既耗时又昂贵。
- 更棘手的是,多数机器人行为高度依赖具体环境条件;一旦更换光照环境或使用不同工具,系统往往无法适应,直接导致性能骤降。
![]()
- 正因如此,当前公开可用的机器人操作数据集普遍规模较小,能够覆盖百万级交互样本的数据资源寥寥无几。
- 然而,这一局面近期被一家来自中国的前沿科技团队彻底改写。
- 中科第五纪正式推出其最新一代具身智能基础模型 FAM-1,仅需提供 3 至 5 次示范演示,便能让机器人掌握一项全新任务,执行成功率高达 97%。
![]()
- 举例来说,以往要教会机器人“将钉子敲入木块”,通常需要数百次重复演示;
- 而现在,人类操作者只需示范三次,机器人即可精准模仿动作流程,并在光线变化、背景杂乱等干扰条件下依然保持稳定输出。
- 该成果在 CVPR 2025 具身智能操作挑战赛中脱颖而出,力压微软、MIT 等国际顶尖研究团队,斩获全球第一名。
![]()
- 值得注意的是,FAM-1 的核心技术路径并非依赖大规模数据堆叠,而是采用了一种“知识蒸馏”的创新思路。
- 研发团队设计出名为 BridgeVLA 的新型架构,成功将原本用于图像和语言理解的大模型能力迁移到机器人控制任务中。
- 这意味着机器人不仅能准确解析自然语言指令(如“把蓝色方块放进收纳盒”),还能同步在三维空间内规划精确的动作路径——如同人类大脑协调听觉与肢体运动般流畅自然。
![]()
- FAM-1 是如何实现从极少量样本中快速学习的?
- 传统机器人学习为何依赖海量数据?根源在于信息表达方式的局限性。
- 大多数现有方法会把丰富的三维空间信息(包括深度、距离、方位)压缩为单一维度的向量表示,造成环境感知失真。
- 这就像一个人未佩戴矫正眼镜,只能模糊判断物体位置,在拿取水杯时极易碰倒。FAM-1 的应对策略非常清晰:全程保留三维结构化表征。
- 它利用热力图技术建模空间关系,使机器人对每个动作的目标位置、施力方向与接触力度都有清晰的空间认知。
![]()
- 另一项核心突破是跨域知识迁移机制。团队充分利用互联网上庞大的公开图像与视频资源,预先训练模型掌握物理世界的常识规律——例如“玻璃制品易碎”“抽屉应向外拉动才能打开”。
- 这些看似间接的知识实际上极大增强了机器人的推理能力。
- 即便面对从未接触过的门把手类型,机器人也能基于“旋转开启”的通用逻辑自主推导出正确操作方式。这种机制显著降低了对特定任务标注数据的需求,甚至支持从人类日常操作视频中进行无监督策略学习(相关研究成果已被 ICCV 2025 接收)。
![]()
- 实验证据充分验证了模型卓越的泛化性能:在标准 RLBench 测试平台上,FAM-1 在“插入圆柱体”“开关橱柜门”等多项任务中的平均成功率较此前最优模型提升超过 30%;
- 在真实机械臂部署测试中,即使遭遇动态照明变化、部分遮挡等复杂工况,仍能维持 97% 的高成功率。
- 有权威专家评论称:“这项进展标志着具身智能正从实验室演示阶段迈向实际工业应用的关键转折点。”
![]()
- 当然,技术上的飞跃仅仅是起点。
- 中科第五纪已明确下一步战略方向:推动 FAM-1 在智能制造产线、家庭服务机器人等现实场景中的规模化落地。
- 可以预见,未来的工厂机械臂无需针对每款新产品重新编程,只需观看几次人工演示即可立即投入作业;家用机器人也不会因为家具布局调整而陷入瘫痪状态。
- 毋庸置疑,当机器人真正具备“观人行事、触类旁通”的学习能力,人类距离实现高效、自然的人机协同时代也就更进一步。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.