在米逊区一扇不起眼的金属门后,仅用“π”符号标记,一家新的机器人初创公司正在朝着硅谷最雄心勃勃的目标之一迈进:赋予机器像人类一样可靠地学习物理任务的能力。
这个仓库属于物理智能公司(PI),该公司结合了机器人技术和先进的人工智能训练方法,以改善机器处理现实世界操作的能力。在里面,工人和机器在拥挤的车间里快速移动。
一名技术人员使用两个操纵杆远程操作小型机器人手臂折叠T恤。更大的机器人在箱子之间移动杂货。另一名工人测试一款装有网络摄像头的腕部夹具。未完成的机器人部件几乎覆盖了所有表面。
教会类人机器人大脑
这家年轻的初创公司迅速成为这个领域最受瞩目的公司之一。上周,PI宣布已从包括OpenAI和亚马逊创始人杰夫·贝索斯在内的投资者那里筹集了4亿美元,估值超过20亿美金。
虽然许多人工智能系统在数字任务上表现出色,但机器人学习在可靠性方面仍然存在挑战。大多数系统通过人类示范学习,就像观察一个盒子是怎么折叠的,或者一杯浓缩咖啡是怎么做的。
但这种方法在机器人偏离演示时往往会出现问题,导致小错误不断累积,最终导致任务失败。
PI表示它开发了一种旨在克服该问题的方法。该公司称这种技术为Recap,意为‘通过优势条件策略进行经验和修正的强化学习’。
它的设计目的是让机器人像人类一样学习:先接受指令,再进行纠正,最后独立练习。
在最近的Recap测试中,PI训练了其视觉语言动作模型的新版本,称为π*0.6,来执行折叠衣物、组装运输箱和制作浓缩咖啡等任务。
根据公司所述,在某些任务上的表现翻倍,失败率下降了超过一半。该系统能够连续一天制作咖啡,在家庭环境中折叠衣物数小时,并以与工厂相关的速度组装包装箱。
研究人员表示,可靠性差距,即部分成功与近乎完美执行之间的差异,是阻碍机器人在仓库、厨房和制造车间大规模运作的主要障碍之一。
这个困难源于物理互动:当机器人抓手偏离目标即使只有几毫米,导致的错位会产生机器人在训练数据中从未见过的情况。
洗衣服、做咖啡、点蜡烛
Recap试图通过引入两个额外的数据流来纠正这一点,超出演示的范围。首先,当机器人开始失败时,人类操作员会介入,提供纠正措施,教系统如何纠正错误。
其次,机器人通过强化学习评估自己的表现,将导致成功或失败的行为归功或归咎于自己。
该模型使用“价值函数”来确定哪些动作改善了其完成任务的进展,即使这种效果可能要到后面才能显现。
PI指出,这一过程使机器人能够从不完美的经验中学习,而不是把它们抛弃,从而使系统能够获取比仅靠手动演示提供的训练数据多得多的数据。
该公司认为,这种自主学习对扩大人工智能驱动的劳动力将是非常重要的。
目前,PI 在一系列需要灵巧性、时机把握和物体理解的家庭和工业任务上训练其模型。折叠衣物需要在不同面料和形状之间进行归纳。组装盒子则需要精确的顺序和反复执行。
制作浓缩咖啡是最复杂的任务之一,它结合了机器人操作与长时间的操作,例如研磨咖啡、操作机器和清洁设备。
“指导决定了行为,辅导提升了行为。实践使其完美,”该公司在其研究摘要中写道。他们的支持者们相信这个公式能推动机器人技术实现一个长期以来的突破:能够可靠地学习现实世界任务并被信任的机器。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.