之前,RoboX整理出GTC一场头部人形机器人企业高层圆桌的上半部分:机器人大神圆桌(上):软硬件的「相爱相杀」,以及数据的临界探索
本场圆桌可谓阵容豪华,干货满满!如今下半部分如今也整理完毕,供大家参考。圆桌嘉宾名单如下:
- Aaron Saunders——波士顿动力CTO
- Bernt Bornich——1X创始人兼CEO
- Deepak Pathak——Skild AI的CEO兼联合创始人
- Jim Fan——英伟达首席研究科学家/高级研究经理
- Pras Velagapudi——Agility机器人 CTO
当前硬件的最大挑战
【Aaron Saunders 】-波士顿动力:
当机器人无法被准确表征,也没有经过校准,每台机器之间都会存在很大的变异性。
此时如果你只是简单地给它配上一个控制器(例如AI策略),输出就会有很大的差异性。但目前,可以通过大量的工作来最小化这种差距。我相信在这方面,Agility也有一些想法。
【Pras Velagapudi】-Agility Robotics:
是的,我认为可以将机器人投入到现实世界中进行生产,并观察其变异性,这些经验会反馈到你构建的流程中。
其中一个例子,就是Digit机器人具有完全通过学习进行的恢复行为,它们正运行在现实的生产系统上。当你在现实世界中获得经验时,会更加了解在训练流程中需要捕捉哪些关键点。
通过实际运行,我们可以加深数据多样性、域随机化和强化策略,并将这些策略迁移至刚发布的最新版Digit上。
新版机器人重了10公斤,框架也大得多。但该策略一次性就成功地转移了过来,尽管其运动学略有不同,有效载荷也更重。这是因为我们花费了大量时间强化、优化「从仿真到现实世界的转移」,真正理解了诸如足部接触等细节。
因此,我认为随着经验的积累,你会在跨实体化的过程中变得更好,而不是总需要仔细查看每个机器人的制造序列号。
【Aaron Saunders】-波士顿动力:
当你从数百台机器人增加到数千台时,你会直接面对这个问题,这不是一个选择题——当你有成千上万台机器人时,你不能为每一台单独调整软件栈,所以这是一个必须解决的问题。
【Bernt Bornich】-1X:
我同意你们俩的部份观点,尤其认同校准的重要性。但我觉得有趣的是,在进行域随机化时,实际上是在教导你的系统要保守。
这是在教系统在多变的环境中,保持安全的策略,这种方式在某种程度上掩盖了系统的动力学特性,所以这一切都取决于你想实现的目标。
如果进行域随机化,你会得到一个非常稳健的系统,但无法保持性能。而如果有了精准的校准,就可以从系统中获得更多,从长远来看这很重要。
目前我们正在进行一些令人兴奋的工作——将机器人的历史数据添加到模型的上下文中。对于每一个机器人个体,你都能获取该机器人的一些运行数据,并将其放入实际模型的历史上下文中,然后它会在其中学习它自身的动力学特性,这实际上效果出奇地好,这真的很酷。
【Deepak Pathak】-Skild AI:
这就是我们所说的RMA(Rapid Motor Adaptation),即快速运动适应。这个想法的核心是,你无法在不同版本之间更改你的模型,这是一个大问题,因为世界上不会只有一家机器人公司或一种机器人。
对于每一个应用,虽然有多种GPU及其创造的生态系统,但CUDA层将你从直接处理硬件的复杂性中抽离出来,对操作系统也是如此。
那么,当谈到解决机器人技术的问题时,什么才是与之等效的东西呢?这里我有一个稍微不同的观点——
在其他领域,无论是视觉还是语言,我们都从硬件中抽象出来。如果一家新公司(例如AMD)想要进入市场,他们必须确保其他人可以无缝地在其GPU上运行英伟达的代码。这是他们的责任,而非软件的责任。
对于机器人来说,我们不应该构建一个只适用于特定机器人的大脑,而是应该适应不同机器人。
人类大脑拥有的不是一个能做很多事的系统,而是一个学习引擎,它可以实时学习和适应。在机器人领域,我们将部署的是这些小型的学习引擎,这将是机器人与AI其他领域之间的主要区别。
【Bernt Bornich】-1X:
我认为这种区别最终会消失。
我们经常问AI能为机器人做什么,但很少反过来问机器人能为AI做什么。因为在实际操作中获取的数据,当你有一个假设,采取行动,观察结果,并从中学习,这才是真正的学习方式。
最近我们看到推理模型在数学和编程方面表现出色,因为这些都是可验证的,而机器人可以让你在所有事情上都做到这一点。
【Deepak Pathak】-Skild AI:
另一个例子是幻觉,这是LLM中的一个大问题。可是,机器人不会产生幻觉,因为它们是通过交互来学习的,如果一个瓶子推至桌子边缘,它会掉落,我可以看见,不需要猜测。因此,交互、互动是幻觉的敌人。一旦开始互动,幻觉就会消失。
【Pras Velagapudi】- Agility Robotics:
抱歉,我认为机器人还会有幻觉,只不过表现形式不同——它表现为机器人预期结果与现实世界发生的情况之间的偏差。
就像代码生成幻觉在不编译时可以验证一样,这种情况也可以验证。但它会表现为机器人执行一条不可行的轨迹,或生成错误的结果。
【Deepak Pathak】-Skild AI:
我的意思是,由于可以互动,这些问题是可以解决的。但如果没有互动的能力,那么它们永远无法被解决。
【Bernt Bornich】-1X:
实际上我有一个非常好的例子。
去年,我们遇到了「办公室里没人愿意放下马桶座圈」的问题。我们有一款早期的机器人Eve,带有轮子,非常灵活。我们让它自主进入卫生间检查马桶座是打开还是关闭状态。
这个过程中使用了GPT 4.0,结果它的判断正确率为50%,也就是说完全随机,根本无法分辨马桶座的状态。
但我们让机器人去关闭马桶座圈,这是一个自主策略。它会巡视并检查浴室,并在马桶座圈打开时将其关闭。这非常有趣,我们也因此感到很开心,这实际上是现实世界中的闭环控制。
【Pras Velagapudi】- Agility Robotics:
这就类似于在其他领域使用AI与API或编译器等交互时的闭环控制,在那里你可以发出一些结果,并通过验证阶段将信息反馈到系统的上下文中。只是在这种情况下,由于涉及到物理世界,闭环的速度会稍慢一些。
【Bernt Bornich】-1X:
没错,目前的问题是,我们虽然可以设计出像马桶座圈这样的特定事物,但还不知道如何用一套方案应对整个物理世界。
对未来2-5年的预判
【Bernt Bornich】-1X:
考虑到当前领域的进展速度,2-5年是一个相当大的范围。我会说要完全实现我们的目标,可能需要10年。
那时社会将会经历类似几百年前电力带来的变革,这是人类历史上一个有趣的时刻,届时我们可以真正专注于那些使我们成为人类的东西。
但目前没有人知道确切答案,这真的取决于社会接受机器人的速度,以及扩大制造规模的速度。我们现在正处于这样一个临界点,即它开始变得有用。
希望它不会像自动驾驶汽车那样,比预期的多花10年时间。
我确实认为在3到5年内,人形机器人将在大多数人中间普及开来,它们将成为社会的一部分,覆盖从消费者、家庭到工厂、物流等各个领域。
【Deepak Pathak】-Skild AI:
专业机器人会很快出现,而通用机器人则需要更长时间。但后者从第一天起,就会显示出其在机器人领域的价值。
【Pras Velagapudi】- Agility Robotics:
我认为挑战在于普及,这不仅仅是技术问题,还涉及到安全性、社会接受度等因素。
所以在3-5年内,我们可能会看到某些领域有更多的机器人,而在另一些领域则远少于预期。但重要的是,我们现在正见证机器人从单一用途向多用途转变的过程,也许不是通用机器人,而是多用途的。
通过新的AI平台,能够展示用一个硬件完成多件事情,我认为这是未来3到5年的关键,这种期望将成为人们努力实现的新标准。
【Aaron Saunders】-波士顿动力:
这个问题的真正难点,在于每个人的期望值并没有统一的标准。所以我通常会问的一个问题是:“我们什么时候能拥有一款像汽车对我们那样有价值的类人机器人?”我真的不知道。
汽车每天都在最极端的天气下工作,考虑到投入的材料和精力,它的成本几乎可以忽略不计。而即便是汽车本身,也无法完全比拟类人机器人可能为我们的生活带来的价值。
因此,我也认为这需要10年甚至更长时间。如果你问一位创始人,他可能会说「明年就能实现」;但如果你问技术人员,他们会说大约需要10年时间。我认为我们应该关注的,是进展的速度以及前沿阵地在哪里。
随着时间的推移,这些东西将会增长,这个领域将从分散的点逐渐连成一片——例如,Agility解决了仓库中的问题,我们有机器人进入了家庭,有的致力于汽车工厂的工作。每一个前沿阵地都会看到增长,但这不会是一蹴而就的事情。
我不认为这里有人能够预测五年后的具体情况。但我们将会见证这种增长,并且很快,所有这些成果都将开始相互重叠。
总有一天,我们会拥有自动驾驶汽车。当你回顾智能汽车的过去时,有很多关于「何时能拥有自动驾驶汽车」的预测都被证明过于乐观。
但我非常感激我的车现在具备自动车道保持辅助功能,它不会撞上前车,并防止我倒车时碰到东西。所有这些神奇的功能都源于拥有自动驾驶汽车的梦想。
顺便说一句,现在你已经可以乘坐Robotaxi了。所以是的,这花了比预期更长的时间,类人机器人的发展也将如此。
我认为只要整个行业对此充满热情,积极参与,并意识到这是一个长期的游戏,开发能够在商业环境中提供价值的专业机器人,那么在未来1到2年内我们就能够实现这一点。
Agility已经在向这一领域交付机器人了。在未来5年内,我们要让这些机器人执行10、15或20项任务。但是要解决我们想象中跨行业的所有问题,我们需要继续梦想并持续努力。
【Jim Fan】- 英伟达:
我非常赞同Deepak的观点,人们往往高估了短期内的进展,而低估了长期内的进步。所以让我将其分为短期和长期两个部分来谈谈。
我认为从技术角度来看,在接下来的2到5年内,我们将能够充分研究具身智能的规模定律。
或许在5年后或更早的时候,我们就能看到确切的数据,知道你需要购买多少GPU才能让你的机器人变得更好。所以在短期内,我们将很快以量化的方式回答这个问题。
现在让我们谈谈未来20年会发生什么。
每当我在实验室熬夜工作时,机器人总是会在做一些奇怪的事情时出故障,这让我感到非常沮丧。我会想想20年后会发生什么,然后就有力量继续前进了。20年后,有几件事情让我非常兴奋,我认为它们并不遥远。
一个是机器人技术加速科学研究:我有一些在生物医药领域的朋友,做一次实验既耗时又费力。所有的博士生都需要在实验室里照顾那些老鼠,处理那些细胞培养皿。如果我们能自动化这一切呢?自动化科学。这样可能所有的医学研究都不再需要花费数十亿美元。
它们将会被规模化,因为我们有了加速物理世界的API。也许那时会出现GR00T 10.0版本或其他类似的成果。
另一点是机器人技术自动化。为什么我们不能让机器人互相修理呢?甚至可以让它们自己组装下一代机器人。
我不认为这是科幻,因为在LLM社区中,他们已经在研究自动机器学习,即让LLM进行深入研究,找到下一个最好的Transformer,下一个最佳的智能架构。
很可能LLM会先解决这个问题,然后我们可以借鉴他们的成果,应用于物理世界。我认为这将在20年内实现。
我们出生得太晚,无法探索地球;我们又出生得太早,无法前往其他星系;但我们正好赶上了机器人技术的时代,所有会动的东西都将自动化。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.