机器人大神圆桌（下）：人形机器人，就像曾被高估的自动驾驶|类人|自动驾驶汽车

分享至

之前，RoboX整理出GTC一场头部人形机器人企业高层圆桌的上半部分：机器人大神圆桌（上）：软硬件的「相爱相杀」，以及数据的临界探索

本场圆桌可谓阵容豪华，干货满满！如今下半部分如今也整理完毕，供大家参考。圆桌嘉宾名单如下：

Aaron Saunders——波士顿动力CTO
Bernt Bornich——1X创始人兼CEO
Deepak Pathak——Skild AI的CEO兼联合创始人
Jim Fan——英伟达首席研究科学家/高级研究经理
Pras Velagapudi——Agility机器人 CTO

当前硬件的最大挑战

【Aaron Saunders 】-波士顿动力：

当机器人无法被准确表征，也没有经过校准，每台机器之间都会存在很大的变异性。

此时如果你只是简单地给它配上一个控制器（例如AI策略），输出就会有很大的差异性。但目前，可以通过大量的工作来最小化这种差距。我相信在这方面，Agility也有一些想法。

【Pras Velagapudi】-Agility Robotics：

是的，我认为可以将机器人投入到现实世界中进行生产，并观察其变异性，这些经验会反馈到你构建的流程中。

其中一个例子，就是Digit机器人具有完全通过学习进行的恢复行为，它们正运行在现实的生产系统上。当你在现实世界中获得经验时，会更加了解在训练流程中需要捕捉哪些关键点。

通过实际运行，我们可以加深数据多样性、域随机化和强化策略，并将这些策略迁移至刚发布的最新版Digit上。

新版机器人重了10公斤，框架也大得多。但该策略一次性就成功地转移了过来，尽管其运动学略有不同，有效载荷也更重。这是因为我们花费了大量时间强化、优化「从仿真到现实世界的转移」，真正理解了诸如足部接触等细节。

因此，我认为随着经验的积累，你会在跨实体化的过程中变得更好，而不是总需要仔细查看每个机器人的制造序列号。

【Aaron Saunders】-波士顿动力：

当你从数百台机器人增加到数千台时，你会直接面对这个问题，这不是一个选择题——当你有成千上万台机器人时，你不能为每一台单独调整软件栈，所以这是一个必须解决的问题。

【Bernt Bornich】-1X：

我同意你们俩的部份观点，尤其认同校准的重要性。但我觉得有趣的是，在进行域随机化时，实际上是在教导你的系统要保守。

这是在教系统在多变的环境中，保持安全的策略，这种方式在某种程度上掩盖了系统的动力学特性，所以这一切都取决于你想实现的目标。

如果进行域随机化，你会得到一个非常稳健的系统，但无法保持性能。而如果有了精准的校准，就可以从系统中获得更多，从长远来看这很重要。

目前我们正在进行一些令人兴奋的工作——将机器人的历史数据添加到模型的上下文中。对于每一个机器人个体，你都能获取该机器人的一些运行数据，并将其放入实际模型的历史上下文中，然后它会在其中学习它自身的动力学特性，这实际上效果出奇地好，这真的很酷。

【Deepak Pathak】-Skild AI：

这就是我们所说的RMA（Rapid Motor Adaptation），即快速运动适应。这个想法的核心是，你无法在不同版本之间更改你的模型，这是一个大问题，因为世界上不会只有一家机器人公司或一种机器人。

对于每一个应用，虽然有多种GPU及其创造的生态系统，但CUDA层将你从直接处理硬件的复杂性中抽离出来，对操作系统也是如此。

那么，当谈到解决机器人技术的问题时，什么才是与之等效的东西呢？这里我有一个稍微不同的观点——

在其他领域，无论是视觉还是语言，我们都从硬件中抽象出来。如果一家新公司（例如AMD）想要进入市场，他们必须确保其他人可以无缝地在其GPU上运行英伟达的代码。这是他们的责任，而非软件的责任。

对于机器人来说，我们不应该构建一个只适用于特定机器人的大脑，而是应该适应不同机器人。

人类大脑拥有的不是一个能做很多事的系统，而是一个学习引擎，它可以实时学习和适应。在机器人领域，我们将部署的是这些小型的学习引擎，这将是机器人与AI其他领域之间的主要区别。

【Bernt Bornich】-1X：

我认为这种区别最终会消失。

我们经常问AI能为机器人做什么，但很少反过来问机器人能为AI做什么。因为在实际操作中获取的数据，当你有一个假设，采取行动，观察结果，并从中学习，这才是真正的学习方式。

最近我们看到推理模型在数学和编程方面表现出色，因为这些都是可验证的，而机器人可以让你在所有事情上都做到这一点。

【Deepak Pathak】-Skild AI：

另一个例子是幻觉，这是LLM中的一个大问题。可是，机器人不会产生幻觉，因为它们是通过交互来学习的，如果一个瓶子推至桌子边缘，它会掉落，我可以看见，不需要猜测。因此，交互、互动是幻觉的敌人。一旦开始互动，幻觉就会消失。

【Pras Velagapudi】- Agility Robotics：

抱歉，我认为机器人还会有幻觉，只不过表现形式不同——它表现为机器人预期结果与现实世界发生的情况之间的偏差。

就像代码生成幻觉在不编译时可以验证一样，这种情况也可以验证。但它会表现为机器人执行一条不可行的轨迹，或生成错误的结果。

【Deepak Pathak】-Skild AI：

我的意思是，由于可以互动，这些问题是可以解决的。但如果没有互动的能力，那么它们永远无法被解决。

【Bernt Bornich】-1X：

实际上我有一个非常好的例子。

去年，我们遇到了「办公室里没人愿意放下马桶座圈」的问题。我们有一款早期的机器人Eve，带有轮子，非常灵活。我们让它自主进入卫生间检查马桶座是打开还是关闭状态。

这个过程中使用了GPT 4.0，结果它的判断正确率为50%，也就是说完全随机，根本无法分辨马桶座的状态。

但我们让机器人去关闭马桶座圈，这是一个自主策略。它会巡视并检查浴室，并在马桶座圈打开时将其关闭。这非常有趣，我们也因此感到很开心，这实际上是现实世界中的闭环控制。

【Pras Velagapudi】- Agility Robotics：

这就类似于在其他领域使用AI与API或编译器等交互时的闭环控制，在那里你可以发出一些结果，并通过验证阶段将信息反馈到系统的上下文中。只是在这种情况下，由于涉及到物理世界，闭环的速度会稍慢一些。

【Bernt Bornich】-1X：

没错，目前的问题是，我们虽然可以设计出像马桶座圈这样的特定事物，但还不知道如何用一套方案应对整个物理世界。

对未来2-5年的预判

【Bernt Bornich】-1X：

考虑到当前领域的进展速度，2-5年是一个相当大的范围。我会说要完全实现我们的目标，可能需要10年。

那时社会将会经历类似几百年前电力带来的变革，这是人类历史上一个有趣的时刻，届时我们可以真正专注于那些使我们成为人类的东西。

但目前没有人知道确切答案，这真的取决于社会接受机器人的速度，以及扩大制造规模的速度。我们现在正处于这样一个临界点，即它开始变得有用。

希望它不会像自动驾驶汽车那样，比预期的多花10年时间。

我确实认为在3到5年内，人形机器人将在大多数人中间普及开来，它们将成为社会的一部分，覆盖从消费者、家庭到工厂、物流等各个领域。

【Deepak Pathak】-Skild AI：

专业机器人会很快出现，而通用机器人则需要更长时间。但后者从第一天起，就会显示出其在机器人领域的价值。

【Pras Velagapudi】- Agility Robotics：

我认为挑战在于普及，这不仅仅是技术问题，还涉及到安全性、社会接受度等因素。

所以在3-5年内，我们可能会看到某些领域有更多的机器人，而在另一些领域则远少于预期。但重要的是，我们现在正见证机器人从单一用途向多用途转变的过程，也许不是通用机器人，而是多用途的。

通过新的AI平台，能够展示用一个硬件完成多件事情，我认为这是未来3到5年的关键，这种期望将成为人们努力实现的新标准。

【Aaron Saunders】-波士顿动力：

这个问题的真正难点，在于每个人的期望值并没有统一的标准。所以我通常会问的一个问题是：“我们什么时候能拥有一款像汽车对我们那样有价值的类人机器人？”我真的不知道。

汽车每天都在最极端的天气下工作，考虑到投入的材料和精力，它的成本几乎可以忽略不计。而即便是汽车本身，也无法完全比拟类人机器人可能为我们的生活带来的价值。

因此，我也认为这需要10年甚至更长时间。如果你问一位创始人，他可能会说「明年就能实现」；但如果你问技术人员，他们会说大约需要10年时间。我认为我们应该关注的，是进展的速度以及前沿阵地在哪里。

随着时间的推移，这些东西将会增长，这个领域将从分散的点逐渐连成一片——例如，Agility解决了仓库中的问题，我们有机器人进入了家庭，有的致力于汽车工厂的工作。每一个前沿阵地都会看到增长，但这不会是一蹴而就的事情。

我不认为这里有人能够预测五年后的具体情况。但我们将会见证这种增长，并且很快，所有这些成果都将开始相互重叠。

总有一天，我们会拥有自动驾驶汽车。当你回顾智能汽车的过去时，有很多关于「何时能拥有自动驾驶汽车」的预测都被证明过于乐观。

但我非常感激我的车现在具备自动车道保持辅助功能，它不会撞上前车，并防止我倒车时碰到东西。所有这些神奇的功能都源于拥有自动驾驶汽车的梦想。

顺便说一句，现在你已经可以乘坐Robotaxi了。所以是的，这花了比预期更长的时间，类人机器人的发展也将如此。

我认为只要整个行业对此充满热情，积极参与，并意识到这是一个长期的游戏，开发能够在商业环境中提供价值的专业机器人，那么在未来1到2年内我们就能够实现这一点。

Agility已经在向这一领域交付机器人了。在未来5年内，我们要让这些机器人执行10、15或20项任务。但是要解决我们想象中跨行业的所有问题，我们需要继续梦想并持续努力。

【Jim Fan】- 英伟达：

我非常赞同Deepak的观点，人们往往高估了短期内的进展，而低估了长期内的进步。所以让我将其分为短期和长期两个部分来谈谈。

我认为从技术角度来看，在接下来的2到5年内，我们将能够充分研究具身智能的规模定律。

或许在5年后或更早的时候，我们就能看到确切的数据，知道你需要购买多少GPU才能让你的机器人变得更好。所以在短期内，我们将很快以量化的方式回答这个问题。

现在让我们谈谈未来20年会发生什么。

每当我在实验室熬夜工作时，机器人总是会在做一些奇怪的事情时出故障，这让我感到非常沮丧。我会想想20年后会发生什么，然后就有力量继续前进了。20年后，有几件事情让我非常兴奋，我认为它们并不遥远。

一个是机器人技术加速科学研究：我有一些在生物医药领域的朋友，做一次实验既耗时又费力。所有的博士生都需要在实验室里照顾那些老鼠，处理那些细胞培养皿。如果我们能自动化这一切呢？自动化科学。这样可能所有的医学研究都不再需要花费数十亿美元。

它们将会被规模化，因为我们有了加速物理世界的API。也许那时会出现GR00T 10.0版本或其他类似的成果。

另一点是机器人技术自动化。为什么我们不能让机器人互相修理呢？甚至可以让它们自己组装下一代机器人。

我不认为这是科幻，因为在LLM社区中，他们已经在研究自动机器学习，即让LLM进行深入研究，找到下一个最好的Transformer，下一个最佳的智能架构。

很可能LLM会先解决这个问题，然后我们可以借鉴他们的成果，应用于物理世界。我认为这将在20年内实现。

我们出生得太晚，无法探索地球；我们又出生得太早，无法前往其他星系；但我们正好赶上了机器人技术的时代，所有会动的东西都将自动化。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

机器人大神圆桌（下）：人形机器人，就像曾被高估的自动驾驶

月产能突破百万片，中芯国际Q3净利增43.1%

高市早苗扯着眼皮诉苦：我现在每天只睡2小时

高市早苗扯着眼皮诉苦：我现在每天只睡2小时

跟豪门传了十年绯闻，他却偏要“择一队终老”

王鹤棣孟子义真要搭？

源峰25亿赌局！汉堡王中国"卖身"求生

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

被扫地出门的贵公子，真是活该

春风拂面！古典美与工笔画的绝妙碰撞。

8200元/㎡！海口宝龙城，彻底杀疯了！

云游安徽 | 江声浩荡阅千年，文脉相承看芜湖

澎湃OS 3第三批推送：小米14、REDMI K70系列全覆盖，你收到了吗

具备高阶辅助驾驶功能欧拉5预售价10.98万起