一年前,它首次露脸时,行动还透着一丝生涩,而今已然变身成了瑜伽达人。
不仅如此,它还学会了利用和自动驾驶系统一样的端对端神经网络结构,不借助任何规则代码就已掌握了物品分类的技巧。
用马斯克自己的话来说:
光子一入,行为便出。
对此,马斯克反馈称:执行器、感应器及整体机械构造的更多升级即将到来。
一些人发现机器人脖子后方有个红色按键,“万一机器人想要主宰世界,千万别忘记按这个”。
针对这个,马斯克明确表示将全力确保安全性,通过遥控或手机即可轻松暂停机器人。
这一次特斯拉机器人团队广泛招聘各类型的硬件工程专家和机器学习工程专家,以及实习生,职位总数达到51个。
年薪范围在80,000美元到360,000美元之间(约合人民币600,000元-2,600,000元)。
更新拆析
特斯拉擎天柱官方这次仅放出了一分钟的视频,没有更多技术细节信息。
但特斯拉机器人团队的资深首席工程师Julian Ibarz透露,现在擎天柱已经有能力完成长期任务。
并且只要积累更多数据,就能够训练出新的复杂任务,完全不需要更改任何代码。
在第三方观察者中,最为详细的是英伟达科学家范麟熙纯基于视频的长篇逆向分析。
他猜测:
那流畅的手部动作几乎可以确定是通过模仿人类(行为复制)训练出来的。
另一种可能是在模拟环境中进行的强化学习,但这通常会引发抖动和不自然的手部姿态。
至少有四种方式可以收集人类的示范数据,其中最可能的是远程控制。
可以参照斯坦福大学开源的ALOHA系统,它能控制机械臂将AirPods放入充电盒中。
其他三种方式分别是电影和游戏中常用的动作捕捉、深度摄像和计算机视觉、VR模拟。
这四种方法不是互斥的,可以综合使用以平衡各自的优劣。
神经网络结构很可能是一种多模态Transformer。
图像、视频、动作、语言(不确定是否包括)被统一表示,在其中动作部分需要将连续信号转换为离散的token。
最终每次输入一个视频token(或可选的语言token),输出动作token。
相较于波士顿动力的Atlas机器人仅有简单的抓手,特斯拉的擎天柱拥有五个灵巧的手指,在未来的日常任务中,它的表现肯定会更加出众。
然而,也有声音认为视频实际上加速了约2-3倍,只有在机器人出现时不易察觉,但当人类出现时这种加速就变得相当明显。
端对端结构:机械的ChatGPT
利用端对端神经网络结构,特斯拉首先在自动驾驶FSD中做了实践——
不久前,马斯克亲自进行了直播演示,展示了一次自动驾驶前往扎克伯格家的旅程,引起了轰动。
更具体地说,端对端结构应用在自动驾驶系统上,能够减少约30万行的规则代码,使运行速度提高了10倍。
这个项目的主管工程师Dhaval Shroff曾告诉马斯克:这就像是车载的ChatGPT。
而Shroff对机器人的评价是“端到端,FTW”。但我们不清楚FTW是表示“For the win”还是其他意思。
最近,还有一个特斯拉汽车在湖边进行的无导航自动驾驶的视频流出,但我们不确定是否已经运行了最新的端到端结构的FSDv12。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.