强化学习之父Sutton联手Carmack：让机器人进入真实世界打游戏|算法|动作|模拟器

强化学习之父Sutton联手Carmack：让机器人进入真实世界打游戏

2026-06-21 17:32:46　来源: 机器之心Pro

河北举报

分享至

编辑｜Panda

2026 年初，成都一家商场里，一台正在表演的人形机器人与围观的一位老人意外发生碰撞，两者双双倒地，老人随即被送医，确诊为软组织挫伤。事后，猎豹移动董事长傅盛公开评论称，这并非人形机器人第一次伤人，也不会是最后一次；以现在大模型的能力，两三年内都很难妥善解决人形机器人的安全问题。

事实上，机器人在现实生活一直都状况不断，而这类事件表明：实验室和发布会上行云流水的演示，一旦进入不可预测的真实世界，经常说不准下一步会发生什么。

这背后藏着一个更深的规律：让 AI 在模拟器里学会一件事，和让它在真实世界里把这件事做稳，完全是两道不同的难关，差距往往比想象中更大。

哪怕是同一套算法、同一个任务，模拟环境和真实环境之间的任何细微差异（光线、地面摩擦力、机器人身体本身的公差），都可能让一套训练好的策略瞬间失灵。

而就在人形机器人行业为「能不能站稳」反复交学费的同一时期，由传奇程序员约翰·卡马克（John Carmack）领导的 Keen Technologies，联合阿尔伯塔大学和 Openmind 研究所的研究者们，发布了一篇论文，从一个更基础的角度回应了这个问题：能不能让强化学习算法，在真实世界里，真刀真枪地、长时间不间断地自己学习，而不需要人在旁边照看，也不需要一上来就指望它一次成功？

为了回答这个问题，他们造了一套系统，专门用来「打 Atari 游戏」。这套系统，名曰Physical Atari

论文标题：Physical Atari: A Robust and Accessible Platform for Real-time Reinforcement Learning on Robots
论文地址：https://arxiv.org/abs/2606.19357v1

强化学习的「真实世界」难题

Atari 游戏在 AI 圈并不陌生。早在 2013 年，DeepMind 用深度强化学习算法在模拟器里学会了打 Atari 游戏，这被视为深度强化学习崛起的标志性时刻之一，此后 Rainbow、MuZero 等一系列经典算法也都拿 Atari 游戏当作标准考场。但这些考场清一色是模拟器：游戏世界会乖乖等着算法做完决定，再继续往下走。

真实世界完全不是这样。比如你开车时，前方出现状况，哪怕你正在思考要不要踩刹车，车依然在继续往前开——世界不会等你。

论文把这种「世界不等你」的设定称为「实时强化学习」，并指出这恰恰是机器人所面临的真实处境。

目前机器人领域训练 AI 主要靠三条路：

第一条是在模拟器里练好了再搬到真机器人上，这也是现在大多数人形机器人厂商的主流做法，但模拟器和真实世界之间的差异，正是前面那些摔倒事件的根源；
第二条是靠人类远程操控机器人采集大量示范数据，再用这些数据离线训练
第三条，也是最少人走的一条路，是让机器人直接在真实世界里边干边学

第三条路省掉了建模拟器、省掉了雇人采数据的成本，也从根本上避免了「模拟器和现实不一样」这个老大难问题，但代价是，你需要一台足够耐用、足够便宜、能被普通研究者负担得起，还能撑住几周不间断高强度运转的机器人。

Physical Atari就是冲着这个空白做出来的答案。

团队简介

这支团队的第一作者是 Keen Technologies 的研究科学家Khurram Javed

而其作者名单中还出现了两位大神的名字：约翰·卡马克（John Carmack）理查德·萨顿（Richard S. Sutton）

卡马克是 id Software 的联合创始人，曾主导开发了《毁灭战士》、《雷神之锤》等划时代游戏，并因发明多项 3D 图形算法被写入计算机图形学教科书。2013 年加入 Oculus 担任 CTO 后，他又把虚拟现实从概念变成了量产产品。

2022 年，他离开 Oculus，创立 Keen Technologies，把目标对准了通用人工智能（AGI）。

第二年，他邀请了强化学习领域的奠基人之一、阿尔伯塔大学教授 Richard S. Sutton 加入 Keen Technologies，两人此后一直专注于研究能在真实世界中持续学习、持续适应的智能体。

而 Sutton 本人也是这篇论文的作者之一。这意味着，眼前这台机械手不只是工程团队的动手实践，也直接体现了这位强化学习理论奠基人对「智能体该怎么学」这件事的判断。

Physical Atari 正是这套理念的一次具体落地：与其在论文里空谈「智能体应该在现实中学习」，不如先把硬件造出来，让算法真的跑起来

用一台「机械手」打游戏，是怎么造出来的

整套系统其实只有两个核心部件。一个叫Atari Devbox，本质是一台塞进 3D 打印外壳里的树莓派 5，接上一块 5 英寸屏幕，跑着经典的 Arcade Learning Environment 模拟器，以 60 帧每秒的速度渲染 Atari 游戏画面。

另一个叫Robotroller，是一只专门用来按真实摇杆的机械手：它不会去触碰任何电路或代码，只是像人一样，握住一支没有经过任何改装的 AtariCX40+摇杆，通过三个伺服电机分别控制摇杆的上下、左右移动和开火按钮。

一台摄像头对着屏幕拍下游戏画面，运行强化学习算法的电脑根据画面做决策，再把指令发给 Robotroller，后者负责把这个决策变成真实的手部动作。

这个设计思路的关键是让 AI 完全通过「看屏幕、动摇杆」这种最朴素的人类交互方式跟游戏对话，不开任何后门，也因此能直接复用游戏机制本身、不用额外搭建仿真接口。

听起来简单，但论文里花了大量篇幅讲的，其实是「怎么让一只机械手在几周内不坏」。

研究者最早遇到的问题是螺丝会松动，解决办法是改用螺纹锁固胶；接着发现伺服电机内部的塑料齿轮会磨损，于是换成了金属齿轮版本的伺服电机；再后来发现摇杆本身被这套机械手「用坏了」，追根溯源，是因为电机的运动太「猛」，给摇杆造成了不必要的应力，于是团队重新调整了控制参数，让动作变得更柔和。

最有意思的一处修复，是研究者给伺服电机加上了一个「高电流反射」机制：一旦检测到某个电机的电流超过设定阈值（通常意味着它被卡住或顶到了硬限位），系统会立刻让它原地停住、瞬间松开扭矩再重新锁紧，就像人体的腱反射在过度拉伸时自动收缩肌肉一样，避免电机硬扛着烧坏。

这个机制听起来不起眼，却是让整套系统能连续运转几周不出故障的关键一环。

至于「奖励信号」（游戏得分），团队也没有用网线或代码偷偷传输，而是让 Devbox 屏幕上同步显示一组 AprilTags 视觉标记，由摄像头直接「看」出当前是加分还是减分。

换句话说，这台机器人感知世界的方式，从画面到得分，全部通过摄像头这一个通道完成，跟人类玩游戏没有本质区别。

整套硬件成本被控制在1000 美元以内，其中 Robotroller 本身需要采购的零件（伺服电机、轴承、螺丝等）大约 400 美元，定制部件可以用一台普通消费级 3D 打印机打出来，耗时约 12 小时。

真机器人，真打了 145 个小时游戏

研究者让这套系统在 Pong、Seaquest、Ms Pacman、Assault、Asterix 和 Kangaroo 六款游戏上分别学习五个半小时，每款游戏重复 4 到 5 次实验。

累计下来，这些实验总共跑了将近 145 个小时，期间没有任何人工干预——没有人去扶它、没有人去重启它，机械手自己一遍遍按着摇杆，自己一点点学会怎么把游戏分数往上拉。

更值得关注的是另一组实验：研究者先让一个智能体在某一台 Robotroller 上学习 6 小时，然后把训练好的策略分别部署到原来那台机器人，和另一台「按同样图纸造出来」的机器人上测试。

结果是，即便两台机器人用的是完全相同的设计图纸和零件，策略在「陌生身体」上的表现也始终明显更差

在需要精准卡点的 Pong 游戏里，这种差距格外明显：挪到新机器上的策略能看出球的方向、能往正确的方向移动球拍，却总是差那么一点点没接住，因为哪怕是同型号零件之间的微小公差，都足以让原本卡得很准的时机错位。

Pong 与 Kangaroo 游戏画面

研究者随后让智能体在「陌生身体」上继续学习，结果策略表现逐渐回升，重新逼近换身体前的水平。

这组对照实验从侧面印证了论文反复强调的一个判断：哪怕差异小到「同款机器人换了一台」，只要存在于训练和部署之间，就足以拖累表现，而直接在目标身体上持续学习，是修复这种偏差最直接的办法

整个系统165 毫秒左右的端到端响应延迟也大致落在人类反应速度的区间内，说明这套硬件的「反应能力」本身没有成为瓶颈，问题确实出在策略和身体之间的匹配上。

结语

Physical Atari 本身并不打算让机器人学会走路或叠衣服，它解决的是一个更基础的问题：如果想验证「机器人能不能在现实世界里自己学习」这件事，至少现在有了一套足够便宜、足够耐用、谁都能复刻的实验台。比起在发布会舞台上展示一段精心调试过的动作，在真实世界里连续运转 145 个小时且不需要人工干预，或许才是检验一套强化学习算法是否真正可靠的更朴素的标准。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.