强化学习在稀疏奖励环境一直是个老大难问题。DeepMind团队最近放出一项研究,只用一段人类通关视频,就让AI学会了《蒙特祖玛的复仇》——这款以难度著称的经典游戏。
关键突破在于"单演示"设定。传统方法需要成千上万次试错,或者大量人工标注数据。而这次的核心思路是:让AI先"看懂"人类怎么玩,再自己摸索优化。
![]()
技术层面,团队设计了两阶段训练。第一阶段从单段演示中提取抽象意图,比如"拿到钥匙""开门"这些高层目标;第二阶段让AI在模拟环境中尝试复现,同时允许偏离演示路径探索更优解。
结果相当扎实。AI不仅成功通关,部分关卡还找到了比人类演示更高效的路线。这说明单条轨迹里的信息密度,远比想象中高。
![]()
更值得玩味的是应用场景。游戏是可控实验场,但类似逻辑可以迁移到机器人操作、自动驾驶这些"试错成本极高"的领域——你没法让无人车在真实路况撞一千次来学规则。
当然,演示质量仍是瓶颈。如果人类操作本身有瑕疵,AI会原样继承还是自主修正?论文没给出完整答案,但这正是下一步值得盯紧的方向。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.