【元宇宙】为什么 AI 的下一个突破可能来自游戏|机器人|智能体|人工智能|虚拟世界

【元宇宙】为什么 AI 的下一个突破可能来自游戏

2025-11-10 18:55:20　来源: 七元宇宙

广东举报

分享至

一些研究人员认为，人工智能设计的下一个突破将不是来自网络抓取或购买用户数据，而是来自通过游戏进行学习。

游戏化可能是构建复杂 AI Agent 的最有效方法，这些 Agent 能够应对未知情况，并在开放的模拟环境中协同工作，在那里它们可以安全地探索、实验和“突破常规”。

这并非史无前例——现代人工智能产业很大程度上得益于游戏。英伟达最初是为《雷神之锤》（Quake）开发图形处理器起家的，而《雷神之锤》彻底革新了并行处理和人工智能技术。《雷神之锤》的创始人约翰·卡马克（John Carmack）正与传奇强化学习专家里奇·萨顿（Rich Sutton）合作，开发能够玩雅达利游戏的机器人。德米斯·哈萨比斯（Demis Hassabis）在创立DeepMind之前也是一名游戏开发者，他和他的团队打造出了世界上最优秀的围棋选手，之后又顺便修改了算法，利用AlphaFold加速了生物科学研究。至于OpenAI？在开发出ChatGPT之前，他们只是在玩一些有趣的游戏，比如开发能够玩Dota 2的智能体，以及制造能够解魔方的机械手。

通过游戏来训练人工智能不仅仅是为了娱乐。它是理解、引导和控制未来智能系统的关键。

从实践中学习

现代学习型学习模型（LLM）的训练范式是：首先利用网络规模的数据训练一个基础模型，然后根据专家编写的指令进行调优，最后根据用户反馈进一步优化。自从OpenAI发布o1模型，以及更重要的DeepSeek发布开源R1模型以来，训练的重点已经转移到强化学习上，以此来改进模型。基于LLM的智能体可以执行复杂的任务（例如编程），然后回顾多次尝试的输出结果，对其进行排序，并学习优先选择更优的结果。

建立排名系统可能相当困难，尤其是在耗时较长且难度极高的任务上。游戏消除了现实中许多未知因素，并提供了清晰的信号来判断智能体何时正确完成了任务。这样一来，衡量哪个智能体以最短时间正确完成任务就变得轻而易举，而且无需等待人们回复消息或现实以1倍速推进，即可运行模拟。

游戏一直是强化学习智能体的试验场，输入是游戏手柄的控制指令，输出是屏幕上的像素——如今，我们看到一些游戏让具备语言和视觉能力的大型模型能够学习如何在虚拟世界中导航、规划复杂的金融交易，并抵御即时注入攻击。这些游戏生成的数据对于数据匮乏的现实世界应用场景来说是宝贵的训练数据。而且，对于许多数据类型——例如合作——在游戏之外几乎不存在相关数据。

OpenAI 的捉迷藏模拟实验表明，即使是简单的环境也能激发人工智能体之间出人意料的复杂合作行为。结论显而易见：环境越丰富、互动性越强，人工智能体展现出的智能就越精细。

正如谷歌 DeepMind 研究员大卫·西尔弗 (David Silver) 曾经指出的那样，“智能的真正考验在于适应能力”，而游戏仍然是训练这种能力的最佳场所之一。

趁着还没害怕之前就去学习

人工智能可以被放置在类似幼儿园的“玩具世界”中，这些世界设定了目标、边界和社交规则，供它们学习。斯坦福大学“社会模拟”等近期研究表明，大型语言模型在沙盒环境中可以发展出涌现的社会规范。这让我们得以一窥人工智能行为如何通过模拟交互自然演化，而非仅仅基于静态数据集。

随着人工智能变得越来越智能、越来越独立——许多研究人员正致力于此——它们仍然依赖人类提供硬件、电力和网络接入。这是一种复杂的权力动态。正因如此，类似游戏的训练环境显得尤为重要，它能让我们安全地研究这种权力动态。人工智能在自由受到限制时会作何反应？它会尝试合作和说服，还是会反抗？Anthropic公司最近发表的研究表明，逻辑逻辑模型（LLM）能够说谎，或者至少能够伪装自己的立场。

在构建出我们可能归类为超级智能的强大人工智能之前，研究人员可以而且应该创建玩具版本，在沙箱中测试这些系统，让我们看看如果它们在相对愚钝的情况下获得完全自主权会发生什么。

它会试图说服用户吗？寻找巧妙的漏洞吗？利用规则漏洞吗？我们该如何在系统中处理这些特性？

及早研究这些行为有助于研究人员了解更智能、更有能力的智能体可能会如何反应。我们面临着许多棘手但可解决的挑战。任何令人兴奋或影响深远的事物都伴随着风险。

AI Agent 学校

打造广阔的互动式人工智能世界，让AI智能体能够生活、学习、成长，并在心智和情感上得到发展，这使得人类扮演的是导师而非主人的角色。我们可以监控行为、塑造价值观并培养责任感。最终目标是培养出具有社交智能、能够在环境背景下恰当行事的AI。

这听起来可能有些牵强，但最大的公司正在大力投资世界模拟和智能体交互——例如，谷歌研究院的《生成智能体》论文，或者微软的游戏智能小组。

安全创造力量的唯一途径是在人工智能发展到过于强大之前，同时传授其价值观。用游戏来训练人工智能或许是一个有趣的比喻，但它也是培养能够合作共存的人工智能的一种方式。

DeepMind 的 XLand和OpenAI Gym等平台已经提供了这样的环境，即广阔的数字游乐场，人工智能可以在其中通过实践来学习。

游戏提供了一种安全的方式来测试和塑造抱负、同理心和智力。

一种新型的涌现式游戏

智能体模拟受益于人类用户的参与，而智能体要想发挥作用，就需要能够在人类世界中活动并使用人类系统。智能体模拟本质上是人类可以参与的游戏。

这是我最兴奋的部分！我们已经很久没有看到新的游戏类型了。

这些游戏并非传统意义上预设剧情或固定机制的游戏。相反，想象一下这样的持续性世界：人工智能体发展出自己的经济体系，结成联盟，并基于与人类和其他人工智能体的互动，创造出层出不穷的故事情节。玩家不仅能操控角色，还能指导、与人工智能体谈判，并从中学习。这些人工智能体会过往的互动，并随着时间推移不断进化自身的策略。

早期案例已经涌现。AI Dungeon率先利用语言模型实现了动态叙事。Minecraft服务器正在试验能够自主建造房屋和进行交易的AI村民。像Altera这样的公司正在开发能够与人类玩家并肩作战、成为真正伙伴而非仅仅是脚本化的NPC的AI智能体。

这些游戏的商业潜力巨大。它们可以生成无限的个性化内容，同时还能为现实世界的人工智能应用提供宝贵的训练数据。例如，玩家可以训练 AI Agent 经营企业，这样的游戏或许能为实际的经济建模提供借鉴。人类与人工智能协作进行城市规划的虚拟世界，或许能为现实中的城市发展提供参考。

免责声明：

本文所发布的内容和图片旨在传播行业信息，版权归原作者所有，非商业用途。如有侵权，请与我们联系删除。所有信息不构成任何投资建议，加密市场具有高度风险，投资者应基于自身判断和谨慎评估做出决策。投资有风险，入市需谨慎。

设为星标避免错过

虚拟世界没有旁观者，每个点赞都是创造历史的像素

关注我，一起探索AWM⁺

2025-11-03

2025-10-31

2025-10-30

商业赞助

点击下方 “目录” 阅读更多

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.