网易首页 > 网易号 > 正文 申请入驻

【元宇宙】为什么 AI 的下一个突破可能来自游戏

0
分享至



一些研究人员认为,人工智能设计的下一个突破将不是来自网络抓取或购买用户数据,而是来自通过游戏进行学习。

游戏化可能是构建复杂 AI Agent 的最有效方法,这些 Agent 能够应对未知情况,并在开放的模拟环境中协同工作,在那里它们可以安全地探索、实验和“突破常规”。

这并非史无前例——现代人工智能产业很大程度上得益于游戏。英伟达最初是为《雷神之锤》(Quake)开发图形处理器起家的,而《雷神之锤》彻底革新了并行处理和人工智能技术。《雷神之锤》的创始人约翰·卡马克(John Carmack)正与传奇强化学习专家里奇·萨顿(Rich Sutton)合作,开发能够玩雅达利游戏的机器人。德米斯·哈萨比斯(Demis Hassabis)在创立DeepMind之前也是一名游戏开发者,他和他的团队打造出了世界上最优秀的围棋选手,之后又顺便修改了算法,利用AlphaFold加速了生物科学研究。至于OpenAI?在开发出ChatGPT之前,他们只是在玩一些有趣的游戏,比如开发能够玩Dota 2的智能体,以及制造能够解魔方的机械手。


通过游戏来训练人工智能不仅仅是为了娱乐。它是理解、引导和控制未来智能系统的关键。

01

从实践中学习

现代学习型学习模型(LLM)的训练范式是:首先利用网络规模的数据训练一个基础模型,然后根据专家编写的指令进行调优,最后根据用户反馈进一步优化。自从OpenAI发布o1模型,以及更重要的DeepSeek发布开源R1模型以来,训练的重点已经转移到强化学习上,以此来改进模型。基于LLM的智能体可以执行复杂的任务(例如编程),然后回顾多次尝试的输出结果,对其进行排序,并学习优先选择更优的结果。

建立排名系统可能相当困难,尤其是在耗时较长且难度极高的任务上。游戏消除了现实中许多未知因素,并提供了清晰的信号来判断智能体何时正确完成了任务。这样一来,衡量哪个智能体以最短时间正确完成任务就变得轻而易举,而且无需等待人们回复消息或现实以1倍速推进,即可运行模拟。

游戏一直是强化学习智能体的试验场,输入是游戏手柄的控制指令,输出是屏幕上的像素——如今,我们看到一些游戏让具备语言和视觉能力的大型模型能够学习如何在虚拟世界中导航、规划复杂的金融交易,并抵御即时注入攻击。这些游戏生成的数据对于数据匮乏的现实世界应用场景来说是宝贵的训练数据。而且,对于许多数据类型——例如合作——在游戏之外几乎不存在相关数据。

OpenAI 的捉迷藏模拟实验表明,即使是简单的环境也能激发人工智能体之间出人意料的复杂合作行为。结论显而易见:环境越丰富、互动性越强,人工智能体展现出的智能就越精细。


正如谷歌 DeepMind 研究员大卫·西尔弗 (David Silver) 曾经指出的那样,“智能的真正考验在于适应能力”,而游戏仍然是训练这种能力的最佳场所之一。

02

趁着还没害怕之前就去学习

人工智能可以被放置在类似幼儿园的“玩具世界”中,这些世界设定了目标、边界和社交规则,供它们学习。斯坦福大学“社会模拟”等近期研究表明,大型语言模型在沙盒环境中可以发展出涌现的社会规范。这让我们得以一窥人工智能行为如何通过模拟交互自然演化,而非仅仅基于静态数据集。

随着人工智能变得越来越智能、越来越独立——许多研究人员正致力于此——它们仍然依赖人类提供硬件、电力和网络接入。这是一种复杂的权力动态。正因如此,类似游戏的训练环境显得尤为重要,它能让我们安全地研究这种权力动态。人工智能在自由受到限制时会作何反应?它会尝试合作和说服,还是会反抗?Anthropic公司最近发表的研究表明,逻辑逻辑模型(LLM)能够说谎,或者至少能够伪装自己的立场。

在构建出我们可能归类为超级智能的强大人工智能之前,研究人员可以而且应该创建玩具版本,在沙箱中测试这些系统,让我们看看如果它们在相对愚钝的情况下获得完全自主权会发生什么。

它会试图说服用户吗?寻找巧妙的漏洞吗?利用规则漏洞吗?我们该如何在系统中处理这些特性?

及早研究这些行为有助于研究人员了解更智能、更有能力的智能体可能会如何反应。我们面临着许多棘手但可解决的挑战。任何令人兴奋或影响深远的事物都伴随着风险。

03

AI Agent 学校

打造广阔的互动式人工智能世界,让AI智能体能够生活、学习、成长,并在心智和情感上得到发展,这使得人类扮演的是导师而非主人的角色。我们可以监控行为、塑造价值观并培养责任感。最终目标是培养出具有社交智能、能够在环境背景下恰当行事的AI。

这听起来可能有些牵强,但最大的公司正在大力投资世界模拟和智能体交互——例如,谷歌研究院的《生成智能体》论文,或者微软的游戏智能小组。

安全创造力量的唯一途径是在人工智能发展到过于强大之前,同时传授其价值观。用游戏来训练人工智能或许是一个有趣的比喻,但它也是培养能够合作共存的人工智能的一种方式。


DeepMind 的 XLand和OpenAI Gym等平台已经提供了这样的环境,即广阔的数字游乐场,人工智能可以在其中通过实践来学习。

游戏提供了一种安全的方式来测试和塑造抱负、同理心和智力。

04

一种新型的涌现式游戏

智能体模拟受益于人类用户的参与,而智能体要想发挥作用,就需要能够在人类世界中活动并使用人类系统。智能体模拟本质上是人类可以参与的游戏。

这是我最兴奋的部分!我们已经很久没有看到新的游戏类型了。

这些游戏并非传统意义上预设剧情或固定机制的游戏。相反,想象一下这样的持续性世界:人工智能体发展出自己的经济体系,结成联盟,并基于与人类和其他人工智能体的互动,创造出层出不穷的故事情节。玩家不仅能操控角色,还能指导、与人工智能体谈判,并从中学习。这些人工智能体会过往的互动,并随着时间推移不断进化自身的策略。

早期案例已经涌现。AI Dungeon率先利用语言模型实现了动态叙事。Minecraft服务器正在试验能够自主建造房屋和进行交易的AI村民。像Altera这样的公司正在开发能够与人类玩家并肩作战、成为真正伙伴而非仅仅是脚本化的NPC的AI智能体。

这些游戏的商业潜力巨大。它们可以生成无限的个性化内容,同时还能为现实世界的人工智能应用提供宝贵的训练数据。例如,玩家可以训练 AI Agent 经营企业,这样的游戏或许能为实际的经济建模提供借鉴。人类与人工智能协作进行城市规划的虚拟世界,或许能为现实中的城市发展提供参考。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-11-03

2025-10-31

2025-10-30

商业赞助


点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男演员最新声明:已退出美国国籍,正式成为中国公民

男演员最新声明:已退出美国国籍,正式成为中国公民

去山野间追风
2026-03-30 01:31:53
孙中山孙女回南京,发现孙家老宅被许世友改造成农场,她是何态度

孙中山孙女回南京,发现孙家老宅被许世友改造成农场,她是何态度

兴趣知识
2026-03-30 15:55:17
毛主席正为红军前途发愁,一个俘虏主动站出来,后来成了开国中将

毛主席正为红军前途发愁,一个俘虏主动站出来,后来成了开国中将

老谢谈史
2026-03-29 17:50:03
男子在国际航班上抽烟辩称憋着难受 川航:落地后该旅客被警方带离

男子在国际航班上抽烟辩称憋着难受 川航:落地后该旅客被警方带离

快科技
2026-03-30 14:06:06
东契奇被贱卖气坏库班!直言:我不后悔卖队,只后悔卖给错的人

东契奇被贱卖气坏库班!直言:我不后悔卖队,只后悔卖给错的人

仰卧撑FTUer
2026-03-31 08:01:01
退休不是自由身!2026从严监管:机关事业单位退休人员兼职红线

退休不是自由身!2026从严监管:机关事业单位退休人员兼职红线

坠入二次元的海洋
2026-03-30 13:28:58
丈夫发现家里每天丢钱,这天假装去上班,推开卧室门傻眼了

丈夫发现家里每天丢钱,这天假装去上班,推开卧室门傻眼了

奶茶麦子
2026-03-30 19:44:07
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
郑丽文访陆!卢秀燕紧急切割,赖清德提要求,赵少康说了一句狠话

郑丽文访陆!卢秀燕紧急切割,赖清德提要求,赵少康说了一句狠话

共工之锚
2026-03-31 00:16:37
吴宜泽6-2,艾伦出局,8强决出5席:小特VS墨菲附赛程CCTV直播

吴宜泽6-2,艾伦出局,8强决出5席:小特VS墨菲附赛程CCTV直播

求球不落谛
2026-03-31 05:21:21
爆冷掀翻卫冕冠军!中国女篮26岁2米王牌闪耀:无惧3大内线名将

爆冷掀翻卫冕冠军!中国女篮26岁2米王牌闪耀:无惧3大内线名将

李喜林篮球绝杀
2026-03-31 10:41:53
郑丽文将应邀访陆,不到24小时,美专机抵台,洪秀柱高呼必须统一

郑丽文将应邀访陆,不到24小时,美专机抵台,洪秀柱高呼必须统一

知法而形
2026-03-31 11:22:16
张雪峰为何被公知攻击?项立刚的评价一针见血:他爱国,还挣了钱

张雪峰为何被公知攻击?项立刚的评价一针见血:他爱国,还挣了钱

谈史论天地
2026-03-29 13:30:50
伊朗警告中东国家不要“落入陷阱”:勿被泽连斯基掏空你们的钱财

伊朗警告中东国家不要“落入陷阱”:勿被泽连斯基掏空你们的钱财

阿晪美食
2026-03-31 10:28:39
2.3亿到手,481天不踢球:让国足花光预算的小摩托,在巴西躺平了

2.3亿到手,481天不踢球:让国足花光预算的小摩托,在巴西躺平了

绿茵舞着
2026-03-30 23:25:05
为什么舆论监督对特朗普没啥用?

为什么舆论监督对特朗普没啥用?

解筱文
2026-03-30 22:43:28
太可怜了!2張照片,几乎就是张雪峰人生的最後定格

太可怜了!2張照片,几乎就是张雪峰人生的最後定格

魔都姐姐杂谈
2026-03-28 04:04:21
30分钟锁定,误差1米:伊朗二号人物是怎么被精准斩首的?

30分钟锁定,误差1米:伊朗二号人物是怎么被精准斩首的?

苏格拉高
2026-03-30 07:40:12
喀麦隆19岁前锋科法内身价4000万欧,为国足总身价的三倍多

喀麦隆19岁前锋科法内身价4000万欧,为国足总身价的三倍多

懂球帝
2026-03-31 10:13:05
张雪峰大学时期青涩照片曝光!阳光痞帅似青松,进娱乐圈没问题

张雪峰大学时期青涩照片曝光!阳光痞帅似青松,进娱乐圈没问题

谈史论天地
2026-03-31 09:45:54
2026-03-31 12:16:49
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2042文章数 92关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

游戏
家居
健康
公开课
军事航空

求微软开恩!索尼玩家请愿 盼这款Xbox大作登陆PS5

家居要闻

新婚爱巢 甜蜜情趣拉满

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版