网易首页 > 网易号 > 正文 申请入驻

为什么大语言模型在视频游戏上表现如此糟糕?

0
分享至


大语言模型已经快速发展到基准测试本身都在不断演进的程度,测试内容变得更加复杂,以便对最新模型构成挑战。然而,大语言模型并非在所有领域都有所改进,有一项任务仍远超它们的能力范围:它们完全不知道如何玩视频游戏。

虽然有少数模型成功通关了一些游戏(比如Gemini 2.5 Pro在2025年5月通关了《精灵宝可梦蓝版》),但这些例外反而证明了这一规律。最终获胜的AI完成游戏的速度比普通人类玩家慢得多,会犯一些奇怪且经常重复的错误,还需要定制软件来引导它们与游戏的交互。

纽约大学游戏创新实验室主任、AI游戏测试公司Modl.ai联合创始人Julian Togelius在最近的一篇论文中探讨了大语言模型在视频游戏方面局限性的影响。他与IEEE Spectrum谈论了缺乏视频游戏技能能告诉我们关于2026年AI整体状态的什么信息。

大语言模型在编程方面快速改进,您的论文将编程描述为一种"行为良好的游戏"

Julian Togelius:编程在某种意义上是极其"行为良好"的,因为你有任务。这些就像关卡一样。你得到规格说明,编写代码,然后运行它。

奖励是即时且细致的。代码必须编译,必须运行而不崩溃,然后通常还必须通过测试。通常,还会有关于失败原因和方式的解释。

游戏设计师Raph Koster有一个理论,认为游戏之所以有趣,是因为我们在玩游戏的过程中学会如何玩它们。从这个角度来看,编写代码是一个设计极其精良的游戏。事实上,编写代码是许多人喜欢做的事情。

与编程不同,大语言模型在视频游戏上表现不佳。考虑到它们在编程以及像国际象棋和围棋这样的游戏中的成功,这感觉令人惊讶

Togelius:不仅仅是大语言模型在这方面表现不佳。我们还没有通用的游戏AI。

有一种普遍的看法认为,因为我们可以构建在特定游戏上表现良好的AI,我们就应该能够构建一个可以玩任何游戏的AI。我不确定我们会达到那里。

人们会提到谷歌的AlphaZero(它不是大语言模型)可以同时玩围棋和国际象棋。然而,它必须为每种游戏重新训练和重新设计。而且这些游戏在输入和输出空间方面是相似的。大多数游戏彼此之间差异更大。它们有不同的机制和不同的输入表示。

还有数据问题。一些AI能够成功玩的游戏,如《我的世界》和《精灵宝可梦》,是世界上研究最充分的游戏之一,有数百万小时的指南。对于不太知名的游戏,相关数据要少得多。

似乎有助于大语言模型在编程方面改进的一个因素是基准测试的激增。但开发视频游戏的基准测试并不那么明确

Togelius:多年来我构建了许多基于游戏的AI基准测试。其中一个,通用视频游戏AI竞赛,运行了七年。我们在公开可用的游戏上测试智能体,每次举办比赛时我们都会发明十个新游戏来测试。

我们停止的一个原因是我们不再看到进展。智能体在一些游戏上表现更好,但在其他游戏上表现更差。这是在大语言模型出现之前。

最近我们一直在为大语言模型更新这个框架。它们失败了。它们表现绝对糟糕。所有模型都是如此。它们甚至不如简单的搜索算法表现得好。

为什么?它们从未在这些游戏上接受过训练,而且它们在空间推理方面也非常差。这并不令人惊讶,因为训练数据中也没有这些内容。

这似乎带来了一个矛盾。大语言模型不擅长玩游戏,但同时它们在编程方面快速改进,而编程技能可以用来创建游戏

Togelius:这确实很奇怪。你可以进入Cursor或Claude,写一个提示,然后得到一个可玩的游戏。游戏会很典型,因为大语言模型的代码编写能力在处理越典型的东西时越好。所以,如果你要求它给你类似《小行星》的东西,它会奏效。这很令人印象深刻。

然而,它不会给你一个好的或新颖的游戏。这确实看起来很奇怪。原因是大语言模型无法玩它。游戏开发是一个迭代过程。你编写,你测试,你调整游戏感觉。大语言模型无法做到这一点。

在某种程度上,我不认为在设计其他软件时有什么不同。是的,你可以要求大语言模型创建一个有很多按钮的图形用户界面。但大语言模型对如何使用它了解不多。

像英伟达和谷歌这样的公司已经谈论使用模拟(包括类似游戏的环境)来改进AI性能。如果AI无法掌握一般的游戏,我们对这种方法应该有多乐观

Togelius:游戏既比现实世界更容易,也更困难。它们更容易,因为抽象层次更少。它们更困难,因为游戏要多样化得多。现实世界到处都有相同的物理规律。

一个例子是Waymo,它在训练循环中使用世界模型。这是有道理的,因为驾驶在任何地方都大致相同。它比游戏的多样性要少得多。

这让人们感到困惑。人们看到大语言模型写了一篇关于量子物理的学术论文,会想,"它怎么不能同时玩《光环》和《太空侵略者》?"然而,在某种意义上,这些游戏彼此之间的差异比两篇学术论文之间的差异更大。

Q&A

Q1:大语言模型为什么在视频游戏上表现很差?

A:大语言模型在视频游戏上表现差主要有几个原因:首先,它们从未在这些游戏上接受过训练;其次,它们在空间推理方面非常差,而这在训练数据中也没有相关内容。此外,不同游戏之间差异很大,有不同的机制和输入表示,使得通用游戏AI变得困难。

Q2:大语言模型能编写游戏代码,为什么不能玩游戏?

A:这确实是个矛盾现象。大语言模型可以通过一个提示生成可玩的游戏,但无法实际游玩。原因在于游戏开发是迭代过程,需要编写、测试、调整游戏感觉,而大语言模型无法进行这种测试和调整。它们只能生成典型的游戏代码,但不知道如何使用或改进。

Q3:游戏AI的发展前景如何?能否实现通用游戏AI?

A:目前看来,通用游戏AI仍然很困难。虽然有些AI能玩特定游戏,如AlphaZero可以玩围棋和国际象棋,但必须为每种游戏重新训练。大多数游戏彼此差异很大,比现实世界的多样性还要复杂。专家认为我们可能无法实现真正的通用游戏AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丁俊晖晋级让吉尔伯特“暴怒”:英国孩子只想当网红,没人打球了

丁俊晖晋级让吉尔伯特“暴怒”:英国孩子只想当网红,没人打球了

里芃芃体育
2026-04-21 10:15:07
许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

小嵩
2026-04-20 13:52:49
失踪足足5天后,美军终于承认:价值16亿的最强无人机在中东没了

失踪足足5天后,美军终于承认:价值16亿的最强无人机在中东没了

健身狂人
2026-04-21 11:28:24
8岁男孩与家人爬山发现大片问荆草和含云母的石块,推测这座山下可能有黄金!孩子爸爸:已上报相关部门

8岁男孩与家人爬山发现大片问荆草和含云母的石块,推测这座山下可能有黄金!孩子爸爸:已上报相关部门

极目新闻
2026-04-21 00:48:26
反转来了,伊朗向印度油船开炮,事态急剧升级,特朗普或登机离国

反转来了,伊朗向印度油船开炮,事态急剧升级,特朗普或登机离国

健身狂人
2026-04-21 04:32:56
追梦:很希望科尔下赛季能继续执教勇士,但我认为不太可能了

追梦:很希望科尔下赛季能继续执教勇士,但我认为不太可能了

懂球帝
2026-04-21 13:00:08
突然调整!南京多所新建学校改建、缓建、停建!

突然调整!南京多所新建学校改建、缓建、停建!

南京择校
2026-04-21 10:57:34
被苹果、华为干倒的诺基亚,又杀回来了!

被苹果、华为干倒的诺基亚,又杀回来了!

大佬灼见
2026-04-19 10:28:53
黄山市一位副乡长发了16条私信,把知名主播“磨”进大山里卖笋,知名演员邓超也来了

黄山市一位副乡长发了16条私信,把知名主播“磨”进大山里卖笋,知名演员邓超也来了

扬子晚报
2026-04-21 07:26:40
中央层面整治形式主义为基层减负专项工作机制办公室 中央纪委办公厅公开通报4起整治形式主义为基层减负典型问题

中央层面整治形式主义为基层减负专项工作机制办公室 中央纪委办公厅公开通报4起整治形式主义为基层减负典型问题

新华社
2026-04-20 17:44:02
美伊冲突中特朗普真实状态首次披露:抱怨焦虑、摇摆与强撑;因情绪不稳定,救飞行员时被幕僚挡战情室外,每天都会观看伊朗境内爆炸画面

美伊冲突中特朗普真实状态首次披露:抱怨焦虑、摇摆与强撑;因情绪不稳定,救飞行员时被幕僚挡战情室外,每天都会观看伊朗境内爆炸画面

极目新闻
2026-04-20 16:20:57
太遗憾了!张雪机车荷兰站第7名收场,总积分落后杜卡迪、雅马哈

太遗憾了!张雪机车荷兰站第7名收场,总积分落后杜卡迪、雅马哈

削桐作琴
2026-04-20 16:25:31
29999元!华为非凡大师女表一分钟全部售罄:供不应求

29999元!华为非凡大师女表一分钟全部售罄:供不应求

快科技
2026-04-20 22:20:13
豆芽立大功!浙科大实证:豆芽可通过菌群代谢,减少84%腹部脂肪!

豆芽立大功!浙科大实证:豆芽可通过菌群代谢,减少84%腹部脂肪!

科学认识论
2026-04-20 14:45:02
震惊!上海成人展身着短裙丝袜女性从业者,被质问是否遭男性凝视

震惊!上海成人展身着短裙丝袜女性从业者,被质问是否遭男性凝视

火山詩话
2026-04-21 10:13:36
泽连斯基终于放弃了川普

泽连斯基终于放弃了川普

互联网大观
2026-04-20 12:14:17
曝第3批禁足名单已走流程!周四开听证会 或有广东省“大鱼”上榜

曝第3批禁足名单已走流程!周四开听证会 或有广东省“大鱼”上榜

我爱英超
2026-04-21 11:40:47
网友喊话请何润东代言霸王茶姬,有人都把图P好了,客服:建议已详细登记;何润东翻红后,账号涨粉近200万

网友喊话请何润东代言霸王茶姬,有人都把图P好了,客服:建议已详细登记;何润东翻红后,账号涨粉近200万

鲁中晨报
2026-04-20 14:48:15
NBA历史首现!文班全票当选最佳防守球员 成马刺队史第4位获奖者

NBA历史首现!文班全票当选最佳防守球员 成马刺队史第4位获奖者

罗说NBA
2026-04-21 06:20:00
越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

云舟史策
2026-04-20 07:21:35
2026-04-21 14:11:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17828文章数 49700关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

匈牙利当选总理毛焦尔:若内塔尼亚胡入境 必将被逮捕

头条要闻

匈牙利当选总理毛焦尔:若内塔尼亚胡入境 必将被逮捕

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

减速机订单已排到明年!

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

本地
时尚
旅游
公开课
军事航空

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

“爆冷”又如何?陈法拉的人生本就是一场逆袭大戏

旅游要闻

郑州南环公园新添紫藤秘境 16个品种解锁春日温柔

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普公开对伊开战真正原因

无障碍浏览 进入关怀版