网易首页 > 网易号 > 正文 申请入驻

谷歌再次创造历史:Gemini 2.5 Pro 通关《宝可梦:蓝》!

0
分享至

  人工智能宝可梦终于实现了!谷歌Gemini 2.5 Pro 模型,刚刚成功通关了经典游戏《宝可梦:蓝》

  

  谷歌CEO桑达尔·皮查伊 (Sundar Pichai) 和 DeepMind 负责人戴密斯·哈萨比斯 (Demis Hassabis) 都发文祝贺,感谢了运行这个直播实验的工程师 Joel Z

  这事儿怎么来的?

  首先得介绍下 Joel Z,他是一位30岁的软件工程师,跟谷歌没直接关系。他搞这个实验,是因为 Gemini 2.5 Pro 出了个实验版,大家就好奇它玩游戏怎么样。于是,就有了这个 "Gemini Plays Pokémon" 直播

  这个项目受到了另一个类似项目 "ClaudePlaysPokemon" 的启发。不过 Joel Z 选择了《宝可梦:蓝》,一是因为 Claude 已经在玩《红》了,二是因为《蓝》是他自己玩的第一款宝可梦

  Gemini 是怎么玩游戏的?

  这才是重点。这个项目不是简单地让 AI 瞎点,而是构建了一套自主决策系统:

  连接游戏:代码通过 Socket 连接到 mGBA 模拟器,能实时截图、发送按键指令(A、B、上、下等),还能读取游戏内存数据,比如玩家位置、宝可梦状态、地图信息等

  AI 决策:系统把带网格线的游戏截图,加上从内存提取的游戏状态信息,发给 Gemini 2.5 Pro。Gemini 分析这些信息,决定下一步操作

  专业“外援”:有时候,Gemini 会把特定任务交给专门的“智能体”(Agent)来处理,以提高效率和可靠性

  执行与循环:系统解析 AI 的指令,转换成具体的按键,发送给模拟器,等游戏画面更新,然后重复这个过程

  它和 Claude 玩宝可梦有啥不同?

  Joel Z 特别强调,不要把这看作是 LLM 玩宝可梦的基准测试。两者有很多不同:

  导航方式:Claude 有个自动导航工具。Gemini 没有,它需要自主决定目的地,然后要么自己规划路线,要么调用一个路径规划智能体(Pathfinder Agent,其实是另一个 Gemini 实例)来寻找最优路径。这个智能体能独立思考,甚至用 BFS(广度优先搜索)这类算法来规划

  信息获取:两者接收到的游戏信息和使用的工具不同

  思维模式:每个模型思考方式不同,各有擅长

  所以,别直接比较谁“更强”,不如都看看,感受下不同 AI 的“思路”。Joel Z 也坦言,他觉得 Claude 的框架有些不足,想看看给 Gemini 配上合适的工具后能走多远

  关于“作弊”的讨论

  直播过程中,有观众注意到 Joel Z 会进行一些干预,还有那个小地图,这算不算“作弊”?

  开发者干预:Joel Z 解释说,这不是作弊。项目还在开发阶段,他的干预是为了改进 Gemini 的通用决策和推理能力,而不是给具体关卡的提示(比如没告诉它怎么过月见山)。唯一接近“提示”的是,告知 Gemini 需要和某个火箭队员对话两次才能拿到电梯钥匙,这其实是原版游戏的一个小“坑”,在后续版本修复了。他提到,Claude 项目在直播前也做过类似的幕后优化,Gemini 只是把这个开发过程公开了

  小地图:游戏界面上方那个小地图,是 Gemini 探索区域的可视化。Gemini 本身看不到图像,只接收文本形式的地图信息。Joel Z 认为,人类玩游戏会自然形成心理地图,目前的 LLM 还做不到,小地图是为了弥补这个能力缺陷,并非作弊

  限制 Escape Rope / Dig:Gemini 只有在低血量且没有治疗道具时才能使用“穿洞绳”或“挖洞”。这是因为 LLM 还不太擅长判断自己是真卡关了,还是暂时迷路。这个限制强制 Gemini 更多依赖地图记忆和路径规划**,能更清晰地展示其推理过程,避免一遇到困难就“抄近道”

  特色“智能体”

  除了核心的 Gemini 模型,系统还引入了两个专门的 LLM 智能体:

  1.路径规划智能体 (Pathfinder Agent):如前所述,负责复杂区域(如火箭队基地的旋转地板迷宫)和一般场景的寻路

  2.推箱子策略师 (Boulder Puzzle Strategist, BPS):专门为“冠军之路”的推箱子谜题设计。它能模拟推箱子的序列,找出有效的解法,提高了 Gemini 应对这类挑战的可靠性

  内存管理

  为了控制输入给模型的 Token 数量,系统大约每 100 次操作就会对消息进行一次总结,用总结替换掉原始消息。

  未来计划(暂定)

  Joel Z 的想法还包括:

  • 改进内存管理机制

  • 让 Gemini 能记笔记,记录重要信息

  • 给 Gemini 提供更丰富的游戏状态信息(进行中)

  • 探索让观众在不剧透的前提下与 Gemini 互动的方式

  • 等框架稳定后,进行一次完全无干预的通关尝试

  • 尝试用其他 LLM(如 Claude 或 o3)进行对比实验

  参考:

  https://www.twitch.tv/gemini_plays_pokemon

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个动物园,“被报复”了五年

一个动物园,“被报复”了五年

中国新闻周刊
2026-02-17 07:37:04
女演员王楚然首登春晚,不到20秒绝美镜头涨粉超65万

女演员王楚然首登春晚,不到20秒绝美镜头涨粉超65万

大象新闻
2026-02-17 14:43:29
英国男子大闹香港机场打砸机器被捕,背包里检获疑“伟哥”管制药品:案发前原本计划买机票离开香港

英国男子大闹香港机场打砸机器被捕,背包里检获疑“伟哥”管制药品:案发前原本计划买机票离开香港

大风新闻
2026-02-17 17:52:16
有情有义!艾克森退役后仍过春节:连续3年主动送春节祝福!

有情有义!艾克森退役后仍过春节:连续3年主动送春节祝福!

邱泽云
2026-02-17 13:46:26
台湾震传媒民调:63.5%的受访民众不接受郑丽文的身份认同主张

台湾震传媒民调:63.5%的受访民众不接受郑丽文的身份认同主张

总在茶余后
2026-02-16 23:18:17
马年春晚带火了机器人,机器人卖爆了,就连售价63万元的机器人也秒光

马年春晚带火了机器人,机器人卖爆了,就连售价63万元的机器人也秒光

极目新闻
2026-02-17 11:03:42
刷屏!马丽“单飞”,沈腾紧张到说错词?这个小品讽刺拉满,网友:尺度不小!秦岚、王楚然、李沁古装“美到词穷”,王一博回应打滑

刷屏!马丽“单飞”,沈腾紧张到说错词?这个小品讽刺拉满,网友:尺度不小!秦岚、王楚然、李沁古装“美到词穷”,王一博回应打滑

每日经济新闻
2026-02-17 11:08:38
超级巨大失误!日本门将送礼,韦世豪铲射破门,破847天亚冠球荒

超级巨大失误!日本门将送礼,韦世豪铲射破门,破847天亚冠球荒

奥拜尔
2026-02-17 18:38:12
79年对越战争许世友为何对邓小平不满?回国当天没人敢去机场迎接

79年对越战争许世友为何对邓小平不满?回国当天没人敢去机场迎接

历史龙元阁
2026-02-16 12:50:06
美媒评现役最被高估球员TOP10!前五勇士独占两席 浓眉哥高居第二

美媒评现役最被高估球员TOP10!前五勇士独占两席 浓眉哥高居第二

锅子篮球
2026-02-17 13:27:32
为啥中国精英盼着中国输?复旦教授:中国一旦追上,绿卡就会贬值

为啥中国精英盼着中国输?复旦教授:中国一旦追上,绿卡就会贬值

大鱼简科
2026-02-15 22:00:23
巨大争议!加州80岁华裔老太太撞死苹果高管一家四口,迅速转移财产,仅缓刑+吊销驾照

巨大争议!加州80岁华裔老太太撞死苹果高管一家四口,迅速转移财产,仅缓刑+吊销驾照

大洛杉矶LA
2026-02-17 03:23:37
热巴春晚造型吵翻了!人鱼姬妆褒贬不一,化妆师评论区被冲

热巴春晚造型吵翻了!人鱼姬妆褒贬不一,化妆师评论区被冲

每一次点击
2026-02-17 00:39:52
NFT大崩盘!贾斯汀・比伯130万美元买的 “无聊猿猴”,如今仅值1.2万美元

NFT大崩盘!贾斯汀・比伯130万美元买的 “无聊猿猴”,如今仅值1.2万美元

回旋镖
2026-02-17 15:49:15
收视率破36!央视马年春晚首波口碑出炉,观众的评价“一针见血”

收视率破36!央视马年春晚首波口碑出炉,观众的评价“一针见血”

八卦南风
2026-02-16 23:11:18
“6.8时代”,离岸人民币汇率继续上涨

“6.8时代”,离岸人民币汇率继续上涨

财闻
2026-02-17 10:50:28
俄罗斯最大军火库被打爆,法新社:乌军5天收复201平方公里

俄罗斯最大军火库被打爆,法新社:乌军5天收复201平方公里

史政先锋
2026-02-17 14:27:47
鲁比奥再就对华关系表态:若美中没有交流互动,那将是疯狂的

鲁比奥再就对华关系表态:若美中没有交流互动,那将是疯狂的

环球网资讯
2026-02-17 17:25:54
春晚小品没笑点,魔术失误却笑倒一片,建议取消小品留魔术!

春晚小品没笑点,魔术失误却笑倒一片,建议取消小品留魔术!

离离言几许
2026-02-17 09:11:16
“初二4不出,到头一场空”,明日初二,4不出是指啥?不要犯忌讳

“初二4不出,到头一场空”,明日初二,4不出是指啥?不要犯忌讳

阿天爱旅行
2026-02-17 10:38:10
2026-02-17 19:20:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1033文章数 396关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

鲁比奥再就对华关系表态:若美中无交流 那将是疯狂的

头条要闻

鲁比奥再就对华关系表态:若美中无交流 那将是疯狂的

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春晚三大感人瞬间:周深于和伟上榜

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

教育
房产
时尚
家居
健康

教育要闻

五年级奥数求面积,六年级同学也可以试试

房产要闻

三亚新机场,又传出新消息!

今年春天最流行的4组配色,过年穿时髦又高级!

家居要闻

中古雅韵 乐韵伴日常

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版