网易首页 > 网易号 > 正文 申请入驻

大模型玩游戏,Deepseek-R1-0528 太强了

0
分享至

大家好,我是 Ai 学习的老章

看到一个很有意思的测试

让不同的大模型玩俄罗斯方块、推箱子、糖果粉碎传奇,对战结果有点出乎预料

Deepseek-R1-0528 在多个游戏中智胜 o4-mini 等强推理模型,在俄罗斯方块上几乎达到 SOTA 水平,与 o3 打得难分高下。 ✨

Deepseek-R1-0528 在非视觉类游戏中带来显著提升,包括推箱子和俄罗斯方块等长线游戏中的分数都翻倍了!

Qwen3-235B-A22B 作为极具竞争力的开源模型崭露头角,在《糖果粉碎传奇》等空间推理游戏中超越了 Gemini-2.5-flash-preview-0417

Deepseek-R1-0528 不仅在俄罗斯方块所向披靡,在需要强大空间推理能力的糖果粉碎传奇中也正逼近 SOTA 水平。

它以三轮平均 491.7 分的成绩(对比 o3 模型的 647.0 分),成为目前最接近顶级水平的开源竞争者。

Qwen3-235B-A22B 以稳健的 363.3 分紧随其后。

很好奇

这个测试是怎么实现的呢?

其实是基于这个项目:https://github.com/lmgame-org/GamingAgent

这是一个在标准化交互式游戏环境中启用和测试基于大型语言模型(LLM)和视觉语言模型(VLM)的智能体。

主要功能:

  1. 模型评估(基础模式):在一系列多样化的视频游戏中评估当前最先进的模型(LLM/VLM),这种评估在没有特定游戏控制框架(gaming harness)的“单一模型 VLM 设置”下进行。

  2. 智能体部署与评估(定制化流程):使用项目定制的 GamingAgent 工作流程(即游戏控制框架)来部署和评估模型,目的是提升模型在游戏中的表现。

  3. PC 端游戏智能体:用于部署可以在个人电脑和笔记本上运行的计算机使用智能体(Computer-Use Agents, CUAs)。

项目还推出了 Lmgame Bench,这是一个用于游戏智能体的基准测试平台,可以查看各个模型在游戏任务上的表现。

该项目支持多种主流 AI 模型的 API,包括:

  • OpenAI (gpt-4o, gpt-4o-mini 等)

  • Anthropic (claude-3.5-sonnet, claude-4-opus 等)

  • Gemini (gemini-2.5-pro, gemini-1.5-pro 等)

  • xAI (grok-3-mini)

  • Deepseek (reasoner R1, chat V3)

  • Qwen (Qwen3)

安装方法:

git clone https://github.com/lmgame-org/GamingAgent.git cd GamingAgent conda create -n lmgame python==3.10 -y conda activate lmgame pip install -e .

credentials.sh中设置 API keys:

export OPENAI_API_KEY={YOUR_OPENAI_API_KEY} export ANTHROPIC_API_KEY={YOUR_ANTHROPIC_API_KEY} export GEMINI_API_KEY={YOUR_GEMINI_API_KEY} export XAI_API_KEY={YOUR_XAI_API_KEY} export DEEPSEEK_API_KEY={YOUR_DEEPSEEK_API_KEY}

省事点可以在线体验(需要网络畅通)

在线体验:https://huggingface.co/spaces/lmgame/lmgame_bench

可以玩的游戏有推箱子、2048、俄罗斯方块、超级马里奥等

deepseek-r1 在糖果粉碎传奇上表现不错,在 2048 和 俄罗斯方块上表现中等,在推箱子和逆转裁判上表现较弱

总体看,最强的还是 o3/o4 mini、Gemini 2.5 Pro、Claude 3.7

更多细节,大家可以看下这篇论文:https://arxiv.org/pdf/2505.15146

这篇论文我大致看了一下,其中有一些提示词蛮有意思的

比如:如何用纯文字指导大模型玩游戏?

比如:推箱子

提示: 你正在解决推箱子谜题。你是玩家,需要将所有箱子推到目标位置。当你紧挨着箱子时,你可以通过向相同方向移动来推动它。你不能将箱子推过墙壁,也不能拉动箱子。答案应该是一个动作序列,例如 

 向右 || 向右 || 向上 answer>。 状态中每个符号的含义是: #: 墙壁,_: 空地,O: 目标,√: 箱子在目标上,X: 箱子,P: 玩家,S: 玩家在目标上 你的可用动作是: 上,下,左,右 你最多可以执行 10 个动作,动作之间用“ || ”分隔。 回合 1: 状态: ###### ###### #O#### #XP### #__### ###### 你还剩 10 次动作机会。始终输出: 

 [你的思考过程] div> 

  [你的答案]  answer>,不要带有多余的文本。严格遵守此格式。最大响应长度:100 词(标记)。 下一回合的提示: 奖励: -0.1 回合 2: 状态: {当前状态} 你还剩 9 次动作机会。始终输出: 

 [你的思考过程] div> 

  [你的答案]  answer>,不要带有多余的文本。严格遵守此格式。最大响应长度:100 词(标记)。




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山姆29.9元羽衣甘蓝盆栽被抢空,多地门店无货,客服:产品正更新迭代,可关注其他类似商品

山姆29.9元羽衣甘蓝盆栽被抢空,多地门店无货,客服:产品正更新迭代,可关注其他类似商品

极目新闻
2026-04-27 13:20:15
全员大乱斗!德比大战爆发群殴,门将染红后当众重拳打脸对手

全员大乱斗!德比大战爆发群殴,门将染红后当众重拳打脸对手

夜白侃球
2026-04-27 09:03:26
社评:如何看待中方叫停Manus并购案?

社评:如何看待中方叫停Manus并购案?

环球网资讯
2026-04-28 00:34:35
38岁王思聪近照认不出!满头白发穿睡衣度假,驼背显老像 50 岁

38岁王思聪近照认不出!满头白发穿睡衣度假,驼背显老像 50 岁

橙星文娱
2026-04-27 14:17:09
枪响白宫晚宴,戳破美“民主”假面

枪响白宫晚宴,戳破美“民主”假面

烽火瞭望者
2026-04-27 06:11:48
张雪亲自喊话车主:别骑了!我造的这台820RR,先给我停下来!

张雪亲自喊话车主:别骑了!我造的这台820RR,先给我停下来!

侃故事的阿庆
2026-04-27 13:14:34
大度 丁俊晖:我知道你们都希望赵心童赢我 我一直都支持中国选手

大度 丁俊晖:我知道你们都希望赵心童赢我 我一直都支持中国选手

风过乡
2026-04-27 07:39:09
医生调查发现:饿着睡觉的人,会比吃宵夜的人更容易患脑梗?

医生调查发现:饿着睡觉的人,会比吃宵夜的人更容易患脑梗?

芹姐说生活
2026-04-21 18:59:09
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
锁喉之手,终被斩断!中国终于夺回“工业血液”控制权!

锁喉之手,终被斩断!中国终于夺回“工业血液”控制权!

蜉蝣说
2026-04-27 11:56:22
上海地铁抢座大反转!真相彻底打脸,看完才知道根本不是你想那样

上海地铁抢座大反转!真相彻底打脸,看完才知道根本不是你想那样

小虎新车推荐员
2026-04-28 01:58:58
鸡蛋能不能天天吃?医生忠告:过了60岁以后,吃鸡蛋牢记5个关键

鸡蛋能不能天天吃?医生忠告:过了60岁以后,吃鸡蛋牢记5个关键

芹姐说生活
2026-04-27 17:13:55
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
白宫记协晚宴枪手被控试图刺杀特朗普

白宫记协晚宴枪手被控试图刺杀特朗普

澎湃新闻
2026-04-28 03:30:03
跌超0.44元/升后,下次5月8日调价,4月降下来的油价全涨回来!

跌超0.44元/升后,下次5月8日调价,4月降下来的油价全涨回来!

猪友巴巴
2026-04-27 09:16:38
太可恶!上海近期多发,警方严打:再抓10人团伙,作案手法披露→

太可恶!上海近期多发,警方严打:再抓10人团伙,作案手法披露→

新民晚报
2026-04-27 20:14:24
两万海员因战事被困波斯湾

两万海员因战事被困波斯湾

参考消息
2026-04-27 12:05:06
台湾要求全军禁止下载使用高德,孙玉良:禁令神助攻,当天冲第一

台湾要求全军禁止下载使用高德,孙玉良:禁令神助攻,当天冲第一

孙玉良
2026-04-25 09:21:34
高血压不能喝一滴酒?医生怒斥:高血压喝酒,或许要承担这些后果

高血压不能喝一滴酒?医生怒斥:高血压喝酒,或许要承担这些后果

医学科普汇
2026-04-27 22:25:07
2026-04-28 04:20:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3355文章数 11139关注度
往期回顾 全部

游戏要闻

魔坛节奏丨Life夺得S9天梯冠军,Infi爆料为何不爱给观众好脸色

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

科技要闻

DeepSeek V4上线三天,第一批实测出来了

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

本地
家居
旅游
健康
公开课

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

家居要闻

江景风格 流动的秩序

旅游要闻

不止看花 京津冀春日游花样翻新

干细胞如何让烧烫伤皮肤"再生"?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版