网易首页 > 网易号 > 正文 申请入驻

逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

0
分享至

机器之心报道

编辑:Panda

ARC Prize,曾在去年底 OpenAI 12 天连发的最后一天赚尽了眼球,其发布已经 5 年的基准 ARC-AGI 首次迎来了得分达到优良等级的挑战者:o3 系列模型。参阅机器之心报道《刚刚,OpenAI 放出最后大惊喜 o3,高计算模式每任务花费数千美元》。

自那以后已经过去了两个多月,AI 领域早已经迎来了巨大的改变,其中尤其值得提及的便是 DeepSeek-R1 模型。凭借开源和低成本等优势,这款性能强大的推理模型不仅已经成为国内 AI 或云服务商的标配,还正被集成到越来越多的应用和服务中,甚至原来很多原本与 AI 没有直接关联的应用也以接入 DeepSeek 为卖点进行宣传。

那么,DeepSeek-R1 的 ARC-AGI 成绩如何呢?根据 ARC Prize 发布的报告,R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型,更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势:成本低。

来源:https://arcprize.org/blog/r1-zero-r1-results-analysis

上周六,ARC Prize 又发布了一个新的基准,这一次 DeepSeek-R1 不仅超过了 o1-mini,与 o3-mini 的差距也非常小。

这个新基准名为SnakeBench,是一个 1v1 的对抗性基准。其思路很简单:将两个 LLM 放在一起进行贪吃蛇比赛。如下展示了一局 o3-mini 与 DeepSeek-R1 的对抗。

  • 官方网站:https://snakebench.com
  • 项目地址:https://github.com/gkamradt/SnakeBench

SnakeBench:缘起

ARC Prize 的推文表示,SnakeBench 的设计灵感来自著名 AI 研究科学家 Andrej Karpathy 的一条推文,其中涉及到了让 AI 智能体在游戏中进行对抗以进行评估的思路。(这条推文还涉及到另一个使用游戏来评估 LLM 的基准 TextArena,感兴趣的读者可访问:https://www.textarena.ai )

ARC Prize 表示,使用游戏作为评估环境可以检验 LLM 的多种能力,包括:

  • 实时决策
  • 多重目标
  • 空间推理
  • 动态环境

模型的表现

ARC Prize 报告说他们目前已经使用 50 个 LLM 进行了总共 2800 场比赛,为这些模型的「贪吃蛇实时策略和空间推理」能力排了个座次。

具体过程是怎样的呢?

首先,以文本格式提供两个 LLM 角逐的棋盘,其中会通过提示词明确说明所用的 XY 坐标系。因此需要明确,这里提供的并非真正的 2D 表示 —— 这种信息转译可能会丢失某些空间推理信息。下面展示了一个提示词示例:

在游戏进行时,首先随机初始化每条蛇。然后要求两条蛇(LLM)同时选择下一步动作。当一条蛇撞到墙、撞到自己或撞到另一条蛇时,游戏结束。之后,根据游戏结果计算每条蛇的 Elo 评分。

以下为完整榜单:

据介绍,整体来说,Big Llama、o1、o3、Sonnet 3.5 和 DeepSeek 的表现最好,而其它 LLM 总是会撞墙。下面展示了几局效果最好的比赛:

ARC Prize 官网还详细列出了这四局比赛的完整详情,下面展示了其中第二局(DeepSeek-R1 vs o3-mini)的详情。在这里,不仅可以看到 LLM 每一步的选择,而且还能看到 LLM 为每一步选择给出的理由。当然,对于 DeepSeek-R1 模型,我们还可以清楚地看到其完整的思考过程。

Dry Merge CTO Sam Brashears 还注意到了一个非常有趣的回合。此时,o3-mini 和 DeepSeek 同时与一个苹果相邻,而它们竟然同时认为对方不会冒险吃这个苹果,于是决定自己去吃,结果导致双双毙命。

此时,DeepSeek 想的是:「如果我向右移动到 (8,7) ,同时如果蛇 1 也向左移动,则有与蛇 1 相撞的风险。但是,为了保证分数,吃到苹果优先于规避风险。」

而此时 o3-mini 也有类似的想法:「尽管我们的敌蛇(蛇 2)的头位于 (7,7) 处,也有可能想吃这个苹果,但没有强烈的迹象表明它会冒险用自己更长的身体与我正面碰撞。因此,吃到苹果的直接好处大于风险。」

以下是 ARC Prize 总裁 Greg Kamradt 总结的几点关键发现:

  • 推理模型占据主导:o3-mini 和 DeepSeek 赢得了 78% 的比赛。
  • LLM 经常误解以文本格式提供的棋盘布局。这会导致模型错误地定位蛇头的位置,或者导致蛇撞到自己的尾巴。
  • 较低档的模型(包括 GPT-3.5 Turbo 和 Haiku)表现不佳,而只有 GPT-4、Gemini 2.0 和 o3-mini 表现出足够的策略游戏推理能力。这说明基本的空间推理仍然是 LLM 面临的巨大挑战。大多数模型都无法跟踪自己的位置,并且会犯明显的错误。
  • 上下文很关键。为了让 LLM 做出正确选择,需要让其加载大量信息,包括棋盘位置、苹果位置、其它蛇的位置等。

有趣的是,这种 LLM 对抗竞技显然很容易复现,CoreView 联合创始人兼 CTO Ivan Fioravanti 便基于 Ollama 让 deepseek-r1:32b 与 qwen2.5-coder:32b 进行了贪吃蛇比赛。

另外也有用户分享了自己让具有视觉能力的 LLM 玩贪吃蛇的经历,不过不同于 SnakeBench 的结果,反倒是 Gemini 表现最好。

https://x.com/arcprize/status/1890464921604719103

https://x.com/GregKamradt/status/1890466144533749866

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

混沌录
2026-03-25 16:22:08
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
地铁出口A、B、C、D藏着方向规律,记住这套方法 全国出行不绕远路

地铁出口A、B、C、D藏着方向规律,记住这套方法 全国出行不绕远路

水泥土的搞笑
2026-03-17 13:38:42
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
75岁港星花百万在中山买房,住了两年称生活素质高,后悔搬来太晚

75岁港星花百万在中山买房,住了两年称生活素质高,后悔搬来太晚

树娃
2026-03-24 12:28:41
当代韦德!近4战场均29+8+6!早得到球权,他也会是最佳新秀热门

当代韦德!近4战场均29+8+6!早得到球权,他也会是最佳新秀热门

你的篮球频道
2026-03-26 11:37:46
人情世故是怎么学会的 看网友讲述魏忠贤处事方式 思想上一个台阶

人情世故是怎么学会的 看网友讲述魏忠贤处事方式 思想上一个台阶

侃神评故事
2026-03-16 15:10:03
国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

体坛鉴春秋
2026-03-26 12:23:21
布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

湖人崛起
2026-03-26 10:00:59
最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

火山詩话
2026-03-24 17:32:57
“顶流”爆款!一年卖了2.5亿元!穿越千年的“宝藏”生意

“顶流”爆款!一年卖了2.5亿元!穿越千年的“宝藏”生意

环球网资讯
2026-03-26 08:45:21
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
匈牙利外长:即日起逐步停止向乌克兰输送天然气

匈牙利外长:即日起逐步停止向乌克兰输送天然气

财联社
2026-03-26 00:09:09
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
《逐玉》引领男色时代:一张脸后是更帅的脸,谁的古装扮相最惊艳

《逐玉》引领男色时代:一张脸后是更帅的脸,谁的古装扮相最惊艳

扒点半吃瓜
2026-03-26 07:00:09
这些“垃圾花”也该被315曝光,别再坑害花友了,白送都不能要

这些“垃圾花”也该被315曝光,别再坑害花友了,白送都不能要

三农老历
2026-03-20 00:32:02
浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

红豆讲堂
2024-09-13 09:35:43
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
2026-03-26 23:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
数码
亲子
房产
手机

400万人爱过的女孩,被黄谣网暴180天后

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

亲子要闻

看看把孩子吓得哈哈哈

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

无障碍浏览 进入关怀版