网易首页 > 网易号 > 正文 申请入驻

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

0
分享至

新智元报道

编辑:犀牛 英智

【新智元导读】悬疑小说的最后一页,隐藏着罪犯的真相。《逆转裁判》的法庭上,真凶在谎言中露出破绽。UCSD研究团队以这款经典游戏为舞台,o1、Gemini 2.5 Pro等模型化身「侦探」,测试AI的推理极限。

当谈到AI为何能从「预测下一个词」中诞生智慧时,Ilya Sutskever曾用一个生动的比喻来解释。

想象你在读一本悬疑小说,如果仅凭前面的线索就能在最后一页推断出罪犯是谁,那么你对这个故事的理解无疑是深刻的。

同样,AI通过学习海量文本,掌握了从字面到语义的「线索」,展现出惊人的智能。

受此启发,UCSD的华人研究者用游戏《逆转裁判》(Ace Attorney)测试AI的推理能力。

《逆转裁判》以错综复杂的故事情节和扣人心弦的法庭对决著称。

这款游戏堪称测试模型的完美舞台:AI化身侦探,收集线索、揭露矛盾,最终挖掘真相。

研究者让当前最顶尖的AI模型(GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等)在《逆转裁判》中接受考验,看它们能否喊出「反对!」,扭转案情,揭开谎言背后的真相。

和侦小说一样,模型玩家得把线索、证据串起来,揭露证词中的矛盾,抓住真凶。

测试中,AI模型要参与紧张的法庭盘问环节。它要敏锐地找出证词中的漏洞,拿出正确的证据进行反驳。每个关卡有5次机会,犯错空间有限。

团队测试了多款顶尖的AI多模态模型,包括o1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。

结果显示,o1和Gemini 2.5 Pro表现最佳,均晋级第4关。虽然未能通关,但o1在应对最复杂案件时,略胜Gemini 2.5 Pro一筹。

GPT-4.1与Claude 3.5表现相当。尽管GPT-4.1据称比GPT-4o有所提升,但这次测试中的表现与其持平。

Llama-4 Maverick一次没对,零分垫底!

为什么它很难?

《逆转裁判》游戏对AI模型十分困难,主要是因为模型需要有以下能力:

  • 长文本推理:需要比对之前的对话和证据,发现证词中的矛盾点。

  • 视觉理解:准确识别能反驳虚假陈述的图片。

  • 策略决策(游戏设计):动态变化的案件中,决定何时追问、出示证据或暂不行动。不仅要给出答案,还要在正确时机采取行动。

游戏设计要求AI把理解转化为有情境依据的行动,让它不只局限于处理文本或视觉任务。

因为AI需要推理情境化的行动空间,而非简单死记硬背,所以更不容易出现过拟合。

性价比哪家强

Gemini 2.5 Pro重新定义了性价比。

在性能相当的情况下,Gemini 2.5 Pro比o1-2024-12-17便宜6-15倍,甚至比GPT-4.1还便宜一点。

通过第1关的模型成本对比中,o1的API调用次数最少,总成本却是最高的。

调用次数体现的是策略,而非推理能力。因为深入挖掘证词,自然会触发更多请求。

进入更高关卡后,随着对话篇幅增加,o1的成本激增。

在第2关(一个很长的案例)中,o1的成本超过$45.75,而Gemini 2.5 Pro仅需$7.89,差距惊人!

注意:

  • Gemini 2.5 Pro使用内置token计数方法,将所有图片都按258个token计算,因此实际成本可能略高。

  • o1隐藏推理内容存在不确定性,其输出成本也可能被低估了。

目前团队已将项目开源,可以在里面查看如何设置游戏和LLM。

项目地址:https://github.com/lmgame-org/GamingAgent

除此之外,项目中还有更多经典游戏能测试AI模型的性能。

推箱子游戏

推箱子(Sokoban)是一款经典的单人游戏,以深邃的策略性著称。

推箱子的玩法简单直观,但挑战性极高。

玩家在一个由方格组成的迷宫中操作角色,通过逻辑思考和规划,将箱子推到目标位置。

2048游戏

这是一款数字益智游戏,玩家通过滑动方块合并相同数字,最终目标是合成2048方块。

策略上,应该优先保持最大数字在角落,规划滑动方向以避免方块堆积,灵活调整以应对随机出现的数字。

下图可以看出,Claude 3.7 玩起2048来还是挺丝滑的,能持续玩很多步。相比之下,GPT 4o不知道为什么,玩上几步就开始卡上了。

俄罗斯方块

俄罗斯方块是一款风靡全球的经典游戏。

玩家需通过移动和旋转方块,拼凑完整横行以消除得分,尽可能延长游戏时间或获得高分。

此外,还有超级马里奥、糖果粉碎传奇等多款游戏。

参考资料:

https://x.com/haoailab/status/1912231343372812508

https://huggingface.co/spaces/lmgame/game_arena_bench

https://lmgame.org/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

青眼财经
2025-11-13 23:02:27
小燕子前夫黄有龙的表弟佘智江被引渡回国,涉案高达2.77万亿元

小燕子前夫黄有龙的表弟佘智江被引渡回国,涉案高达2.77万亿元

17谭
2025-11-13 06:10:41
此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

乡野小珥
2025-10-19 14:41:29
大批日籍华人开始回国,还希望“祖国”接纳,中国会不会接受?

大批日籍华人开始回国,还希望“祖国”接纳,中国会不会接受?

红色国际
2025-08-26 23:15:03
史上最难回答的27个问题,个个长见识!

史上最难回答的27个问题,个个长见识!

深度报
2025-11-06 22:42:21
一场1-1,让荷兰无限接近世界杯!末轮打平=出线,莱万将踢附加赛

一场1-1,让荷兰无限接近世界杯!末轮打平=出线,莱万将踢附加赛

侃球熊弟
2025-11-15 05:01:37
停止对华出口汽车后,通用欲终止所有对华采购,释放了什么信号?

停止对华出口汽车后,通用欲终止所有对华采购,释放了什么信号?

诗意世界
2025-11-14 21:24:27
赛事方回应赵鸿刚申诉:判罚已不能改变,希望你尽快回来再打一场

赛事方回应赵鸿刚申诉:判罚已不能改变,希望你尽快回来再打一场

杨华评论
2025-11-14 15:54:05
虽败犹荣!河南女排0-3江苏,朱婷双拳难敌四手,吴梦洁强攻发威

虽败犹荣!河南女排0-3江苏,朱婷双拳难敌四手,吴梦洁强攻发威

骑马寺的少年
2025-11-14 20:49:43
谁想到,特鲁姆普6-2逆转后会这么说,赵心童尴尬,浪费好机会

谁想到,特鲁姆普6-2逆转后会这么说,赵心童尴尬,浪费好机会

爱情的滋味我也想尝尝
2025-11-15 08:06:51
60台光刻机,1000亿元!荷兰正式表态,外媒:ASML准备秋后算账了

60台光刻机,1000亿元!荷兰正式表态,外媒:ASML准备秋后算账了

古事寻踪记
2025-11-14 07:09:44
一扯就断,中铁16局领导们这个周末睡不好觉了,被曝材料偷梁换柱

一扯就断,中铁16局领导们这个周末睡不好觉了,被曝材料偷梁换柱

叮当当科技
2025-11-14 09:31:01
随着荷兰1-1波兰,德国2-0,世预赛最新积分榜:克罗地亚进世界杯

随着荷兰1-1波兰,德国2-0,世预赛最新积分榜:克罗地亚进世界杯

侃球熊弟
2025-11-15 04:49:44
官方:太阳将马鲁阿奇下放至G联赛;将出战对阵杨瀚森的比赛

官方:太阳将马鲁阿奇下放至G联赛;将出战对阵杨瀚森的比赛

懂球帝
2025-11-15 09:05:08
美学者一语中的:高市妄言,让中国人一下子想到了90年前…

美学者一语中的:高市妄言,让中国人一下子想到了90年前…

观察者网
2025-11-14 20:18:02
网红痞幼官宣与小袁同学分手:我觉得朋友更合适吧

网红痞幼官宣与小袁同学分手:我觉得朋友更合适吧

韩小娱
2025-11-15 07:11:19
美智库:俄军实控波城46%,八国发表联合声明支持乌克兰

美智库:俄军实控波城46%,八国发表联合声明支持乌克兰

史政先锋
2025-11-14 17:58:49
尹锡悦结局已定?心腹全都招了,听到枪毙两个字后,他当场呆住

尹锡悦结局已定?心腹全都招了,听到枪毙两个字后,他当场呆住

夏目历史君
2025-11-14 22:17:31
柬埔寨很安全!像陈志这样的企业家,他们对国人掏心掏肺诚意十足

柬埔寨很安全!像陈志这样的企业家,他们对国人掏心掏肺诚意十足

刚哥说法365
2025-11-13 22:50:12
中方呼吁加大对近东救济工程处的支持力度

中方呼吁加大对近东救济工程处的支持力度

新华社
2025-11-14 12:11:09
2025-11-15 11:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13871文章数 66246关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

业主爆改一梯一户 公摊电梯厅成火锅涮菜区和私人影院

头条要闻

业主爆改一梯一户 公摊电梯厅成火锅涮菜区和私人影院

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

家居
房产
旅游
数码
健康

家居要闻

现代简逸 寻找生活的光

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

旅游要闻

大槐树景区跻身全国百强!

数码要闻

一抹高级红:苹果再度携手第三方,公布“暗樱桃色”主题配件阵容

金振口服液助力科学应对呼吸道疾病

无障碍浏览 进入关怀版