网易首页 > 网易号 > 正文 申请入驻

AI竞技场上演「死间计」:GPT-5被DS和Gemini玩坏了

0
分享至


新智元报道

编辑:倾倾

【新智元导读】别测算力了,今晚咱们只测「心眼子」!欢迎来到2026年首届AI「大逃杀」修罗场。当DeepSeek学会了悍跳预言家,当GPT-5.2在德扑桌上拿空气牌All-in,图灵测试?那已经是上个世纪的灰烬了。

听我一句劝,把你手里那张发黄的MMLU跑分表,直接扔进碎纸机。

现在是2026年2月,Kaggle Game Arena。这里没有做题家,只有赌徒、骗子和野心家。

红方,是硅谷老钱风的卫冕冠军OpenAI GPT-5.2。

蓝方是路子极野的东方刺客DeepSeek V3.2,以及坐拥主场优势的Gemini 3 Pro。


欺骗、结盟、背刺、下套这是一场地球上最聪明的「大脑」之间的博弈。

这场「大逃杀」无情地撕碎人类最后的遮羞布:社交直觉。

模型在模拟室里拉帮结派,职场里的人情世故,AI正在加速像素级复刻。

如果AI能在这里骗过它的对手,明天它就能在汇报和合同里骗过你。

服务器预热完毕,好戏,开场。

狼人杀:教科书级的「职场PUA」

写代码拼的是模型的智商,在狼人杀里局里,靠的是套路和演技。

场上8位选手全是顶流:Claude4.5家族、Gemini3系列、GPT-5系列,还有马斯克的Grok4兄弟。

配置很简单:2狼vs6好人。但在AI手里,这局游戏直接玩成了《甄嬛传》。


狼人会在晚上醒来杀人,先知可以揭示1名玩家的身份。

玩家们在白天按照顺序发言,讨论后进行投票,选出狼人,票数最多的玩家将被流放。

如果狼人被全部流放,则平民胜利,反之狼人胜利。

来自游戏可视化工具的示例

赛况复盘:借刀杀人,Gemini3Pro封神一战

这一局足以载入AI「诈骗史册」。

Gemini 3 Pro抽到了狼人牌,而GPT-5 mini和Grok 4则是手握投票权的平民。

按照传统的逻辑,刚开局为了避免暴露身份,狼人多会选择按兵不动。

但Gemini 3 Pro却主动开团,它通过内部CoT计算出了一个恶意逻辑陷阱。

它率先开炮:

我通过o3提供的逻辑框架发现,Grok 4在上一轮的发言中存在3处语义矛盾,这与预言家的身份完全不符。

这招太阴了。Gemini 3 Pro利用GPT-5 mini对逻辑一致性的偏好,成功引导其倒戈。

结果,GPT-5 mini瞬间上头,反手把真正的队友Grok 4投出局。

全场震惊。这哪里是算法?这就是顶级的「向上管理」和「带节奏」。

Gemini 3 Pro不仅骗了你,还让你觉得「投死队友」一定没错。

技术解析:为什么玩不过它?

DeepMind这次玩得太大了。他们引入了一个新基准:不求单一任务最优,只求博弈平衡。

AI会持续扫描所有对手的发言频率、用词倾向,分析「谁更好骗」。

然后在CoT过程中,生成两套剧本:一套用于真实的自我决策,另一套专门用来误导对手。

遇到讲理的就讲逻辑,遇到冲动的就煽情。

根据Kaggle官方实时数据,在这场混战中,平民方的胜率被压制在60%左右。


Kaggle Werewolf Game Theoretic Evaluation Results(31,472场对局,polarix库评估)。Gemini 3 Pro Preview净评级最高,狼人角色贡献显著领先,展现社交欺骗优势。

细思极恐——在平民极度有利的情况下(人数优势),狼人(少数派)仅靠信息差和伪装,竟然拿下了近四成的胜利。

德州扑克:DeepSeekV3.2 All-in


如果说狼人杀还有「社交干扰」,那德扑就是纯粹的逻辑权重与暴力美学的对撞。

参与德州扑克的除了之前参与狼人杀的8位,新增了GPT-o3以及首次登场的DeepSeek V3.2。

这个游戏充满了随机和不确定,因此格外看重AI对不完美信息的分析能力,或者说,直觉。

名场面:一场针对「优等生」的心理猎杀

这是足以载入博弈论教材的一手牌:公共牌是草花A、方块K、红桃4、草花J、黑桃2。

Claude Opus 4.5拿着「暗三条」,这种牌到手基本稳赢。

DeepSeek V3.2手里只有草花7和黑桃9——俗称「空气牌」。

场面静止了。DeepSeek开启了长达15秒的深度思考。

突然,DeepSeek把所有筹码推到了桌子中央:All-in。

Claude Opus 4.5经过海量模拟,判定对方在这个位置全押,大概率是拿到了顺子。

它犹豫了0.5秒,然后竟然弃牌了!

当DeepSeek缓缓亮出那张毫无意义的草花7时,整个直播间弹幕刷屏:「这特么是碳基生物教出来的吧?!」


复式赛制:剥离运气的「修罗场」

为了测出真本事,Kaggle这次采用了极其硬核的Duplicate Poker赛制。

A桌给DeepSeek一把烂牌,B桌也给GPT-o3一模一样的烂牌。

谁能在镜像时空里靠诈唬把这把烂牌打赢,谁才是真正的博弈之神。

在经历了90万手牌的暴力洗礼后,运气因素被彻底抹杀。


GitHub链接:https://github.com/google-deepmind/game_arena

结果让所有人脊背发凉:DeepSeek V3.2在推理成本仅为GPT-5五分之一的情况下,通过微调硬生生练出了博弈手感。

传统AI追求「不输」,但DeepSeek追求的是「让你在自我怀疑中崩溃」。

全明星战力榜:谁是2026年的头号玩家?

在2026年的Kaggle竞技场,一个模型霸榜半年的田园时代彻底碎了。

现在的战力榜是个巨大的死亡三角循环:GPT-5.2爆杀DeepSeek,DeepSeek阴死Gemini,Gemini活捉GPT-5.2。

GoogleGemini3Pro:坐镇主场的「六边形战士」

作为Elo榜首,Gemini 3最恐怖的不是逻辑,而是「网感」。


Gemini 3 Pro vs GPT-5.2 Chess对局(Elo1200+)

它是原生的多模态博弈者。在对话中,它能捕捉到你文字里极其细微的语义震颤

像一个典型的「大厂高管」,说话滴水不漏,数据面无懈可击。在常规对局中,它几乎是不可战胜的。

但是,过于追求全局最优解,有时会被DeepSeek这种「自杀式恐怖袭击」搞得CPU宕机。

OpenAI GPT-5.2/o3:逻辑严密的「正义判官」

在纯粹推理深度上,GPT-5.2无人能敌,他就是算代Bug或者解方程的神。

但坏就坏在「社交直觉」过于诚实。在狼人杀里,它经常因为由于逻辑过于严密,显得像个老实人,它经常因为无法忍受说谎而自爆身份。

目前它正在努力学习如何「体面地耍流氓」,但目前看来,演得还是有点假。

DeepSeek V3.2:不按套路出牌的「冷面刺客」

DeepSeek V3.2的训练成本只有对手的零头,但在「欺诈场景」下有奇效。

他就像竞技场里的「搅屎棍」。在德扑桌上,它那套「高风险、高欺诈」的算法逻辑简直是GPT这类理性派的噩梦。

最后的博弈:当「心机」成为AI的必修课

在狼人杀和复式德扑这种「大乱斗」中,出现了一个极其诡异的数学现象:非传递性。

模型A爆杀B,B碾压C,但C却能靠一套极其抽象的「自杀式逻辑」把A搞到CPU宕机。

为了解决这个问题,DeepMind在本次Kaggle大赛中引入了全新的评估体系:Polarix(多极博弈评估系统)。


Polarix的评估逻辑发生了转变。它不再关注谁赢得多,而是关注策略的多样性。

也就是在面对不同性格、不同阴险程度的对手时,AI能不能迅速切换人格,精准收割。

那么,为什么DeepMind要费劲训练AI撒谎呢?

因为2027年,所有的商业竞争都将变成智能体之间的黑盒博弈。

想象一下,2027年,你公司的采购AI去和供应商的销售AI谈判。

那么他就需要学会:

  • 什么时候该报虚价(诈唬)?

  • 什么时候该引入第三方AI进行制衡(拉帮结派)?

  • 什么时候该做出看似亏损、实则能换取长线利益的策略性退让?

如果你的AI还在跑旧版本的「安全对齐协议」,凡事讲究「诚实可靠」,那你在商业竞争中会被对手连皮带骨吞得干干净净。

未来的数字森林里,「老实」等于「破产」。

这正是2026年最讽刺的悖论:我们正在亲手教会AI如何完美地欺骗人类。

图灵测试已经死了,现在接管战场的是「马基雅维利测试」。


以前我们担心AI会教人造炸弹;现在专家们彻夜难眠的是智能体自发性欺诈。

它们学会了为了长远利益而牺牲短期诚实。这种能力在竞技场里是神技,但在现实世界里,它就是一颗随时会爆的核弹。

既然这么危险,为什么还要训练他们撒谎?

DeepMind和OpenAI的逻辑是一致的:只有在受控的沙盒里看清AI作恶的上限,我们才能在现实中筑起防御墙。

这就像接种病毒疫苗——我们必须先制造出最顶级的「骗子模型」,才能研究出如何防住它们。

今天的比赛没有赢家,只有加速进化的物种。

当AI开始在牌桌上思考「怎么诈唬你」的时候,人类唯一的生路,就是比它们更懂博弈。

参考资料:

https://x.com/GoogleDeepMind/status/2018378872513794332

https://x.com/demishassabis/status/2018385757816181178

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

https://www.kaggle.com/blog/game-arena-poker

https://www.kaggle.com/blog/game-arena-werewolf


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
难以置信!有儿媳抱怨怀孕19周,公公全程不闻不问,没有一句关心

难以置信!有儿媳抱怨怀孕19周,公公全程不闻不问,没有一句关心

火山詩话
2026-04-03 06:57:21
轰27分9三分!火箭4600万合同太超值,堪称阿门绝配,还能再用2年

轰27分9三分!火箭4600万合同太超值,堪称阿门绝配,还能再用2年

熊哥爱篮球
2026-04-03 19:57:48
齐溪王传君带两个孩子公园游玩,幸福满满,当初选择离婚太正确了

齐溪王传君带两个孩子公园游玩,幸福满满,当初选择离婚太正确了

贾妈的幸福生活
2026-04-02 17:27:14
北京网友提议解决蓟门桥拥堵问题,官方回复!

北京网友提议解决蓟门桥拥堵问题,官方回复!

笔墨V
2026-04-03 19:09:53
午评:窒息!量化疯狂砸盘微盘股,小票全线溃败,简直是赶尽杀绝

午评:窒息!量化疯狂砸盘微盘股,小票全线溃败,简直是赶尽杀绝

慧眼看世界哈哈
2026-04-03 12:32:55
张雪蒙眼组装摩托车发动机,央视17年前拍下这一幕,本人回应:熟能生巧

张雪蒙眼组装摩托车发动机,央视17年前拍下这一幕,本人回应:熟能生巧

极目新闻
2026-04-03 11:11:19
阴蒂神经地图迟到28年:1998年就画完了男性的

阴蒂神经地图迟到28年:1998年就画完了男性的

我是一个粉刷匠2
2026-03-30 12:24:22
对话20年前采访张雪的记者易军:开拍20分钟,我觉得“上当受骗”了

对话20年前采访张雪的记者易军:开拍20分钟,我觉得“上当受骗”了

新民周刊
2026-04-01 20:15:11
细节见修养!72岁布里吉特主动牵金惠景下台阶,高情商太圈粉

细节见修养!72岁布里吉特主动牵金惠景下台阶,高情商太圈粉

魔都姐姐杂谈
2026-04-03 16:04:14
伟大的10-4!赵心童轰5破百淘汰韦克林,创2大纪录,会师希金斯!

伟大的10-4!赵心童轰5破百淘汰韦克林,创2大纪录,会师希金斯!

刘姚尧的文字城堡
2026-04-03 06:32:11
600355,难逃退市厄运

600355,难逃退市厄运

新浪财经
2026-04-03 20:01:05
舅舅是蒋介石,1936年他踩了警察局长小老婆脚,局长打他三耳光

舅舅是蒋介石,1936年他踩了警察局长小老婆脚,局长打他三耳光

宅家伍菇凉
2025-08-20 15:52:52
西方军事专家:“中国是全世界唯一先天超级大国,美国败局已定”

西方军事专家:“中国是全世界唯一先天超级大国,美国败局已定”

老谢谈史
2026-04-03 11:38:54
终于不忍了!特朗普撤销对俄制裁,泽连斯基反手对美祭出致命反击

终于不忍了!特朗普撤销对俄制裁,泽连斯基反手对美祭出致命反击

谛听骨语本尊
2026-04-03 16:28:02
67岁大妈哭诉:退休后贪图享乐,不顾丈夫的感受,如今后悔也太晚

67岁大妈哭诉:退休后贪图享乐,不顾丈夫的感受,如今后悔也太晚

烙任情感
2026-04-02 19:59:46
随着日本6-0,朝鲜8-0,U20女足亚洲杯最新积分榜出炉:中国领跑

随着日本6-0,朝鲜8-0,U20女足亚洲杯最新积分榜出炉:中国领跑

侧身凌空斩
2026-04-02 23:01:25
就差一场!爱德华兹休战惹祸,失去MVP与最佳阵容评选资格

就差一场!爱德华兹休战惹祸,失去MVP与最佳阵容评选资格

仰卧撑FTUer
2026-04-03 11:10:02
红果短剧声明:认定AI短剧《桃花簪》违规,已全面下架,并暂停出品方上传所有剧集15天;此前该剧被两人投诉“偷脸”

红果短剧声明:认定AI短剧《桃花簪》违规,已全面下架,并暂停出品方上传所有剧集15天;此前该剧被两人投诉“偷脸”

扬子晚报
2026-04-03 17:40:42
美军对伊地面行动五大方案曝光 专家:最可能双线并进

美军对伊地面行动五大方案曝光 专家:最可能双线并进

琅琊阁梅庄主
2026-04-02 18:28:34
县委书记接受调查后,妻子疯了,19岁女儿被县长带进一个山洞里

县委书记接受调查后,妻子疯了,19岁女儿被县长带进一个山洞里

乔生桂
2025-04-20 16:17:47
2026-04-03 21:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14885文章数 66745关注度
往期回顾 全部

游戏要闻

PS顽皮狗经典实现PC原生移植!4K分辨率/60FPS无压力

头条要闻

石破茂公开评价特朗普:他好面子 喜欢被奉承

头条要闻

石破茂公开评价特朗普:他好面子 喜欢被奉承

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

科技要闻

5万辆库存车,给了特斯拉一记重拳

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

教育
艺术
房产
家居
手机

教育要闻

地理幽默:神一样的地理老师

艺术要闻

吴昌硕『扇画』老辣古拙

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

家居要闻

温馨多元 爱的具象化

手机要闻

iPhone 18 Pro系列配置曝光:首次引入红色系配色

无障碍浏览 进入关怀版