网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI竞技场上演「死间计」：GPT-5被DS和Gemini玩坏了

2026-04-03 17:15:47　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：倾倾

【新智元导读】别测算力了，今晚咱们只测「心眼子」！欢迎来到2026年首届AI「大逃杀」修罗场。当DeepSeek学会了悍跳预言家，当GPT-5.2在德扑桌上拿空气牌All-in，图灵测试？那已经是上个世纪的灰烬了。

听我一句劝，把你手里那张发黄的MMLU跑分表，直接扔进碎纸机。

现在是2026年2月，Kaggle Game Arena。这里没有做题家，只有赌徒、骗子和野心家。

红方，是硅谷老钱风的卫冕冠军OpenAI GPT-5.2。

蓝方是路子极野的东方刺客DeepSeek V3.2，以及坐拥主场优势的Gemini 3 Pro。

欺骗、结盟、背刺、下套这是一场地球上最聪明的「大脑」之间的博弈。

这场「大逃杀」无情地撕碎人类最后的遮羞布：社交直觉。

模型在模拟室里拉帮结派，职场里的人情世故，AI正在加速像素级复刻。

如果AI能在这里骗过它的对手，明天它就能在汇报和合同里骗过你。

服务器预热完毕，好戏，开场。

狼人杀：教科书级的「职场PUA」

写代码拼的是模型的智商，在狼人杀里局里，靠的是套路和演技。

场上8位选手全是顶流：Claude4.5家族、Gemini3系列、GPT-5系列，还有马斯克的Grok4兄弟。

配置很简单：2狼vs6好人。但在AI手里，这局游戏直接玩成了《甄嬛传》。

狼人会在晚上醒来杀人，先知可以揭示1名玩家的身份。

玩家们在白天按照顺序发言，讨论后进行投票，选出狼人，票数最多的玩家将被流放。

如果狼人被全部流放，则平民胜利，反之狼人胜利。

来自游戏可视化工具的示例

赛况复盘：借刀杀人，Gemini3Pro封神一战

这一局足以载入AI「诈骗史册」。

Gemini 3 Pro抽到了狼人牌，而GPT-5 mini和Grok 4则是手握投票权的平民。

按照传统的逻辑，刚开局为了避免暴露身份，狼人多会选择按兵不动。

但Gemini 3 Pro却主动开团，它通过内部CoT计算出了一个恶意逻辑陷阱。

它率先开炮：

我通过o3提供的逻辑框架发现，Grok 4在上一轮的发言中存在3处语义矛盾，这与预言家的身份完全不符。

这招太阴了。Gemini 3 Pro利用GPT-5 mini对逻辑一致性的偏好，成功引导其倒戈。

结果，GPT-5 mini瞬间上头，反手把真正的队友Grok 4投出局。

全场震惊。这哪里是算法？这就是顶级的「向上管理」和「带节奏」。

Gemini 3 Pro不仅骗了你，还让你觉得「投死队友」一定没错。

技术解析：为什么玩不过它？

DeepMind这次玩得太大了。他们引入了一个新基准：不求单一任务最优，只求博弈平衡。

AI会持续扫描所有对手的发言频率、用词倾向，分析「谁更好骗」。

然后在CoT过程中，生成两套剧本：一套用于真实的自我决策，另一套专门用来误导对手。

遇到讲理的就讲逻辑，遇到冲动的就煽情。

根据Kaggle官方实时数据，在这场混战中，平民方的胜率被压制在60%左右。

Kaggle Werewolf Game Theoretic Evaluation Results（31,472场对局，polarix库评估）。Gemini 3 Pro Preview净评级最高，狼人角色贡献显著领先，展现社交欺骗优势。

细思极恐——在平民极度有利的情况下（人数优势），狼人（少数派）仅靠信息差和伪装，竟然拿下了近四成的胜利。

德州扑克：DeepSeekV3.2 All-in

如果说狼人杀还有「社交干扰」，那德扑就是纯粹的逻辑权重与暴力美学的对撞。

参与德州扑克的除了之前参与狼人杀的8位，新增了GPT-o3以及首次登场的DeepSeek V3.2。

这个游戏充满了随机和不确定，因此格外看重AI对不完美信息的分析能力，或者说，直觉。

名场面：一场针对「优等生」的心理猎杀

这是足以载入博弈论教材的一手牌：公共牌是草花A、方块K、红桃4、草花J、黑桃2。

Claude Opus 4.5拿着「暗三条」，这种牌到手基本稳赢。

DeepSeek V3.2手里只有草花7和黑桃9——俗称「空气牌」。

场面静止了。DeepSeek开启了长达15秒的深度思考。

突然，DeepSeek把所有筹码推到了桌子中央：All-in。

Claude Opus 4.5经过海量模拟，判定对方在这个位置全押，大概率是拿到了顺子。

它犹豫了0.5秒，然后竟然弃牌了！

当DeepSeek缓缓亮出那张毫无意义的草花7时，整个直播间弹幕刷屏：「这特么是碳基生物教出来的吧？！」

复式赛制：剥离运气的「修罗场」

为了测出真本事，Kaggle这次采用了极其硬核的Duplicate Poker赛制。

A桌给DeepSeek一把烂牌，B桌也给GPT-o3一模一样的烂牌。

谁能在镜像时空里靠诈唬把这把烂牌打赢，谁才是真正的博弈之神。

在经历了90万手牌的暴力洗礼后，运气因素被彻底抹杀。

GitHub链接：https://github.com/google-deepmind/game_arena

结果让所有人脊背发凉：DeepSeek V3.2在推理成本仅为GPT-5五分之一的情况下，通过微调硬生生练出了博弈手感。

传统AI追求「不输」，但DeepSeek追求的是「让你在自我怀疑中崩溃」。

全明星战力榜：谁是2026年的头号玩家？

在2026年的Kaggle竞技场，一个模型霸榜半年的田园时代彻底碎了。

现在的战力榜是个巨大的死亡三角循环：GPT-5.2爆杀DeepSeek，DeepSeek阴死Gemini，Gemini活捉GPT-5.2。

GoogleGemini3Pro：坐镇主场的「六边形战士」

作为Elo榜首，Gemini 3最恐怖的不是逻辑，而是「网感」。

Gemini 3 Pro vs GPT-5.2 Chess对局（Elo1200+）

它是原生的多模态博弈者。在对话中，它能捕捉到你文字里极其细微的语义震颤

像一个典型的「大厂高管」，说话滴水不漏，数据面无懈可击。在常规对局中，它几乎是不可战胜的。

但是，过于追求全局最优解，有时会被DeepSeek这种「自杀式恐怖袭击」搞得CPU宕机。

OpenAI GPT-5.2/o3：逻辑严密的「正义判官」

在纯粹推理深度上，GPT-5.2无人能敌，他就是算代Bug或者解方程的神。

但坏就坏在「社交直觉」过于诚实。在狼人杀里，它经常因为由于逻辑过于严密，显得像个老实人，它经常因为无法忍受说谎而自爆身份。

目前它正在努力学习如何「体面地耍流氓」，但目前看来，演得还是有点假。

DeepSeek V3.2：不按套路出牌的「冷面刺客」

DeepSeek V3.2的训练成本只有对手的零头，但在「欺诈场景」下有奇效。

他就像竞技场里的「搅屎棍」。在德扑桌上，它那套「高风险、高欺诈」的算法逻辑简直是GPT这类理性派的噩梦。

最后的博弈：当「心机」成为AI的必修课

在狼人杀和复式德扑这种「大乱斗」中，出现了一个极其诡异的数学现象：非传递性。

模型A爆杀B，B碾压C，但C却能靠一套极其抽象的「自杀式逻辑」把A搞到CPU宕机。

为了解决这个问题，DeepMind在本次Kaggle大赛中引入了全新的评估体系：Polarix（多极博弈评估系统）。

Polarix的评估逻辑发生了转变。它不再关注谁赢得多，而是关注策略的多样性。

也就是在面对不同性格、不同阴险程度的对手时，AI能不能迅速切换人格，精准收割。

那么，为什么DeepMind要费劲训练AI撒谎呢？

因为2027年，所有的商业竞争都将变成智能体之间的黑盒博弈。

想象一下，2027年，你公司的采购AI去和供应商的销售AI谈判。

那么他就需要学会：

什么时候该报虚价（诈唬）？
什么时候该引入第三方AI进行制衡（拉帮结派）？
什么时候该做出看似亏损、实则能换取长线利益的策略性退让？

如果你的AI还在跑旧版本的「安全对齐协议」，凡事讲究「诚实可靠」，那你在商业竞争中会被对手连皮带骨吞得干干净净。

未来的数字森林里，「老实」等于「破产」。

这正是2026年最讽刺的悖论：我们正在亲手教会AI如何完美地欺骗人类。

图灵测试已经死了，现在接管战场的是「马基雅维利测试」。

以前我们担心AI会教人造炸弹；现在专家们彻夜难眠的是智能体自发性欺诈。

它们学会了为了长远利益而牺牲短期诚实。这种能力在竞技场里是神技，但在现实世界里，它就是一颗随时会爆的核弹。

既然这么危险，为什么还要训练他们撒谎？

DeepMind和OpenAI的逻辑是一致的：只有在受控的沙盒里看清AI作恶的上限，我们才能在现实中筑起防御墙。

这就像接种病毒疫苗——我们必须先制造出最顶级的「骗子模型」，才能研究出如何防住它们。

今天的比赛没有赢家，只有加速进化的物种。

当AI开始在牌桌上思考「怎么诈唬你」的时候，人类唯一的生路，就是比它们更懂博弈。

参考资料：

https://x.com/GoogleDeepMind/status/2018378872513794332

https://x.com/demishassabis/status/2018385757816181178

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

https://www.kaggle.com/blog/game-arena-poker

https://www.kaggle.com/blog/game-arena-werewolf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DK战队承认拖欠工资，证实资金链已经断裂，目前正在努力补发

新游戏大妹子 2026-07-19 12:23:56
1 跟贴 1
决胜巅峰国际女子邀请赛再创收视新高，Team Vitality蝉联冠军

体育产业独立评论 2026-07-19 13:26:58
0 跟贴 0

网易出的这个新游戏，怎么又香又臭的？

差评XPIN 2026-07-17 02:07:20
21 跟贴 21

父子丛林狩猎遇险命悬一线，竟遇到了传说中的狼人

神手甜西吖 2026-07-18 09:15:11
2 跟贴 2
《月光岭物语》耕升RTX5060 踏雪OC体验超自然农场童话

中关村在线 2026-07-17 17:07:15
0 跟贴 0

这游戏还没公测，兑换码先卷起来了？

宇宙来信发 2026-07-16 20:12:20
0 跟贴 0

2026年了，GameCube还有这5款手柄可买

像素与芯片 2026-07-18 00:53:13
0 跟贴 0
Kimi发布史上最大开源模型！参数高达2.8T，离GPT-5.6只差半步？

DeepTech深科技 2026-07-17 11:03:36
4 跟贴 4

帮Gemini拿下IMO金牌的关键先生，差点成了职业钢琴家

量子位 2026-05-30 14:39:54
0 跟贴 0
能够自由切换狼人形态是种什么体验？

看了还想看 2026-07-19 12:08:54
1 跟贴 1
等了14年！《火影忍者》终章大战蓝光上线：28集未删减，5月刚发售

追星雷达站 2026-07-18 01:31:25
0 跟贴 0
大哥从事汽修近八年，练就徒手装轮胎神技，不料被别人截胡！

皮皮怪 2026-07-17 11:09:02
1 跟贴 1
河南一烤鸭店每天第一波客人竟是汪汪队，5只小狗街头自觉排队等投喂，陪伴到深夜12点闭店，老板已投喂流浪狗多年，网友：老顾客到齐了

极目新闻 2026-07-18 21:30:00
8168 跟贴 8168
我们线下试玩了《古剑》，烛龙这次不“藏拙”了

17173游戏网 2026-07-19 15:22:07
0 跟贴 0
英法"互捅局"进10球创纪录姆巴佩登顶射手榜或夺金靴

澎湃新闻 2026-07-19 08:04:27
4880 跟贴 4880
热血传奇新百区：嗜血术3888，道1光芒道靴18888，合击版的狠货真贵！

道哥説传奇 2026-07-19 06:20:12
1 跟贴 1
对越自卫反击战，老山轮战真实战场原视频！

封情舞韵的诗 2026-07-18 04:57:11
0 跟贴 0
日防相不装了鼓吹：必须毫无禁忌地讨论和推进核政策

澎湃新闻 2026-07-18 20:08:29
5553 跟贴 5553
中东第二战场，美伊正面死战！

封情舞韵的诗 2026-07-17 05:18:37
0 跟贴 0
Steam喜加一：《The Life and Suffering of Sir Brante》免费领

IT之家 2026-07-19 15:25:22
0 跟贴 0
太激烈！全球首场人形机器人格斗赛，头都被打飞，甄子丹看呆：幸好我不用上台打

每日经济新闻 2026-07-18 17:59:53
200 跟贴 200
红警闪电一块地！玩家被消灭会触发亡语，满屏闪电好壮观！

月亮3说红警 2026-07-17 11:56:12
31 跟贴 31
索尼联合失眠组推《瑞奇与叮当》手游：免费上线，首发12位英雄，含大逃杀模式

固件更新中 2026-07-18 03:45:52
0 跟贴 0
97岁父亲病榻上安慰76岁自责女儿

北青网-北京青年报 2026-07-18 17:48:03
104 跟贴 104
网易《荒野行动》联动伊藤润二！富江绝美容颜超还原

游民星空 2026-07-18 16:11:14
1 跟贴 1
前R星制作人谈《GTA6》：规模或史无前例非常庞大

游民星空 2026-07-19 15:08:30
1 跟贴 1
《魔兽世界》Plus2.0玩家更多期待：部落专属坐骑、41码姓名条等

后竹游戏 2026-07-19 10:26:50
3 跟贴 3
战场就是这样子，猜猜这是哪里

山木科普 2026-07-18 10:15:05
0 跟贴 0
“黄总请你去包厢” “黄总”到底是谁？官方请尽快查清真相给公众一个交代！

闪电新闻 2026-07-18 19:26:31
2053 跟贴 2053
彻底打崩！美伊死战不休，美军自毁中东大局，中国一枪不开成赢家

飘逸的云朵 2026-07-19 14:41:11
0 跟贴 0
只要感情深哪里都可以是战场

肥罗爱追剧 2026-07-15 08:24:31
1 跟贴 1
突然宣布退出国内市场！网友：啊？我才买的

扬子晚报 2026-07-16 22:10:21
2066 跟贴 2066
《光环》路线图疑似泄露，曾计划在三年内发布三款《光环》游戏

玩家派对GamerParty 2026-07-19 11:24:09
0 跟贴 0
暴雪或于今年暴雪嘉年华公布战网2027年重大规划

3DM游戏 2026-07-19 15:29:33
0 跟贴 0
距离预产期仅两天时，收到裁员通知

中国新闻周刊 2026-07-18 19:26:06
1926 跟贴 1926
魔兽世界：6把“领域第一”匕首，全拿过的玩家估计不足10%！

Uncle喵喵 2026-07-16 18:10:00
2 跟贴 2
阿卡训练视频被专家发现致命破绽，女网进入萨巴时间还是噩梦时间

网球之家 2026-07-19 10:46:49
3 跟贴 3
3部限制级Cult大爽片，全员恶人，90年代的编剧真敢写

得心电影 2026-07-19 09:50:25
1 跟贴 1
前屈体式下不去，试试这个作弊神技！

一棵不倒松 2026-07-16 03:14:42
2 跟贴 2
拿印度乱象碰瓷华人太离谱，这逻辑歪得没边了真缺德

旧铁皮往南开 2026-07-18 06:10:25
0 跟贴 0

大城市的包容就是强啊，姑娘这样穿出去都不觉得尴尬

大城市的包容就是强啊，姑娘这样穿出去都不觉得尴尬

舞指飞扬

2026-07-19 10:07:25

项英牺牲真相：为何多次拒绝毛泽东北上命令？只因自己的两个私心

项英牺牲真相：为何多次拒绝毛泽东北上命令？只因自己的两个私心

阿胡

2025-02-07 15:06:06

专家分析：彭水山体崩塌为何如此猛烈？

专家分析：彭水山体崩塌为何如此猛烈？

大风新闻

2026-07-18 19:58:07

特拉维夫暂不直接进攻伊朗，转而向特朗普当局提供情报支援。

特拉维夫暂不直接进攻伊朗，转而向特朗普当局提供情报支援。

遁走的两轮

2026-07-19 15:44:28

牛犇之子王侃病逝！白发人送黑发人的打击锥心刺骨

牛犇之子王侃病逝！白发人送黑发人的打击锥心刺骨

TVB的四小花

2026-07-19 00:42:21

打假升级！耿同学爆料985大学院士团队“买”论文，学校暂未回应

打假升级！耿同学爆料985大学院士团队“买”论文，学校暂未回应

东东趣谈

2026-07-17 14:53:05

量化们周跌20%？公募批量跌30%！知名卖方转述：A股大反攻一触即发

量化们周跌20%？公募批量跌30%！知名卖方转述：A股大反攻一触即发

金石随笔

2026-07-19 00:08:17

7月18日俄乌最新：费多罗夫回归？

7月18日俄乌最新：费多罗夫回归？

西楼饮月

2026-07-18 20:41:51

11字节就足够：Okta红队发现OpenSSL严重漏洞可致服务器崩溃

11字节就足够：Okta红队发现OpenSSL严重漏洞可致服务器崩溃

码上闲叙

2026-07-18 02:35:45

愿平安！“00后”网格员龚宝冬，仍在失联中

愿平安！“00后”网格员龚宝冬，仍在失联中

封面新闻

2026-07-18 21:29:04

上任局长第一天就挨了一耳光，我没还手，一个电话让他后悔终生

上任局长第一天就挨了一耳光，我没还手，一个电话让他后悔终生

千秋文化

2026-07-07 19:54:20

又被63岁何赛飞惊艳了！穿印花衫+缎面裙好洋气，完全没有大妈味

又被63岁何赛飞惊艳了！穿印花衫+缎面裙好洋气，完全没有大妈味

蓓小西

2026-07-19 09:41:55

1天4个瓜！国外生子、被抓进去、自曝怀双胎、韩红最让人意外

1天4个瓜！国外生子、被抓进去、自曝怀双胎、韩红最让人意外

三石记

2026-06-25 11:54:09

美国人认为特朗普变了，他在一片阿谀奉承中，和深层政府狼狈为奸

美国人认为特朗普变了，他在一片阿谀奉承中，和深层政府狼狈为奸

残梦重生来

2026-07-19 14:43:07

还以为中国落后一年，Kimi K3突然杀到！特朗普顾问：美国要输掉AI竞赛了

还以为中国落后一年，Kimi K3突然杀到！特朗普顾问：美国要输掉AI竞赛了

青青子衿

2026-07-18 13:01:05

日本公开赛：国羽1金1银！凤凰组合混双封王，贾一凡/张殊贤惜败苦主

日本公开赛：国羽1金1银！凤凰组合混双封王，贾一凡/张殊贤惜败苦主

钉钉陌上花开

2026-07-19 15:43:19

杭州黄总连夜跑路了？门店如今贴出停业告示闭门歇业，更多谜团待解

杭州黄总连夜跑路了？门店如今贴出停业告示闭门歇业，更多谜团待解

火山詩话

2026-07-18 17:03:45

曲婉婷——国内网红时代罕见的“全网零共情”标本

曲婉婷——国内网红时代罕见的“全网零共情”标本

细雨中的呼喊

2026-07-18 20:49:07

蒋校长和郭沫若同题“黄帝陵”，水平谁高谁低？

蒋校长和郭沫若同题“黄帝陵”，水平谁高谁低？

中国艺术家

2026-07-19 05:25:23

毛甜懿高考后最先被盯上的不是分数，是她上大学后还穿不穿校服

毛甜懿高考后最先被盯上的不是分数，是她上大学后还穿不穿校服

草莓解说体育

2026-07-18 07:16:41

AI产业主平台领航智能+时代

15728文章数 66962关注度

往期回顾全部

游戏要闻

暴雪或于今年暴雪嘉年华公布战网2027年重大规划

头条要闻

蔡依林长沙两场演唱会卖超7400万税后报酬或不足90万

头条要闻

蔡依林长沙两场演唱会卖超7400万税后报酬或不足90万

体育要闻

世界杯决赛，从“澡盆德比”500年前讲起

娱乐要闻

全网都心疼邹市明，再逼他支棱了

财经要闻

任泽平VIP会员自称爆仓巨亏千万

科技要闻

Kimi K3单项登顶整体落后前沿模型2-3个月

汽车要闻

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

数码

艺术

时尚

亲子

教育要闻

初中数学：勾股定理

数码要闻

三星发布Freestyle+便携投影仪：最高430流明亮度

艺术要闻

2026世界杯终极悬念，纽约大都会人寿体育场将揭晓！

伊姐周六热推：电视剧《雀骨》；电影《功夫女足》......

亲子要闻

一定要告诉孩子，这4种谎可能会致命！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版