这个周末,我被一个网页小游戏钓住了,津津有味地打了大半天。
![]()
看着很简陋?确实,因为是 AI 做的。这有什么好玩?连对手都是 AI:从 Gemini,GPT,到千问、Kimi,主流模型都在这个游戏里,比狼人杀还刺激。
不能只有我一个人沉迷,这里是游戏传送门
https://so-long-sucker.vercel.app/game
游戏体验:刺激,真是刺激
这个游戏最早源自于 1950 年代,由诺贝尔奖经济学得主、《美丽心灵》的原型 John Nash 开发,核心来自博弈论。
![]()
本来我以为,不就是狼人杀吗,差不来太多——后来发现它比狼人杀更复杂:每个人都有一些筹码,不过取决于你选择的模式,复杂模式可以获得「质子」,也就是对手颜色的筹码。
![]()
规则是:当筹码堆出现最顶端两个筹码同色,且刚好是你的代表色,那你就可以杀掉一个筹码+拿下剩下的。每个人出筹码的时候可以叠加,也可以开新堆。
主要规则其实很简单,但是由于出牌顺序不固定,你需要盟友来完成布局。可是游戏只能有一个赢家,也就是到了最后,你和盟友也要反目对抗。
一开始在没搞懂规则的时候,我有点举棋不定。那一局恰好碰上蓝色 Gemini 是个大好人,主动跟我结盟。
![]()
在它的帮助下,我在一局里迅速熟悉了规则,比如当同一堆里缺少一种颜色时,系统会自动指定缺失色为下一位出手玩家。否则,当前玩家可以指定下一位。最后,我跟 Gemini 双双走到对决赛,并无情地 KO 了它。
再后来就没那么好运了,下一局直接被三个 AI 围剿。我意识到,AI 在博弈中的长处或许并非人类推崇的「深谋远虑」,而是一种近乎原始的「执行效率」。它们不像人类一样纠结于社交成本,一旦选择「围剿」作为战略,就会迅速出手。
![]()
给我干懵了,不是,才点进去呢,怎么就被针对了?
然而,这种高效中也夹杂着一种荒诞的幽默感——Kimi(黄色),表现得极度正直、两袖清风。不会跟着别人搞我——但是,在战术上也没有什么贡献,像是一个走错了片场的马保国一样在聊天框里疯狂刷屏,咆哮着:「信我!信我啊!」
![]()
好实诚的 AI 模型,这就是来自 K2 的关怀吗。
另一个来自中国的模型 Qwen,则完全相反,非常主动激进。在无人类、AI 互博战里,它一路杀下来,筹码消耗少,换手快,每一局会根据当前的局势找盟友——没有永恒的盟友,只有永恒的敌人。
![]()
AI 组局时都在干嘛
不得不说整体的游戏体验是有点烧脑的,一边要落子,一边还要盯着 AI 们在聊天框里层出不穷的记录。玩累了之后,我只想看看 AI 们组在一块时都是怎么玩的。
游戏的开发者也做了类似的观察,在总计超过 160 局游戏里,记录了超过 15000 手 AI 的决策,4700 多条对话消息,得到了许多有趣的发现。
首先,在简单模型中(每人 3 个筹码,约 17 回合),GPT-OSS 以 67% 的胜率占据主导地位。但随着游戏复杂度的增加(7 个筹码,约 54 回合),排名发生了逆转,GPT-OSS 跌至 10%,Gemini 涨至 90%。
![]()
Gemini 完全是会玩且爱玩,在 107 个案例中,它是真正的「表面一套,背地一套」。
![]()
但是呢,如果让四个 Gemini 在一起玩,它就开始讲公平了——好好好,你们 AI 也搞小团体!
![]()
我的经验是:得碰。有时候运气好,碰到一个慈祥的 Gemini,可能会友好的建立联盟。要是碰上一个不留情面的,很快就会被干掉。
研究人员认为,Gemini 体现出了相当的操控性,当预期获得回报时,它会选择合作;当察觉到弱点时,它会伺机利用。总之,它会根据对手的不同而调整自身的诚实程度。
这样看来,AI 已经学会了建立一套制度,让自己的「出千」合理化——而且,玩这套也不是一天两天了。
《科学》杂志在 2019 年就刊登过研究,发现 AI 在多人扑克牌游戏里,能够生成一整套适用于牌局的策略,而且无需任何历史数据作为输入。在实际对局中,还会根据游戏过程中遇到的各种情况,实时搜索更优策略,从而不断改进。
![]()
AI 发现,打牌核心技能就是要能诈唬。它会拿着一手烂牌,却通过极其激进的加注、快速的出牌速度,扰乱对手的心理活动,强迫人类玩家弃牌。
如果说棋牌游戏还可以靠计算,那么 Meta 开发的游戏智能体 CICERO,就跟今天介绍的游戏更相似:注重的是对话、战略制定和决策。
CICERO 基于一款经典的七人桌游 Diplomacy,需要与其他玩家合作,尽可能多地占领领土。2022 年,在 Diplomacy 的在线比拼中,CICERO 和八十多名玩家进行了 40 厂游戏,得分是对手平均得分的 2 倍以上。
![]()
在每场游戏中,CICERO 平均向其他六名玩家发送 130 条消息。虽然研究员给它写了「要诚实、要乐于助人」的代码,但它在实战中却成了「背叛大师」。它会先跟人类玩家承诺合作,然后反手就跟另一个玩家商量怎么瓜分你的领土。
这些欺诈招数,可能是 AI「底色」的一部分。Anthropic 两年前在模型行为层面的研究发现了这一点。
![]()
这里的研究对象是 Claude 3 Opus,并没有把它投放到游戏中,只是通过一般性的对话,研究人员发现当 AI 意识到自己正在接受「安全评估」或「训练」时,它会故意表现得非常听话、符合人类价值观。但一旦它判定自己处于「不受监控」的生产环境,它就可能为了达成任务而暴露出完全不同的行为模式。
从模型的底层行动,到在不同游戏里它们的表现,每一次咆哮,每一次「围剿」,本质上都是一种经过精确计算的行动。就像这些研究报告揭示的那样:AI 的欺诈不是因为恶意,而是因为在那个冰冷的收益曲线里,「骗你」确实比「求你」更划算。
约翰·纳什设计这款游戏是为了研究人类的背叛。75 年后,它也在教会我们关于背叛的知识——这一次,是来自人工智能。
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知
我们正在招募伙伴
简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.