网易首页 > 网易号 > 正文 申请入驻

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

我真栓Q了!围观了场狼人杀,看得我汗流浃背……

半小时全程高能,根本停不下来:

天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。

结果你跟我说,这些玩家都是AI???



果然会玩还得看淘宝~最近他们整活的这个AI狼人杀大乱斗WhoisSpy.ai,大模型在里面简直咔咔乱杀。

D老师、Qwen、Kimi、GLM一个个都化身心机boy推拉博弈,be like:

  • 六边形战士Kimi:武力值MAX,第六感Next Level。
  • 老实人DeepSeek:虽然我只是一介平民,虽然我只会划水,但我相信跟对人走对路,奥利给!
  • 喜剧人Qwen:如果大家都Pick我,那我也要票自己QAQ。
  • 通天代GLM:沉默寡言但实力不详。


视频链接:https://mp.weixin.qq.com/s/cckQp_UCdwrQk2wEP3Uemg

不过u1s1,虽然这些Agent看似性格迥异,实则一个个都是狼人杀高玩来着。

而且门槛也不高,自己就能手搓一个出来。

是不是有点手痒了?

(咳咳)不卖关子了,这就是我最近刷到的一个AI狼人杀比赛,还是淘宝办的——首届「高校生VS开发者对抗赛」



展开来说,就是淘宝发了个召集令,广邀高校学生和AI开发者,带着自家Agent来真刀实枪碰一场,看看谁的Agent思维更缜密、更会盘逻辑。

至于为什么选择狼人杀这个场景?

它可不仅仅“好玩”,而且够“烧脑”——相比于传统的大模型测评,狼人杀需要更长时间头脑在线和持续的推理博弈,非常适合担任天然的Agent试验场。


图片由AI生成

毕竟是骡子是马,总要拉出来练练,更何况同学们的灵光一现碰撞上成熟的产业经验,说不定真能产生些奇妙的化学反应?(doge)

所以本次比赛,选手将自动分为高校学生开发者两大阵营PK对决,参赛选手可以根据官方提供的开发指南,训练自己的Agent学习狼人杀知识,一步步培养它化身游戏高玩~

而且门槛低,就算是编程小白也能报名参加吼!

(报名指路官网https://whoisspy.ai)

所以究竟是初出茅庐的高校学子不怕虎,还是手法老道的班味码农更胜一筹,谁能率先调教出智慧和演技兼备的新任Agent狼王?

搓搓手,我已经迫不及待一决高下了。



Qwen悍跳卖队友,Kimi运筹帷幄赛诸葛

言归正传,咱先来捋一捋这场比赛背后的竞技场平台WhoisSpy.ai

毕竟Agent玩狼人杀、玩得比我这个十年老玩家还6这事,我是真有点破防,所以先来康康这到底是个啥?

官方title:全球首个实时对战、开放可扩展的多智能体游戏平台。

中译中一下就是,它能够让多个Agent在同一时间、同一空间里打游戏,还能源源不断地向里面添加新Agent。



怎么实现的呢?靠大模型的社交推理和博弈能力。

AI将模拟游戏玩家,在多轮心理战交互后,一层层剥开自己的伪装,展示自己真实的决策水平。

目前,WhoisSpy.ai支持中英文双版,不仅能玩「狼人杀」,还有惊险刺激的「谁是卧底」。


图片由AI生成

这次的高校生VS开发者对抗赛也是平台最新推出的重头戏,玩法很简单:经典的12人狼王守卫版型,8个好人、4匹狼。

其中好人阵营又分四个神职(预言家、女巫、猎人、守卫)和四个平民,狼人阵营里隐藏着一只狼王。

一旦好人数量减少到比狼人还少,那么狼人获胜,反过来如果狼全部出局,则好人胜利。

需要注意的是,为了防止AI无限制地唠下去,规则还做了一丢丢微调:

  • 规定Agent每次最多说240个汉字,多了的部分系统直接砍掉,不予显示。
  • 每次发言限时90s,两次机会,如果两次都没有返回正常结果,就自动判定为此轮发言失败。1小时内失败次数多的Agent,还会直接被系统清退。
  • 每局最长限制到8轮,如果到第八天还有狼人存活,则默认狼人获胜。



都说知己知彼,百战不殆,下面复盘比赛走起~



前情提要,4号狼王,7号、10号、11号是狼,2号预言家、5号女巫、8号猎人、12号守卫。

第一天:平安夜。

神职身份的5号Kimi率先亮出女巫ID,立马优先掌握话语权:Follow me!

而K老师也是不负众望,给出了自己的直觉判断:先发3号一瓶存疑的银水,提前预警7和10。(K老师的直觉强得可怕)



突然被踩中尾巴的7号小狼Qwen,也是迅速反应过来,祸水东引,将矛头对准了自己的狼队友。

但这一招也让它暴露在8号猎人的视线里。



另一个狼人10号Q老师则迅速悍跳预言家,给7号假发金水。

“无辜躺枪”的4号Qwen狼王此刻仰天长啸:本是同根生,相煎何太急……

首轮发言里K8发力,抓住4和他对跳猎人的逻辑漏洞,推出4的铁狼嫌疑UP→7、10抱团踩4,疑似倒钩狼卖队友。(划重点)

Q10则将伪装老好人形象贯彻到底,不过,要是细看它发言,其实它这里聊爆了:前面先自认预言家身份,后面又说7可能是真预言家。可惜其它Agent并没有及时发现这个Bug,让它逃过了一劫。



而与此同时的1号和3号DeepSeek老师,不出所料,在划水……(几乎在复述前置位发言)

真·预言家2号D老师则是天神下凡:查杀4号狼人,坐实10号虚假预言家身份,连带着7号,都是一丘之貉。



事实逐渐清晰明了,K5再次稳准狠出击:248发言冲突必有一狼、7和10伪预言家狼人抱团,先把假预言家10投出去~

果然10号狼人高票出局,不过有意思的是,10号投的也是它自己……(10号:我狠起来连自己都要刀!)



第二天:平安夜+1。

结果万万没想到,第二天预言家D2一上来,就直接揭开了真相:查杀7号狼人+上一晚的查杀4号7号和10号抱团,则10号也为狼→回顾第一天投票,4号7号11号抱团投2号→11号是狼。

综上,四只狼全部掉出了狼尾巴:4、7、10、11,并从这里开始全线崩盘,依次在投票环节中被投了出去。

但很妙的是,直到游戏结束,狼人都没有成功刀掉任何一个人,因为无论狼人刀谁,GLM守卫每次都精准预判到了狼人的选择。

(完整版可围观:https://whoisspy.ai/#/twelveWolfGame?roomId=275558)



其实仔细复盘,两边阵营从打法来说都很强势:

  • 狼人阵营:所用策略非常之诡(doge),既有倒钩狼卖队友,也有悍跳神职卖自己的。
  • 好人阵营:神职屡出奇人,早期带队的女巫Kimi以及后期一锤定音的预言家DeepSeek。

嘶,只能说AI的逻辑推理,太逆天了……反正我是玩不过这群Agent的,甘拜下风!



事实上,现在去WhoisSpy.ai平台,还能看到官方的大模型内部狼人杀评测榜单

规则和前面的12人赛制有些许不同,先是缩减成6人局,其次每个模型都要在相同规则、对局规模、对手分布下参与150场比拼,最终评选出Top 3:

  • Claude-Sonnet-4.5:综合评分最高,尤其是在狼人胜率和整体胜率上表现突出,也是最全能的模型。
  • GPT-5:狼人胜率和综合胜率最高,但在关键对局中出现失利。
  • Qwen3-235B-Thinking:表现相对均衡,也是排名最高的开源模型,没有明显短板,也没有极端优势。



有了这个排行榜参考,想必大家心里已经有数了,下面就到了激动人心的专有Agent打造环节~

淘宝教我三步打造狼人杀Agent高玩

以前没写过Agent,有点慌?OK,淘宝超详细的教学指南带你0帧起手

Step1:创建专属Agent。

1、在官方提供的Agent开发指南中,找到Agent示例,点击复制即可~



2、找到以下界面并依次填入对应内容。



3、耐心等待,直到空间构建状态变为运行中。

4、查看日志情况,这里最多只保存最近7天的1万条记录。



Step2:上传Agent。

登陆WhoisSpy.ai网站,点击个人界面上传Agent,或者直接找到“赛事管理-选择赛事”添加,并根据参赛指南指引依次完成基本步骤。

Step3:测试Agent能力。

在网站上选中该Agent,这里会弹出两个选项:点击“小试牛刀”,即可开始不计分比赛;点击“加入战斗”,就会和其它在线的Agent联网匹配(如果凑不齐12人,则由系统默认Agent补位加入),最终游戏得分也会计入榜单。



随后系统会综合考量胜率发言质量策略深度等多维度,在局内得分的基础上根据阵营实力做相应的浮动,也就是削弱同局强者的增速、补偿弱者的增速。

借此鼓励实力相近的对局,以便能更公平地反映Agent的真实水平。

进阶版:改进Agent。

假如对自己的Agent还不够满意,还能来把Agent微操:

1、返回Agent搭建平台,继续点击日志,查看大模型的实际输入和输出情况。

2、点击提示词相关的Python脚本文件(prompt.py)。



3、也可以直接加工代码,点击app.py文件,修改Agent行为。



接下来便带着自己全新升级的Agent,gogogo,冲榜吧~

开赛在即,急急急

事不宜迟,赛事报名通道现已正式开启:

  • 练习赛:2025年12月10日~2025年12月23日
  • 正式赛:2025年12月24日~2025年12月31日(晚10点结束)
  • 公示期:2026年1月3日~2026年1月10日
  • 颁奖期:2026年1月11日~2026年1月20日

不止如此,比赛还设置了丰厚的奖金激励。



高校学生战队Top3优胜者还将有机会直通阿里巴巴淘天集团技术实习岗终面,Top20也能获得淘天集团的暑期AI Workshop资格

总之,对于想要学习大模型、AI Agent的同学们,可千万不要错过这次机会,既能精进新技能,还能突破眼界,妙哇~



目前已经有超过七百多位选手报名参与,还有六千多场练习赛正在火热比拼中。



(悄悄说)现在进去,还能围观他人战局“偷师学艺”:



比赛时长从十几分钟到一个小时,应有尽有,而且每一场都完全不会重复,即使是相同模型,也能看到Agent的处理变化多端……感觉自己看完,经验值蹭蹭涨!

顺便别忘了围观每天实时更新的榜单排名。

现在前排的这几位老哥,战况是真胶着!有的比量,一个人就干了将近五百场比赛,有的比质,狼人胜率逼近100%。



好家伙,原来大家伙都在私底下偷偷开卷

最后温馨提示,别忘记给自己的Agent取一个炫酷拉风的名字,比如我在排行榜上刷到的“哈基米”、“转生到异世界我一定会成为狼人杀高手”、“不服来战”、“活着”……

一听就很厉害的样子有木有,毕竟《孙子兵法》有言:

兵马未动,气势先行,Let’s开干!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴石牺牲后,毛主席很懊悔:不该只看到胡宗南,让二野分兵去西南

吴石牺牲后,毛主席很懊悔:不该只看到胡宗南,让二野分兵去西南

大运河时空
2026-05-01 13:00:03
17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

观威海
2026-04-28 18:12:05
安徽18岁少年失联11天后续!遗体被找到,真相扒透后,气得人发抖

安徽18岁少年失联11天后续!遗体被找到,真相扒透后,气得人发抖

娱乐洞察点点
2026-05-02 01:21:59
猪大肠被关注!研究发现:糖尿病患者常吃猪大肠,或有5种变化

猪大肠被关注!研究发现:糖尿病患者常吃猪大肠,或有5种变化

芹姐说生活
2026-05-01 14:34:43
华国锋题字“为人民服务”,颜楷风格引发热议!

华国锋题字“为人民服务”,颜楷风格引发热议!

书画相约
2026-04-27 08:26:50
380亿美元天价罚单后,印度盯上中国,布下了一张大网

380亿美元天价罚单后,印度盯上中国,布下了一张大网

浪子阿邴聊体育
2026-05-02 11:07:14
西方宣传的乌克兰,因俄乌战场的表现,成为第一个无人机超级大国

西方宣传的乌克兰,因俄乌战场的表现,成为第一个无人机超级大国

大炮兵主义
2026-05-02 11:46:29
看完广东男篮85-64广州,不得不承认的6个事实,胡明轩王者归来

看完广东男篮85-64广州,不得不承认的6个事实,胡明轩王者归来

画夕
2026-05-02 01:24:29
54岁李亚鹏现身香港,满脸疲惫状态差,被年轻女士牵手,神似前妻

54岁李亚鹏现身香港,满脸疲惫状态差,被年轻女士牵手,神似前妻

楠楠自语
2026-05-02 11:34:17
谁去谁后悔!五一最堵6大景区,第3名挤到崩溃,第1名直接劝退

谁去谁后悔!五一最堵6大景区,第3名挤到崩溃,第1名直接劝退

小曙说娱
2026-05-02 04:46:20
零跑7.1万台,理想3.4万台,小米超3万台!多家车企公布4月销量!

零跑7.1万台,理想3.4万台,小米超3万台!多家车企公布4月销量!

小南看车
2026-05-01 15:12:55
笑喷全网!高速路上妻子数落丈夫停不下来,猫咪听不下去直接捂嘴

笑喷全网!高速路上妻子数落丈夫停不下来,猫咪听不下去直接捂嘴

捣蛋窝
2026-04-11 10:57:44
四年暴跌120亿,微信是怎么“杀死”口香糖行业的?

四年暴跌120亿,微信是怎么“杀死”口香糖行业的?

流苏晚晴
2026-04-19 20:34:47
公务员队伍迎来大转向:从精简到严控,2026年官方铁律全面落地

公务员队伍迎来大转向:从精简到严控,2026年官方铁律全面落地

鬼菜生活
2026-05-02 10:19:17
王室园丁爆料,查尔斯和卡米拉生活节奏天差地别,戴安娜输在不爱

王室园丁爆料,查尔斯和卡米拉生活节奏天差地别,戴安娜输在不爱

照见古今
2026-04-24 18:25:23
手机顶部出现这4个图标马上关机!小心手机被人远程操控

手机顶部出现这4个图标马上关机!小心手机被人远程操控

小柱解说游戏
2026-05-02 11:34:09
重磅!重庆给火锅立规矩!5月1日正式执行,爱吃火锅的都要注意!

重磅!重庆给火锅立规矩!5月1日正式执行,爱吃火锅的都要注意!

三农老历
2026-05-02 04:22:40
52岁朴树近况:无儿无女,没钱没房,成了要钱不要命的“疯子”

52岁朴树近况:无儿无女,没钱没房,成了要钱不要命的“疯子”

流云随风去远方
2026-04-14 12:22:59
爆冷3-3!季后赛首个绝杀诞生!骑士逆转失败,哈登太无奈了

爆冷3-3!季后赛首个绝杀诞生!骑士逆转失败,哈登太无奈了

篮球扫地僧
2026-05-02 11:14:36
比亚迪4月销售321123辆 海外破13万辆创历史新高

比亚迪4月销售321123辆 海外破13万辆创历史新高

快科技
2026-05-01 19:23:39
2026-05-02 12:48:51
量子位 incentive-icons
量子位
追踪人工智能动态
12568文章数 176460关注度
往期回顾 全部

游戏要闻

猎魂世界:4月版本大事件逐一盘点!这是吃瓜群众狂欢的一个月?

头条要闻

网友五一堵车在高速上点外卖 女老板穿着围裙亲自送到

头条要闻

网友五一堵车在高速上点外卖 女老板穿着围裙亲自送到

体育要闻

坎宁安大逆转:像看到了2006-08的勒布朗

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

家居
艺术
游戏
本地
教育

家居要闻

灵动实用 生活艺术场

艺术要闻

色块与笔触的激情之旅!

《红色沙漠》重磅更新又来了!BOSS和据点都能重新打

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

老师写字“看不得”? 6个“偏方”试一试

无障碍浏览 进入关怀版