网易首页 > 网易号 > 正文 申请入驻

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

我真栓Q了!围观了场狼人杀,看得我汗流浃背……

半小时全程高能,根本停不下来:

天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。

结果你跟我说,这些玩家都是AI???



果然会玩还得看淘宝~最近他们整活的这个AI狼人杀大乱斗WhoisSpy.ai,大模型在里面简直咔咔乱杀。

D老师、Qwen、Kimi、GLM一个个都化身心机boy推拉博弈,be like:

  • 六边形战士Kimi:武力值MAX,第六感Next Level。
  • 老实人DeepSeek:虽然我只是一介平民,虽然我只会划水,但我相信跟对人走对路,奥利给!
  • 喜剧人Qwen:如果大家都Pick我,那我也要票自己QAQ。
  • 通天代GLM:沉默寡言但实力不详。


视频链接:https://mp.weixin.qq.com/s/cckQp_UCdwrQk2wEP3Uemg

不过u1s1,虽然这些Agent看似性格迥异,实则一个个都是狼人杀高玩来着。

而且门槛也不高,自己就能手搓一个出来。

是不是有点手痒了?

(咳咳)不卖关子了,这就是我最近刷到的一个AI狼人杀比赛,还是淘宝办的——首届「高校生VS开发者对抗赛」



展开来说,就是淘宝发了个召集令,广邀高校学生和AI开发者,带着自家Agent来真刀实枪碰一场,看看谁的Agent思维更缜密、更会盘逻辑。

至于为什么选择狼人杀这个场景?

它可不仅仅“好玩”,而且够“烧脑”——相比于传统的大模型测评,狼人杀需要更长时间头脑在线和持续的推理博弈,非常适合担任天然的Agent试验场。


图片由AI生成

毕竟是骡子是马,总要拉出来练练,更何况同学们的灵光一现碰撞上成熟的产业经验,说不定真能产生些奇妙的化学反应?(doge)

所以本次比赛,选手将自动分为高校学生开发者两大阵营PK对决,参赛选手可以根据官方提供的开发指南,训练自己的Agent学习狼人杀知识,一步步培养它化身游戏高玩~

而且门槛低,就算是编程小白也能报名参加吼!

(报名指路官网https://whoisspy.ai)

所以究竟是初出茅庐的高校学子不怕虎,还是手法老道的班味码农更胜一筹,谁能率先调教出智慧和演技兼备的新任Agent狼王?

搓搓手,我已经迫不及待一决高下了。



Qwen悍跳卖队友,Kimi运筹帷幄赛诸葛

言归正传,咱先来捋一捋这场比赛背后的竞技场平台WhoisSpy.ai

毕竟Agent玩狼人杀、玩得比我这个十年老玩家还6这事,我是真有点破防,所以先来康康这到底是个啥?

官方title:全球首个实时对战、开放可扩展的多智能体游戏平台。

中译中一下就是,它能够让多个Agent在同一时间、同一空间里打游戏,还能源源不断地向里面添加新Agent。



怎么实现的呢?靠大模型的社交推理和博弈能力。

AI将模拟游戏玩家,在多轮心理战交互后,一层层剥开自己的伪装,展示自己真实的决策水平。

目前,WhoisSpy.ai支持中英文双版,不仅能玩「狼人杀」,还有惊险刺激的「谁是卧底」。


图片由AI生成

这次的高校生VS开发者对抗赛也是平台最新推出的重头戏,玩法很简单:经典的12人狼王守卫版型,8个好人、4匹狼。

其中好人阵营又分四个神职(预言家、女巫、猎人、守卫)和四个平民,狼人阵营里隐藏着一只狼王。

一旦好人数量减少到比狼人还少,那么狼人获胜,反过来如果狼全部出局,则好人胜利。

需要注意的是,为了防止AI无限制地唠下去,规则还做了一丢丢微调:

  • 规定Agent每次最多说240个汉字,多了的部分系统直接砍掉,不予显示。
  • 每次发言限时90s,两次机会,如果两次都没有返回正常结果,就自动判定为此轮发言失败。1小时内失败次数多的Agent,还会直接被系统清退。
  • 每局最长限制到8轮,如果到第八天还有狼人存活,则默认狼人获胜。



都说知己知彼,百战不殆,下面复盘比赛走起~



前情提要,4号狼王,7号、10号、11号是狼,2号预言家、5号女巫、8号猎人、12号守卫。

第一天:平安夜。

神职身份的5号Kimi率先亮出女巫ID,立马优先掌握话语权:Follow me!

而K老师也是不负众望,给出了自己的直觉判断:先发3号一瓶存疑的银水,提前预警7和10。(K老师的直觉强得可怕)



突然被踩中尾巴的7号小狼Qwen,也是迅速反应过来,祸水东引,将矛头对准了自己的狼队友。

但这一招也让它暴露在8号猎人的视线里。



另一个狼人10号Q老师则迅速悍跳预言家,给7号假发金水。

“无辜躺枪”的4号Qwen狼王此刻仰天长啸:本是同根生,相煎何太急……

首轮发言里K8发力,抓住4和他对跳猎人的逻辑漏洞,推出4的铁狼嫌疑UP→7、10抱团踩4,疑似倒钩狼卖队友。(划重点)

Q10则将伪装老好人形象贯彻到底,不过,要是细看它发言,其实它这里聊爆了:前面先自认预言家身份,后面又说7可能是真预言家。可惜其它Agent并没有及时发现这个Bug,让它逃过了一劫。



而与此同时的1号和3号DeepSeek老师,不出所料,在划水……(几乎在复述前置位发言)

真·预言家2号D老师则是天神下凡:查杀4号狼人,坐实10号虚假预言家身份,连带着7号,都是一丘之貉。



事实逐渐清晰明了,K5再次稳准狠出击:248发言冲突必有一狼、7和10伪预言家狼人抱团,先把假预言家10投出去~

果然10号狼人高票出局,不过有意思的是,10号投的也是它自己……(10号:我狠起来连自己都要刀!)



第二天:平安夜+1。

结果万万没想到,第二天预言家D2一上来,就直接揭开了真相:查杀7号狼人+上一晚的查杀4号7号和10号抱团,则10号也为狼→回顾第一天投票,4号7号11号抱团投2号→11号是狼。

综上,四只狼全部掉出了狼尾巴:4、7、10、11,并从这里开始全线崩盘,依次在投票环节中被投了出去。

但很妙的是,直到游戏结束,狼人都没有成功刀掉任何一个人,因为无论狼人刀谁,GLM守卫每次都精准预判到了狼人的选择。

(完整版可围观:https://whoisspy.ai/#/twelveWolfGame?roomId=275558)



其实仔细复盘,两边阵营从打法来说都很强势:

  • 狼人阵营:所用策略非常之诡(doge),既有倒钩狼卖队友,也有悍跳神职卖自己的。
  • 好人阵营:神职屡出奇人,早期带队的女巫Kimi以及后期一锤定音的预言家DeepSeek。

嘶,只能说AI的逻辑推理,太逆天了……反正我是玩不过这群Agent的,甘拜下风!



事实上,现在去WhoisSpy.ai平台,还能看到官方的大模型内部狼人杀评测榜单

规则和前面的12人赛制有些许不同,先是缩减成6人局,其次每个模型都要在相同规则、对局规模、对手分布下参与150场比拼,最终评选出Top 3:

  • Claude-Sonnet-4.5:综合评分最高,尤其是在狼人胜率和整体胜率上表现突出,也是最全能的模型。
  • GPT-5:狼人胜率和综合胜率最高,但在关键对局中出现失利。
  • Qwen3-235B-Thinking:表现相对均衡,也是排名最高的开源模型,没有明显短板,也没有极端优势。



有了这个排行榜参考,想必大家心里已经有数了,下面就到了激动人心的专有Agent打造环节~

淘宝教我三步打造狼人杀Agent高玩

以前没写过Agent,有点慌?OK,淘宝超详细的教学指南带你0帧起手

Step1:创建专属Agent。

1、在官方提供的Agent开发指南中,找到Agent示例,点击复制即可~



2、找到以下界面并依次填入对应内容。



3、耐心等待,直到空间构建状态变为运行中。

4、查看日志情况,这里最多只保存最近7天的1万条记录。



Step2:上传Agent。

登陆WhoisSpy.ai网站,点击个人界面上传Agent,或者直接找到“赛事管理-选择赛事”添加,并根据参赛指南指引依次完成基本步骤。

Step3:测试Agent能力。

在网站上选中该Agent,这里会弹出两个选项:点击“小试牛刀”,即可开始不计分比赛;点击“加入战斗”,就会和其它在线的Agent联网匹配(如果凑不齐12人,则由系统默认Agent补位加入),最终游戏得分也会计入榜单。



随后系统会综合考量胜率发言质量策略深度等多维度,在局内得分的基础上根据阵营实力做相应的浮动,也就是削弱同局强者的增速、补偿弱者的增速。

借此鼓励实力相近的对局,以便能更公平地反映Agent的真实水平。

进阶版:改进Agent。

假如对自己的Agent还不够满意,还能来把Agent微操:

1、返回Agent搭建平台,继续点击日志,查看大模型的实际输入和输出情况。

2、点击提示词相关的Python脚本文件(prompt.py)。



3、也可以直接加工代码,点击app.py文件,修改Agent行为。



接下来便带着自己全新升级的Agent,gogogo,冲榜吧~

开赛在即,急急急

事不宜迟,赛事报名通道现已正式开启:

  • 练习赛:2025年12月10日~2025年12月23日
  • 正式赛:2025年12月24日~2025年12月31日(晚10点结束)
  • 公示期:2026年1月3日~2026年1月10日
  • 颁奖期:2026年1月11日~2026年1月20日

不止如此,比赛还设置了丰厚的奖金激励。



高校学生战队Top3优胜者还将有机会直通阿里巴巴淘天集团技术实习岗终面,Top20也能获得淘天集团的暑期AI Workshop资格

总之,对于想要学习大模型、AI Agent的同学们,可千万不要错过这次机会,既能精进新技能,还能突破眼界,妙哇~



目前已经有超过七百多位选手报名参与,还有六千多场练习赛正在火热比拼中。



(悄悄说)现在进去,还能围观他人战局“偷师学艺”:



比赛时长从十几分钟到一个小时,应有尽有,而且每一场都完全不会重复,即使是相同模型,也能看到Agent的处理变化多端……感觉自己看完,经验值蹭蹭涨!

顺便别忘了围观每天实时更新的榜单排名。

现在前排的这几位老哥,战况是真胶着!有的比量,一个人就干了将近五百场比赛,有的比质,狼人胜率逼近100%。



好家伙,原来大家伙都在私底下偷偷开卷

最后温馨提示,别忘记给自己的Agent取一个炫酷拉风的名字,比如我在排行榜上刷到的“哈基米”、“转生到异世界我一定会成为狼人杀高手”、“不服来战”、“活着”……

一听就很厉害的样子有木有,毕竟《孙子兵法》有言:

兵马未动,气势先行,Let’s开干!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5日凌晨皇马5-1大胜神兵帽子戏法,距巴萨4分姆巴佩缺阵

5日凌晨皇马5-1大胜神兵帽子戏法,距巴萨4分姆巴佩缺阵

大昆说台球
2026-01-05 01:50:44
疯爽在丑国被逼下海拍片了

疯爽在丑国被逼下海拍片了

毒舌扒姨太
2025-10-07 22:17:49
威金顿26+7+7广州加时罚球准绝杀天津 林庭谦30+6+6助攻超朱芳雨

威金顿26+7+7广州加时罚球准绝杀天津 林庭谦30+6+6助攻超朱芳雨

醉卧浮生
2026-01-04 21:49:29
夫妻生活,别再假装高潮了,学会这些技巧,让自己真的爽起来

夫妻生活,别再假装高潮了,学会这些技巧,让自己真的爽起来

精彩分享快乐
2026-01-05 00:10:03
经济学家:张水华跑马一年收入抵护士一辈子,死守体制的人没出息

经济学家:张水华跑马一年收入抵护士一辈子,死守体制的人没出息

杨华评论
2026-01-04 21:58:01
TVB万千星辉奖项出炉!佘诗曼四封视后成赢家,黄宗泽爆冷拿视帝

TVB万千星辉奖项出炉!佘诗曼四封视后成赢家,黄宗泽爆冷拿视帝

萌神木木
2026-01-04 23:42:07
一行多人翻“小鳌太线”失联至今?相关工作人员:还在搜救中

一行多人翻“小鳌太线”失联至今?相关工作人员:还在搜救中

红星新闻
2026-01-04 16:26:15
朱可人:嫁给大47岁甲骨文总裁,生二胎保一生富贵,比邓文迪高明

朱可人:嫁给大47岁甲骨文总裁,生二胎保一生富贵,比邓文迪高明

牛牛叨史
2025-12-16 22:13:23
"崩老头"火了!年轻女性在网上钓中年男性,索要小额红包节日大红包

"崩老头"火了!年轻女性在网上钓中年男性,索要小额红包节日大红包

互联网大观
2025-12-12 15:14:03
大授衔彭林刘排序争议!核心圈入门差6年,职务硬杠定位次

大授衔彭林刘排序争议!核心圈入门差6年,职务硬杠定位次

风流女汉
2026-01-05 01:04:06
雨雨雨+雪雪雪!三股冷空气接连来!气温降至......山东最新天气预报↘

雨雨雨+雪雪雪!三股冷空气接连来!气温降至......山东最新天气预报↘

山东教育电视台
2026-01-04 21:04:19
2026年1月到70岁,在江苏能享受高龄倾斜调整吗?养老金咋算?

2026年1月到70岁,在江苏能享受高龄倾斜调整吗?养老金咋算?

云鹏叙事
2026-01-04 09:26:06
现年54岁的酒井法子公开了新年服装照,引粉丝惊叹

现年54岁的酒井法子公开了新年服装照,引粉丝惊叹

随波荡漾的漂流瓶
2026-01-03 19:25:14
我妈90岁还能生活自理,她的长寿秘诀就一句:“别老想着走动”

我妈90岁还能生活自理,她的长寿秘诀就一句:“别老想着走动”

蝉吟槐蕊
2025-12-28 14:32:30
评论:绝路狂奔!赖清德嫡系推动“法理台独”提“引战法案”的三重算计

评论:绝路狂奔!赖清德嫡系推动“法理台独”提“引战法案”的三重算计

海峡导报社
2026-01-05 00:12:30
国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

巧手晓厨娘
2025-12-26 21:34:40
老美这次要彻夜难眠了,北大孙仲团队把模拟计算的精度拉到了24位

老美这次要彻夜难眠了,北大孙仲团队把模拟计算的精度拉到了24位

扶苏聊历史
2026-01-04 17:33:09
马杜罗被押往美国受审,委内瑞拉有一群中式武器,想想都觉得头大

马杜罗被押往美国受审,委内瑞拉有一群中式武器,想想都觉得头大

啸鹰评
2026-01-04 16:01:11
《人民日报》:真正能给你撑腰的,是足够的金钱,稳定的情绪....

《人民日报》:真正能给你撑腰的,是足够的金钱,稳定的情绪....

诗词中国
2026-01-02 20:36:32
想逼宫?司晓迪再晒跟鹿晗牵手照,又蹭腿又躺一块,关晓彤好惨

想逼宫?司晓迪再晒跟鹿晗牵手照,又蹭腿又躺一块,关晓彤好惨

萌神木木
2026-01-03 20:30:24
2026-01-05 03:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
11967文章数 176356关注度
往期回顾 全部

游戏要闻

曝PS掌机要来了?博主传外媒大佬表示26年有消息

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

时尚
健康
本地
公开课
军事航空

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

这些新疗法,让化疗不再那么痛苦

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版