网易首页 > 网易号 > 正文 申请入驻

爱丁堡团队:人类如何看待AI博弈对手?

0
分享至

这项由爱丁堡大学经济学院的Darija Barak和Miguel Costa-Gomes教授共同完成的研究发表于2025年5月16日,论文题为《人类期望大语言模型(LLM)对手在战略博弈中表现出理性和合作》(Humans expect rationality and cooperation from LLM opponents in strategic games),发布于arXiv预印本平台(arXiv:2505.11011v1)。

研究背景:当AI成为我们博弈对手

想象一下,你正在玩一个猜数字的游戏。现在告诉你,你的对手不是人类,而是ChatGPT或Claude这样的人工智能。你会改变你的策略吗?会不会对AI产生特殊的期待?这正是爱丁堡大学研究团队想要探索的问题。

随着大语言模型(LLM)的迅速发展,它们已经从简单的聊天机器人进化为能够参与我们社会和经济活动的智能体。很快,我们将不可避免地与这些AI智能体在复杂的交互场景中共处,这些场景以前完全由人类主导。不难想象,在不久的将来,人类将在由数百甚至数千个AI智能体主导的环境中互动。这种快速变化带来了一个关键的研究前沿:理解人类如何在既有人类也有AI智能体的战略环境中调整自己的行为。

虽然已经有研究探索了LLM在标准经济博弈和更复杂环境中的行为表现,但人类与LLM的战略互动在很大程度上仍然未被探索。目前只有Engel等人的工作研究了人类如何在两人囚徒困境中与LLM互动。但一个重要问题仍未解决:当面对多个LLM对手且没有占优策略存在时,人类会如何行为?

研究方法:精心设计的实验揭示人类对AI的期望

研究团队选择了一个经典的p-美丽竞赛游戏作为实验工具。这是一个用于研究战略推理的常用游戏,常被视为金融市场的简化模型。该游戏要求参与者选择0到100之间的一个数字,离目标数字(所有参与者选择的平均数乘以一个系数p)最近的人获胜。

想象一下这个游戏:如果p=2/3,而所有人平均选择了30,那么目标数字就是20(30×2/3)。谁选的数字最接近20,谁就获胜。这个游戏的关键在于,你需要预测其他人会选什么数字,然后据此制定自己的策略。

研究团队的创新之处在于使用了一个组内设计的实验方法,允许他们比较同一个人在与其他人类实验参与者互动或与LLM(ChatGPT 3.5和Claude v2)对抗时的行为差异。他们特别关注那些人类与多个对手互动且没有任何参与者存在占优策略的情境。这意味着,为了选择策略,参与者必须形成关于对手行动的信念,这让研究者能够调查人类是否对LLM和其他人类有不同的看法。

研究还利用了两名玩家版本的p-美丽竞赛,这种版本下,能够找到(弱)占优策略的参与者被认为具有高战略推理能力。基于这种推理能力将受试者分成不同子样本,进一步研究人类在面对LLM而非人类时行为差异的异质性,并检验哪些信念驱动了这些行为转变。

实验设计:如何对比人类与AI的互动差异

研究团队在实验室中招募了72名受试者,他们都是来自爱丁堡大学的学生,包括本科生和研究生,平均年龄为22.6岁。实验过程中,参与者需要完成一系列任务:

首先,参与者完成了6个版本的p-美丽竞赛游戏。基础版本是3人美丽竞赛,p=2/3,获胜者获得3英镑奖励,如果出现平局,奖金平分。此外还有两个相关任务:两人p-美丽竞赛,参数p分别为2/3和1/2。

接下来,研究者让参与者预测其他实验参与者在游戏中的选择。这项任务类似于让参与者分配17个"代币"(代表同一场会话中的其他17名参与者)到20个等大小的"箱子"中,这些箱子代表了不同范围的数字选择。

然后是关键部分:参与者被要求在3人p-美丽竞赛中与两个LLM(ChatGPT和Claude)对战。这个任务与之前的人类对战任务相似,但参与者被明确告知他们的对手是由OpenAI开发的ChatGPT和由Anthropic开发的Claude。值得注意的是,研究者用相同的提示词询问了这两个LLM,它们都选择了50作为自己在游戏中的猜测。但参与者在做出选择时并不知道LLM的实际选择,只有在实验结束时才能了解。

最后,参与者还完成了一项任务,该任务中对手的选择是已知的。这让研究者能够检查参与者是否能够对已知的对手选择做出最佳响应。

整个实验过程中,参与者可以使用屏幕上的计算器,并根据在各部分的表现获得奖励。平均而言,参与者获得了17英镑的报酬(包括5英镑的出场费)。

研究发现:人类确实对AI抱有特殊期望

通过仔细分析实验数据,研究团队发现了几个重要结果:

首先,人类确实在战略上区别对待LLM和人类对手。 当与LLM对战时,参与者选择的数字显著低于与人类对战时(平均数分别为23和29)。有趣的是,50%的参与者在与LLM对战时选择了比与人类对战时更小的数字,平均减少了18.2点。相比之下,只有37.7%的参与者在与LLM对战时选择了较大的数字,平均增加仅为7.3点。这表明大多数参与者确实调整了他们的策略,且调整幅度相当显著。

其次,选择零的频率是关键差异。 在与人类对战的3人p-美丽竞赛中,只有4.2%的参与者选择了零,而在与LLM对战时,这一比例上升到了15.3%。更有趣的是,这些选择零的参与者中,36.4%来自那些表现出高战略推理能力的参与者,而这些高能力参与者仅占总样本的16.7%。

再者,高战略推理能力的参与者更容易对LLM采取不同策略。 研究者通过一系列标准确定了具有高战略推理能力的参与者。结果显示,35.7%的高能力参与者在与LLM对战时选择了零,相比之下,其余参与者中只有10%这样做。这表明,那些具有更强战略思维能力的人更可能预期LLM会表现出更接近均衡的行为。

最后,参与者的选择动机揭示了对LLM的复杂预期。 当被问及为何在与LLM对战时选择零时,6位参与者提到了他们预期LLM能够通过推理到达零这个选择。令人惊讶的是,另外4位参与者提到了合作性,他们预期LLM会选择零,因为在成功合作的情况下,这将确保多位获胜者平分奖金。这一发现特别值得注意,因为p-美丽竞赛本质上是一个非合作性的环境,协调行动并不会增加个人或集体利益。

研究意义:人机互动的未来设计

这项研究为理解人类如何在战略环境中与LLM互动提供了基础性见解。它不仅揭示了人类确实区别对待LLM与人类对手,还开始揭示谁会这样做以及为什么。

对于机制设计者来说,这些发现具有重要意义。当设计混合人类-LLM互动场景的机制时,我们必须考虑各种类型代理的异质性及其对对手的信念。仅基于纯人类环境的人类行为假设可能在有(众多)LLM代理参与的环境中失效。研究者需要仔细调查这些假设的有效性,并确保未来的机制对LLM"意图"和推理能力的各种信念具有鲁棒性。

同时,也许可以利用人们对LLM复杂性或合作性的认知来引导人类行为。虽然本文中的机制设计含义是基于p-美丽竞赛中人类行为的观察,但它们突显了为人类-AI环境设计机制的更广泛挑战。需要进一步研究来确定这些发现是否适用于其他环境,如(反)协调或谈判博弈。

未来展望:扩展研究边界

未来的研究应该显著扩大范围。应该致力于在更广泛的战略环境中探索人类-LLM互动,如(反)协调、公共物品和谈判博弈,以及在有学习机会的动态环境中进行研究。重要的是,研究应该测试与除了我们使用的两个版本之外的各种LLM的互动,包括更新的架构和为战略博弈校准的模型。

研究人数量的扩展效应,可能扩展到数百甚至数千个LLM代理,以及理解人类行为对不同LLM提示策略的敏感性也将是有价值的研究方向。

总之,这项研究向我们展示了一个重要事实:在战略博弈中,人类确实会对LLM持有特殊的期望——无论是期望它们更理性,还是更具合作性。随着AI日益融入我们的社会和经济生活,理解这些期望如何塑造我们的行为将变得越来越重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
独家:贺娇龙为何会坠马出事?

独家:贺娇龙为何会坠马出事?

仕道
2026-01-14 13:03:16
腿粗屁股大的金发辣妹,黑背心配红瑜伽裤,凸显饱满臀线魅力

腿粗屁股大的金发辣妹,黑背心配红瑜伽裤,凸显饱满臀线魅力

小乔古装汉服
2025-12-17 15:54:55
伊朗抗议难动摇伊斯兰共和国根基,但美以军事干涉变量不可控

伊朗抗议难动摇伊斯兰共和国根基,但美以军事干涉变量不可控

澎湃新闻
2026-01-12 10:04:30
还有69万没赔!“教科书式耍赖”,最新进展

还有69万没赔!“教科书式耍赖”,最新进展

南方都市报
2026-01-14 09:15:55
何晴去世30天,儿子许何终于发声,字字催泪,才知许亚军有多体面

何晴去世30天,儿子许何终于发声,字字催泪,才知许亚军有多体面

叨唠
2026-01-14 05:55:37
1987年,蒋经国最后一张全家合影,身患糖尿病,第二年去世!

1987年,蒋经国最后一张全家合影,身患糖尿病,第二年去世!

鹤羽说个事
2026-01-06 10:46:23
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
三位勇士以一身伤痕,为14亿人辟出法治生路

三位勇士以一身伤痕,为14亿人辟出法治生路

深度报
2025-11-07 22:56:16
领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

二胡的岁月如歌
2026-01-03 18:02:12
我国最“不靠谱”的三位专家,在央视“大放厥词”,却爆火34年

我国最“不靠谱”的三位专家,在央视“大放厥词”,却爆火34年

有范又有料
2026-01-13 09:21:31
上海公安确认:是演员胡歌

上海公安确认:是演员胡歌

掌中邯郸
2026-01-14 07:06:24
广西一法官未通知当事人拍卖其亿元矿山,裁定书作出7个月未送达

广西一法官未通知当事人拍卖其亿元矿山,裁定书作出7个月未送达

报人老张
2026-01-14 12:46:33
高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

闻识
2026-01-14 11:38:46
董宇辉带货的大别山黄油母鸡遭打假,粉丝:我不相信他卖坏东西

董宇辉带货的大别山黄油母鸡遭打假,粉丝:我不相信他卖坏东西

映射生活的身影
2026-01-14 17:16:39
影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

徐帮阳
2025-12-23 18:33:38
国务院国资委披露80多家央企负责人2024年度薪酬信息

国务院国资委披露80多家央企负责人2024年度薪酬信息

新京报
2026-01-14 19:52:03
坏消息,奇才队特雷·杨因膝伤和股四头肌伤缺席全明星赛前2场

坏消息,奇才队特雷·杨因膝伤和股四头肌伤缺席全明星赛前2场

好火子
2026-01-15 07:14:09
纪实:广西刑警酒后开枪射杀孕妇案,夫妻因不提供服务,被打4枪

纪实:广西刑警酒后开枪射杀孕妇案,夫妻因不提供服务,被打4枪

谈史论天地
2026-01-13 14:30:03
多国政府、政要发声重申恪守一个中国原则,国台办回应

多国政府、政要发声重申恪守一个中国原则,国台办回应

环球网资讯
2026-01-14 11:08:48
董路:邝兆镭在西班牙拿不到参赛证,将回国加盟深圳新鹏城

董路:邝兆镭在西班牙拿不到参赛证,将回国加盟深圳新鹏城

懂球帝
2026-01-14 09:25:40
2026-01-15 08:23:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15461文章数 49684关注度
往期回顾 全部

科技要闻

反垄断大棒,为何砸向了携程

头条要闻

贺娇龙意外坠马头部重伤离世 最后一条朋友圈与马有关

头条要闻

贺娇龙意外坠马头部重伤离世 最后一条朋友圈与马有关

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

时尚
旅游
数码
教育
公开课

最时髦的单品,难道不是背肌吗?

旅游要闻

缙云丨余道勇:时光在天星沟交汇

数码要闻

华为WATCH Ultimate 2手表开推HarmonyOS 6.0.0.209版本

教育要闻

孩子可以不成才,但不能不感恩

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版