![]()
2024到2025年间,高等经济大学的研究团队做了个有意思的测试。
他们找了GPT-4o、Gemini、Claude、Llama这五种主流大语言模型,让它们玩一个简单的猜数字游戏。
游戏规则很明确,在0到100之间选个数,目标是最接近所有参与者平均值的三分之二。
本来想看看这些顶尖AI的表现有多出色,但后来发现,实验结果背后藏着的问题,比想象中更关键。
![]()
这个猜数字游戏不是随便设计的,它是凯恩斯“选美竞赛”理论的现代版本。
1936年凯恩斯就用报纸选美比赛打比方,说参与者选的不是自己觉得最美的,而是大多数人觉得最美的。
这种多层次推理,正是战略决策的核心。
研究团队设置了16个不同场景,每个模型在每个场景里都要重复50次选择,总共出了4000份回复。
![]()
场景变量很丰富,有的改了计算规则,用中位数或最大值代替平均值,有的给对手定了不同身份,比如经济学新生、会议专家,还有的给对手赋予了愤怒、悲伤这类情绪状态。
而且所有模型都没法从之前的轮次里学经验,只能靠自身推理。
人类在这个游戏里的表现早就有定论了。
1995年纳格尔的经典实验里,目标是平均值三分之二时,人类平均会选37,目标是一半时,平均选27。
![]()
但这些AI的表现完全不一样,所有模型选的数都远低于人类,有些甚至接近博弈论里的纳什均衡点,零。
就算是选数稍高的GPT-4o,也比人类平均水平低不少。更有意思的是模型规模的影响。
研究团队测试了不同参数量的Llama模型,从10亿到4050亿不等。
结果很明显,规模越小的模型,选数越接近人类,通常在50左右,规模越大,选数越低,越靠近理论预测的最优解。
![]()
这说明大模型确实能进行更深层次的思考,但这种思考,未必是件好事。
可能有人会觉得,AI选数更接近理论最优解,难道不是更理性、更聪明吗?我一开始也这么想,但深入分析后才发现,这恰恰暴露了AI的致命缺陷。
它默认对手会和自己一样进行深度战略推理,却完全忽略了人类决策里常见的情绪、直觉和有限理性。
还有个关键细节被忽略了。
![]()
在双人博弈里,选零其实是弱占优策略,不管对手选什么数,选零都不会吃亏,表现永远不会比其他选择差。
但所有AI模型都没认出这个逻辑,也没解释过相关思路,只是一个劲地对其他玩家的可能行为做逐步推理。
这和正规经济学训练里的思维方式,有着明显差距。AI对语境的敏感度倒是和人类高度吻合。
把游戏设定成电视竞赛,再用不同措辞描述提示,AI的反应和人类很像。
![]()
比如对手被描述成愤怒时,不管是人类还是AI,都倾向于选更高的数,对手是悲伤状态,选择幅度就会变小,如果对手被定义为更有分析能力,双方猜的数都会比面对直觉型对手时低。
其中GPT-4oMini和Llama对措辞变化的反应最强烈。
领导研究的德米特里・达加耶夫就说过,这些结果说明AI对游戏结构变化的反应和人类相似,但核心问题在于,AI总是高估对手的策略水平。
这种高估,不是简单的判断失误,而是对人类决策模式的根本误判。
![]()
这可不是单纯的学术问题。
现在AI已经开始在很多领域取代人类,提升业务流程的经济效率,但达加耶夫强调,很多决策里,类人行为依然至关重要。
AI的这种误判,放到现实场景里,很可能引发一系列问题。
就拿金融领域来说,2025年有家大型证券机构用GPT-4o辅助预测散户交易行为,结果因为算法低估了散户的非理性追涨杀跌,预测准确率降了不少,还让客户蒙受了直接损失。
![]()
商业定价领域也有类似情况,某头部电商用AI制定定价策略,因为高估了竞争对手的策略深度,把价格提了20%,最后市场份额掉了15%。
2025年不少学术研究都聚焦在LLM的博弈表现上,从囚徒困境到最后通牒游戏,相关探索越来越多。
有的研究提出了LLM-Nash框架,想指导AI代理的决策,还有的研究发现,人类往往期待AI表现出理性和合作倾向,这反而会进一步加剧决策偏差。
这项发表在《经济行为与组织杂志》上的研究,给AI应用提了个醒。
![]()
搞清楚AI在哪些地方和人类契合,哪些地方不契合,直接决定了这些系统在市场、政策和日常生活中的应用方式。
当AI被用来预测市场趋势、制定商业策略或辅助政策决策时,开发者和使用者都得清楚,这些系统可能因为过于理性,而无法准确模拟人类的实际行为。
AI确实在变得越来越聪明,但毫无疑问,它还需要学会“不那么聪明”。
只有真正理解了人类的有限理性、情绪和直觉,才能真正融入人类社会,发挥出应有的价值。
毕竟,在人类主导的世界里,脱离实际的超理性,从来都不是最优解。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.