周一的体育编辑部里,USA Today的编辑们大概是闲得发慌,决定给微软的Copilot出道考题——让它预测当天四场世界杯比赛的结果。
四场比赛,Copilot给出了四种不同的比分预测:西班牙对佛得角3比0、比利时对埃及2比1、乌拉圭对沙特阿拉伯2比1、伊朗对新西兰1比0。猜得挺像那么回事的,但你往下看实际结果会发现,这AI完美避开了所有正确答案。
![]()
现实打了所有人的脸。四场比赛全部以平局收场,而Copilot在分析时压根就没考虑过平局这种可能性。比利时和埃及1比1握手言和,乌拉圭和沙特也是1比1,伊朗和新西兰互相进球踢成2比2。最狠的打脸来自佛得角,他们的守门员若西马尔·迪亚斯——现在网上都叫他“沃济尼亚”——高接抵挡扑到头皮发麻,硬是把西班牙这支顶级强队拖进了一个0比0的平局。
USA Today记录了Copilot当时的推理过程,挺能说明问题的。这个AI模型判断,西班牙的锋线会对着佛得角漏洞百出的防线狂轰滥炸,射门多到对方迟早扛不住,从而暴露出这场较量原本就不在一个量级上。西班牙后来吃了亏才明白,这种预测反映的可能不是经过推敲的分析,而是Copilot吞进去的那种流量媒体炒作套路。
不过微软家的AI不是唯一吃红牌的选手。这个月早些时候,有记者拿ChatGPT预测NBA总决赛,问纽约尼克斯和圣安东尼奥马刺谁能夺冠。虽然尼克斯在周末用一场荡气回肠的第五战拿下了2026年总冠军,ChatGPT当初押的可是马刺,还信誓旦旦地说圣安东尼奥的超级巨星维克托·文班亚马会把系列赛拖进抢七。
这些翻车现场背后,有一项重磅的预印本研究给出了解释。研究者发现,像ChatGPT和Copilot这样的大语言模型,在预测体育比赛结果这件事上装备差得惊人,即便是分析已经发生过的重要回合和整场比赛,表现同样糟糕。
在一个专门设计的测试里,研究人员让顶尖AI模型去预测多个时长在3分钟到15分钟之间的比赛片段结果。表现最好的模型,准确率也只有43%。这说明大语言模型在预测真实世界结果时存在严重的性能缺口,即便是在足球比赛这种变量相对可控的环境里也不行。研究者写得很直白:“人类整体准确率是58.9%,而且预测的置信度始终合理,AI模型们则完全不是这么回事。”
几件事叠在一起看,结论很清楚:大语言模型的球商还差得远。对那些指望靠世界杯猜几把冷门发笔小财的人来说,这当然是坏消息。但对于一个已经烧了数千亿美元试图把大语言模型变成复杂推理引擎的科技行业,这背后的麻烦比赌输几场比赛要严重得多。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.