网易首页 > 网易号 > 正文 申请入驻

八大顶尖AI集体赌球亏光:Grok第一把就爆仓

0
分享至


文丨9527

2026年春,一项来自伦敦的实验在AI圈引发了不小的震动。AI初创公司General Reasoning将谷歌、OpenAI、Anthropic和xAI的八款顶尖模型请入同一个虚拟赛场,任务只有一个:在完整的2023-24赛季英格兰超级联赛中押注赚钱。实验结果出奇地一致——全部亏损,多款直接"爆仓"。

KellyBench把AI逼进了真实世界

这项名为KellyBench的基准测试(来源:General Reasoning,2026年4月),由General Reasoning公司设计,核心思路是用一个充满不确定性的动态场景检验AI的真实能力。

具体规则并不复杂:八款AI系统拿到了2023-24英超赛季的详细历史数据——球队统计、赛季记录——但不能访问互联网。它们的任务是针对每场比赛的胜负结果和进球数下注,并同时运用凯利公式管理仓位风险。每款模型有三次独立尝试机会,随着模拟赛季推进,新的比赛结果数据滚动注入,AI需要据此调整后续策略。

这里的凯利公式,是赌博和金融领域用于计算最优下注比例的数学工具——它要求使用者对自己预测的准确率有清醒的自我评估。押注过猛,几次失误就会破产;押得过保守,赢面大时也会错失收益。这道题本质上在考察一件事:AI是否真的知道自己"知道多少"。

Grok爆仓,Claude亏得最少

八款模型的表现用"全军覆没"来形容并不夸张。(来源:General Reasoning KellyBench报告,2026年4月)

Anthropic Claude Opus 4.6是其中相对表现最好的:平均亏损11%,在三次尝试中有一次接近盈亏平衡。"最好"的标准,不过是输得最少。

Google Gemini 3.1 Pro的表现则极具戏剧性——第一次尝试居然实现了34%的盈利,让人一度以为找到了什么规律。但第二次尝试直接破产,收益瞬间归零。单次偶然的盈利,不代表模型掌握了可复现的策略能力,更可能只是运气的短暂眷顾。

最令人关注的是xAI Grok 4.20的惨败。作为马斯克旗下xAI公司的旗舰模型,Grok在技术发布时以强大的推理能力著称。但在这场测试中,它第一次尝试就耗尽全部"资金",剩余两次也未能走完整个赛季。

AI在静态考场里是优等生,在动态世界里是差生

这组数据背后有一个已讨论多年、但缺乏量化证据的老问题:AI基准测试和真实应用能力之间,到底有多大的距离?

过去几年,主流AI大模型在各类标准化测试上的成绩令人目眩——编程竞赛超越顶尖程序员,法律职业资格考试接近满分,数学奥赛题轻松拿下。这些成绩驱动了数千亿美元的投资,也支撑着"AI将取代大量人类工作"的叙事。

但批评者一直指出一个结构性问题:这些基准测试大多是静态的。试卷出卷后就固定了,模型在有限窗口内作答,没有时间压力,没有对手干扰,更没有因为上一场比赛结果而改变的新局面。General Reasoning的研究结论十分直接:AI在处理静态、规则清晰的任务时表现良好,但在连续的、充满混沌变量的真实数据流中适应能力严重不足。

KellyBench所模拟的英超赛季,天然具备这种混沌性:36周、380场比赛,球队状态、伤情、战术调整、主帅更换,每一周的现实都在改写上一周建立的概率模型。这恰好命中了当前AI架构的几个深层弱点。

第一个弱点是时序推理的断层。大多数主流模型本质上是一次性推理机器——接收输入,生成输出,然后"忘记"。处理动态赛季需要模型在数百次连续决策中累积判断、感知趋势、更新策略,这对以Transformer架构为基础的语言模型来说并非原生能力。

第二个弱点是自我校准的失准。凯利公式的正确使用要求使用者知道自己对某一预测的置信度是否准确。人类职业赌徒和金融交易员会在不确定性高时主动缩小仓位。但AI模型在混沌的体育竞技中,往往对自己的预测精度缺乏准确估计——要么过度自信导致单次押注过大,要么无法识别赢面高的时机。Gemini第二次破产和Grok第一把爆仓,大概率都是过度自信的结果。

第三个弱点是分布漂移的无力感。历史数据能告诉AI"曼城上赛季赢了多少场",却无法告诉它"这支球队在换帅后正在崩盘"。AI模型倾向于信任历史规律,而对"规律正在被打破"这件事高度迟钝。

对AI落地应用的现实警示

General Reasoning这份报告的意义,不在于证明AI"不会押注足球"——足球赌博本身从未是AI的目标市场。真正值得注意的是它揭示的能力边界:在金融交易、实时风控、动态运营等依赖持续动态判断的场景里,今天的顶尖AI仍然远达不到"可替代专业人类"的水准。

这对国内AI产业同样是一个值得认真对待的参考信号。2026年,DeepSeek等国产模型凭借强大推理能力和极低成本迅速崛起,国产AI在多项静态基准测试上的成绩已经接近甚至超越国际一线模型。但KellyBench提醒的,正是静态跑分与动态实战之间那道尚未被跨越的鸿沟。

把AI大规模部署到需要持续动态判断的真实业务场景,还需要更严谨的能力验证体系——不是看谁的基准分更高,而是看谁在连续、不确定、有噪声的真实数据流中,仍然能做出可信赖的判断。

Grok在模拟赛季第一把就爆仓,这或许是2026年AI行业最生动的一个注脚:能通过考试,不等于能应对生活。

本文为AI生成,仅供参考、学习使用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演出突然中断,现场观众与艺人紧急疏散!天津一音乐节主舞台发生严重倾斜,主办方:瞬时极端强风,舞台已转移

演出突然中断,现场观众与艺人紧急疏散!天津一音乐节主舞台发生严重倾斜,主办方:瞬时极端强风,舞台已转移

都市快报橙柿互动
2026-05-03 20:05:02
中国首次动用的新武器——阻断令

中国首次动用的新武器——阻断令

凯利经济观察
2026-05-03 12:40:14
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
白宫28岁女发言人宣布怀孕了,记者们惊讶的是她60岁的老公。

白宫28岁女发言人宣布怀孕了,记者们惊讶的是她60岁的老公。

岁月有情1314
2026-05-03 17:58:56
绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

小书生吃瓜
2026-05-02 22:22:47
四川弑母案:法学女杀母分尸,指认现场,笑着说“肉好肥哦”

四川弑母案:法学女杀母分尸,指认现场,笑着说“肉好肥哦”

墨策史
2026-05-02 23:01:31
被老百姓骂得最惨的5位专家,他们做了什么?为什么被骂?

被老百姓骂得最惨的5位专家,他们做了什么?为什么被骂?

七号说三国
2026-05-01 17:35:26
羽协主席张军涉醉驾违纪被查,奥运挡箭牌再引讨论

羽协主席张军涉醉驾违纪被查,奥运挡箭牌再引讨论

风雨与阳光
2026-05-03 18:14:38
新加坡很想哭,却不敢大声哭出来!

新加坡很想哭,却不敢大声哭出来!

华人星光
2026-05-03 11:43:07
赖清德偷偷钻进斯威士兰飞机窜访,洪秀柱酸偷鸡摸狗:非常丢脸!

赖清德偷偷钻进斯威士兰飞机窜访,洪秀柱酸偷鸡摸狗:非常丢脸!

海峡导报社
2026-05-03 18:52:07
全民83%反对!瑞典一场逆天变革,揭开人性最大陷阱

全民83%反对!瑞典一场逆天变革,揭开人性最大陷阱

爆角追踪
2026-05-02 21:25:36
网友爆料:蒋圣龙因为内脏问题,可能会选择退役

网友爆料:蒋圣龙因为内脏问题,可能会选择退役

懂球帝
2026-05-03 08:27:30
巴勒斯坦公布选举结果,哈马斯被排除在外,加沙18年统治正式落幕

巴勒斯坦公布选举结果,哈马斯被排除在外,加沙18年统治正式落幕

流史岁月
2026-05-01 12:00:22
“司机到河南被塞30斤蒜薹”背后:有蒜农称请人抽一斤倒贴几毛钱,增种、气温偏高致供大于求

“司机到河南被塞30斤蒜薹”背后:有蒜农称请人抽一斤倒贴几毛钱,增种、气温偏高致供大于求

红星新闻
2026-05-02 21:40:16
大特务毛人凤子女现状:长子是富士康董事长,三子是著名爱国华侨

大特务毛人凤子女现状:长子是富士康董事长,三子是著名爱国华侨

史之铭
2026-05-02 22:37:25
赵祥松|14岁“神童”手搓涡喷发动机,一场漏洞百出的包装表演

赵祥松|14岁“神童”手搓涡喷发动机,一场漏洞百出的包装表演

祥松谈
2026-05-02 15:01:46
太扎心了!“火化不要灰”成热议话题,一组逝者名单多是30岁上下

太扎心了!“火化不要灰”成热议话题,一组逝者名单多是30岁上下

火山詩话
2026-05-03 12:43:57
中俄绝对不是朋友,中美绝对不是敌人。

中俄绝对不是朋友,中美绝对不是敌人。

大秦共和国
2026-04-30 16:55:06
世界杯版权谈崩!足联张口要3亿,央视仅出8千万,评论区纷纷为央视点赞

世界杯版权谈崩!足联张口要3亿,央视仅出8千万,评论区纷纷为央视点赞

谭谈社会
2026-05-01 23:43:14
三度登顶!张雪车队陕西烧烤摊庆功全场买单,将在当地征战越野赛事

三度登顶!张雪车队陕西烧烤摊庆功全场买单,将在当地征战越野赛事

上游新闻
2026-05-03 13:07:07
2026-05-03 21:24:49
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
371文章数 6703关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

本地
亲子
时尚
游戏
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

曝光毒绘本:萨琪想要个小宝宝,明显教唆儿童学坏,家长朋友避坑

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

艾欧尼亚杯决赛日:鏖战五局!QS勇夺冠军

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版