网易首页 > 网易号 > 正文 申请入驻

大模型预言家诞生!中国团队登顶全球榜单,马斯克预言被改写?

0
分享至



大模型圈,变天了。

近日,一份名为FutureX的全球动态评测榜单刷新了成绩。北京中关村学院信息智能团队自主研发的智能体系统Milkyway,以60.9分的绝对优势霸榜!



这个分数有多夸张?

作为对比,由埃隆·马斯克(Elon Musk)旗下xAI打造、曾被寄予厚望的Grok-4,在这份榜单上仅拿到了25.9分。Milkyway的得分是它的一倍还多(Grok-4曾拿下该项目的首期冠军)。

陈天桥团队的MiroFlow框架(搭载GPT-5等),得分也高达57.5分。它在最难的Level 4依然能逼近50分大关,对复杂不确定性的掌控力令人惊叹。



智谱的GLM-5-thinking则拿到37.3分,深度求索的DeepSeek-V3.2-thinking拿下31.2分。阿里的千问Qwen-3.5-plus-thinking则拿到26.9分,位列第17。

Grok-4以25.9分排在第18位。马斯克曾公开断言:“预测未来的能力,是对模型智能性最好的测试。”



如今,这场关于“预言能力”的残酷试炼,撕下了传统大模型靠“刷静态题库”营造的遮羞布。

过去几年,所有前沿大模型在MMLU、HumanEval这些传统学术题库里,几乎都能轻松刷出90%以上的高分。

但商业世界不需要做题家。市场真正关心的是:大模型能预测下周某款爆品的销量吗?能判断地缘博弈的走向吗?

一部分敏锐的顶尖团队已经交出了答卷。在FutureX已经公开的过往实战记录(FutureX-Past数据集)中,记录了大量被AI智能体成功拆解的真实世界考题:

比如微观商业。AI需要在2025年底,通过自主抓取网页和历史数据,预测Temu美国区特定商户在12月5日的某款商品精准销量。

比如宏观气候。AI需要基于NASA的Gistemp数据,推演12月全球平均气温相较于历史基准期的偏差。

甚至还有高度嘈杂的地缘政治与体育赛事。预测谁能进入2026年1月葡萄牙总统选举的第二轮;预测墨西哥甲级联赛中,克雷塔罗足球俱乐部对阵蒂华纳的赛果。

面对这些问题,瞎蒙是没有用的。系统必须像顶级情报分析师一样,在全球碎片化的蛛丝马迹中搜寻信号,过滤虚假新闻,最终给出一个没有模糊空间的答案。

对错,全由现实世界来裁定。

为什么各大巨头现在都盯着FutureX?因为它是真正的“闭卷实战”。

这个由字节跳动Seed团队、斯坦福大学、复旦大学和普林斯顿大学等联合发起的国际评测基准,彻底干掉了一个大模型作弊的温床——数据污染。

以往的静态考题,模型在训练时可能早就把答案背下来了。但FutureX考的是尚未揭晓的未来事件。它每天从全球195个高质量信源中实时提取新考题,模型根本无从作弊。

FutureX采用的是“折叠式”评分逻辑,拒绝模型靠蒙对简单的“是与否”来刷分。它大幅压缩了二元对立事件的数量,并将难度分为四个等级:



Level 1是基础事件,权重仅占10% 8。

Level 2考察有变量的趋势预测,占20% 8。

Level 3(多步深度推理)与Level 4(极高不确定性的宏观预测)作为难点资产,合计占了总分的70%。

这就像是一张考卷,前面的选择题只占30分,剩下70分全是需要海量推演的压轴大题。



在这种高压测试下,2026年3月的真实榜单展现出了极其冰冷的技术分化。

以被其他家反超的Grok-4为例,拆解Grok-4的成绩单会发现一个致命弱点:它在Level 1的简单任务里拿了71.43的高分,但在需要深度推理的Level 3,得分却发生了断崖式下跌,仅有8.21分。而以第三方Agent接入的基础模型GPT5.2更是惨烈,如同失去方向感的盲人,仅得10.3分。

不过,总分拉胯不代表全盘皆输。为了更精准地衡量大模型的工业落地能力,FutureX专门设立了“细分预测任务”(涵盖基础事件与要求极高精度的FutureX-Pro垂直领域),这直接暴露了各家大模型的“偏科”体质:



政治与科技领域:擅长逻辑推理的GPT-5分别以72%和68%的准确率称霸,DeepSeek-R1和Claude-3.7紧随其后。

体育赛事(高频动态博弈):DeepSeek-R1拔得头筹(64%),Claude-3.7(60%)排在次席。

金融(FutureX-Finance):要求预测财报和宏观指标,误差必须控制在5%以内。GPT-5-high和Grok-4在这里找回了主场,分别以46.37和41.25分领跑。

零售(FutureX-Retail):考验销量与供应链预测。Claude-Opus和Kimi-K2展现出极强的“商业直觉”,在评估不确定性的概率分布任务上得分最高。

公共卫生(FutureX-PublicHealth):解读官方公报预测疾病指标。GPT-5-High和Kimi-K2-thinking凭借极高的问题覆盖率占据榜首。

此外,字节的豆包(Seed1.6)和谷歌的Gemini Deep Research也在各类高难度交叉分析榜单中稳居前四。

Milkyway和MiroMind之所以能在综合榜单上超越这些“偏科”的算力怪兽,秘密不在于参数量,而在于“Harness层(脚手架)”和“验证机制”的深度攻关。它们引入了DAG(有向无环图)推理协议和双层验证器。简单来说,它们在模型内部建了一个“风控中台”,每搜索一条信息、每推理一步,都有机制在实时审计,强制纠错。

FutureX的榜单更迭,不仅仅是一场技术极客的狂欢,它向所有创业者和普通人释放了一个强烈的信号:

第一,套壳聊天的时代结束了。

大模型的价值不再是写几首诗、写几封邮件,而是走向“Action Engine(行动引擎)”。谁能帮企业在红海物流停摆前提前两周调整供应链?谁能在金融市场里捕捉到微弱的宏观信号?高价值的“预见力”才是下一步的真金白银。

第二,产业链的缝隙藏着大机会。

没有哪一个模型能够通吃所有细分领域。这正是创业者的机会。搭建更优秀的智能体外壳(Agent Harness)、设计更抗干扰的验证流、在特定垂直领域(如零售销量、病理演变、区域地缘)投喂高质量的反馈信号。

未来的赢家,不一定是拥有最多GPU的人,但一定是最懂如何在不确定性中建立规则、驯服AI的人。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
嚣张!拼多多竟把执法人员手指夹骨折。网友调侃:“砍一刀”不是白叫的,15 亿罚轻了

嚣张!拼多多竟把执法人员手指夹骨折。网友调侃:“砍一刀”不是白叫的,15 亿罚轻了

新浪财经
2026-04-20 07:43:33
越南一把手很焦虑:和中国一对比,才知道原来我们落后了这么多

越南一把手很焦虑:和中国一对比,才知道原来我们落后了这么多

头条爆料007
2026-04-20 15:46:48
突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

新浪财经
2026-04-20 04:31:06
美以狂轰滥炸一个月,伊朗改革派快被炸光了,剩下的全是不要命的

美以狂轰滥炸一个月,伊朗改革派快被炸光了,剩下的全是不要命的

仙味少女心
2026-04-19 17:03:36
一场119-84的狂胜,让火箭湖人都感到绝望,掘金也彻底后悔了

一场119-84的狂胜,让火箭湖人都感到绝望,掘金也彻底后悔了

毒舌NBA
2026-04-20 07:51:44
房子遭人强拆,因反抗坐3年牢!出狱后扬言:不赢官司就杀人!

房子遭人强拆,因反抗坐3年牢!出狱后扬言:不赢官司就杀人!

谈史论天地
2026-04-20 12:16:17
5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

另子维爱读史
2026-04-19 19:37:43
强闯台海后,高市再惹大祸,中朝联合亮剑,解放军现身日本家门口

强闯台海后,高市再惹大祸,中朝联合亮剑,解放军现身日本家门口

基斯默默
2026-04-20 15:41:02
“3岁男童遭生父女友虐待致死案”,明日宣判

“3岁男童遭生父女友虐待致死案”,明日宣判

南方都市报
2026-04-20 17:00:24
刚刚,全线跳水!伊朗,突然宣布

刚刚,全线跳水!伊朗,突然宣布

中国基金报
2026-04-20 16:23:10
五预警齐发!雷暴大风、暴雨、冰雹……“组团”来袭!上海这天雨势明显

五预警齐发!雷暴大风、暴雨、冰雹……“组团”来袭!上海这天雨势明显

鲁中晨报
2026-04-20 11:12:11
叛逃至我国级别最高的外国领导人:越南副主席黄文欢,结局如何?

叛逃至我国级别最高的外国领导人:越南副主席黄文欢,结局如何?

兴趣知识
2026-04-20 01:15:11
罚15亿!拼多多一员工故意关门,对抗调查,导致执法人员手指骨折

罚15亿!拼多多一员工故意关门,对抗调查,导致执法人员手指骨折

魔都姐姐杂谈
2026-04-19 08:03:27
联合国:加沙3.8万多名女性被以军杀害

联合国:加沙3.8万多名女性被以军杀害

参考消息
2026-04-20 13:10:03
深圳女子花7299元从国美电器买格力空调 用1年就异响,一看铭牌发现是“僵尸机” 交涉30多次才解决

深圳女子花7299元从国美电器买格力空调 用1年就异响,一看铭牌发现是“僵尸机” 交涉30多次才解决

信网
2026-04-20 09:14:12
美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

美方扣押一艘中国驶来伊朗货船,外交部:对美方强制截停有关船只表示关切

澎湃新闻
2026-04-20 15:42:26
中央美院教授、油画家葛鹏仁病逝,享年85岁

中央美院教授、油画家葛鹏仁病逝,享年85岁

澎湃新闻
2026-04-20 17:12:26
大疆,少有人走过的路

大疆,少有人走过的路

智谷趋势
2026-04-15 11:48:17
“按按钮就行”:官媒的“大国工匠”是如何失误的?

“按按钮就行”:官媒的“大国工匠”是如何失误的?

虔青
2026-04-20 13:25:48
美国在霍尔木兹截停中国油轮 中方回应

美国在霍尔木兹截停中国油轮 中方回应

极目新闻
2026-04-20 15:50:46
2026-04-20 19:52:49
哭蓝了海a
哭蓝了海a
哭蓝了海
494文章数 80关注度
往期回顾 全部

科技要闻

华为Pura90逆周期定价,4699元起,未涨价

头条要闻

小学生遭多名中小学生施暴搜家 家长以"入室抢劫"报案

头条要闻

小学生遭多名中小学生施暴搜家 家长以"入室抢劫"报案

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

时尚
教育
家居
数码
房产

今年最流行的衣服竟然是它?高级又气质!

教育要闻

同一个词,AI怎么知道它是什么意思?

家居要闻

自然慢调 慢享时光

数码要闻

华为新内存技术来了,Mate X7用户6月有福

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

无障碍浏览 进入关怀版