网易首页 > 网易号 > 正文 申请入驻

AI智能体是否能预测未来?字节跳动seed发布FutureX动态评测基准

0
分享至



你有没有想过,AI 不仅能记住过去的一切,还能预见未知的未来?

想象一下,让 AI 预测下周的股价、下个月的票房冠军、甚至下届世界杯的赢家……这听起来像科幻片,但如今,它已经成为现实中一场「极限挑战」。

最近,一场专门考验 AI「预言」能力的考试——FutureX 动态评测基准正式发布。它由字节跳动 Seed 团队联合斯坦福大学 Jose Blanchet 教授团队、复旦大学邱锡鹏教授团队、普林斯顿大学王梦迪教授团队共同打造,让 Grok-4、GPT、Gemini 等模型齐聚预测未来的考场。



  • 论文标题:FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction
  • 项目主页:https://futurex-ai.github.io/
  • 技术报告:https://huggingface.co/papers/2508.11987
  • 数据:
  • https://huggingface.co/datasets/futurex-ai/Futurex-Online

发布后 Elon Musk 转发,并评价该任务为「智能的真正度量」,推特浏览量过千万。



不考「记忆」考「远见」,FutureX 是什么?



过去的 AI 评测,总被诟病像「开卷默写」。题目是固定的,答案是已知的,提前「背好书」,就能轻松拿高分。这更像一场记忆力竞赛,而不是真正的智力考验。

FutureX 则改变了这一逻辑——它让 AI 预测的是尚未发生的未来,完全避免了数据污染/泄漏的可能,可以真实反映 AI 智能体的规划、搜索、复杂推理决策等能力。

每周,系统会自动从全球 195 多个高质量信息源中,筛选出 500 个新的预测任务,涵盖经济、科技、体育等各个领域。从预测一部新电影的首周票房,到判断一场关键体育赛事的胜者,所有题目在 AI 作答时都没有「标准答案」。



未来预测有多难?FutureX 的四层「进阶试炼」

预测未来从来不是简单的猜测,而是对信息搜集、趋势分析、风险判断等综合能力的终极考验。FutureX 将任务划分为四个难度层级,如同为 AI 智能体设置的「段位考核」:



这些任务并非凭空设计,而是基于195个精选自2000多个网站的高质量信息源,覆盖经济、科技、体育等多个领域,完全对接真实世界的复杂场景。



自动化评测体系,FutureX 是怎么构建的?

为了实现对未来事件的动态评估,FutureX 构建了一套完全闭环的自动化系统:

  • 每天自动抓取值得预测的未来事件;
  • 在事件发生之前调度 23 个主流 LLM/ 智能体进行预测;
  • 在事件发生之后抓取事件结果进行评分。



最新排行榜:谁在预测未来的赛道上领跑?

那么,在这场史无前例的「未来考试」中,谁拔得头筹?(数据统计自 7 月 20 日至 8 月 14 日)



核心发现:

  • Grok-4 暂时领跑,GPT 和 Gemini 紧随其后。在所有模型中,Grok-4的综合表现最为突出,拔得头筹。紧随其后的是GPT-4o-mini和Gemini-2.5-flash Deep Research。字节跳动Seed系列模型也展现了不俗的实力。

  • AI 智能体距离人类专家仍有差距。表现最好的 Grok-4 在 L4(高波动开放任务)上的准确率只有不到 20%,大部分 agents 的准确率只有不到 10%,仍明显落后于人类预测。

  • 预测未来是推理和搜索的结合。在简单选择题上,不依赖工具的基础 LLM 表现惊人,比如 DouBao-Seed1.6-Thinking 甚至超过部分带搜索功能的智能体;但到了复杂任务,能实时调用工具的智能体优势立刻显现,说明「联网搜索」是 AI 应对复杂预测的必备技能。



AI 的「神预言」vs「马后炮」:差距有多大?

为了搞清楚「预测」到底比「搜索」难多少,研究团队做了一个对比实验:

  • 事前预测(神预言模式):在事件发生前,预测结果。
  • 事后搜索(马后炮模式):在事件发生后,去网上查找并回答结果。

结果发现:Grok-4 在开启「马后炮模式」时,凭借强大的搜索能力,准确率可以轻松达到很高的水平。然而,一旦切换到「神预言模式」,准确率便断崖式下跌。



这个对比一针见血地指出:搜索信息只是 AI 的基本功,真正的难点在于如何在信息不完整、充满不确定性的情况下,进行高质量的推理和判断。这才是「预测」的精髓,也是 AI 最需要突破的瓶颈。

解密未来预测:AI 需要练好哪些「内功」?

为什么预测未来如此之难?研究发现,三大核心能力至关重要:

  • 工具调用质量:能否精准、高效地使用搜索等工具。
  • 搜索来源可靠性:能否从海量信息中辨别真伪,找到关键信源。
  • 推理规划全面性:能否像人类专家一样,构建全面、严谨的逻辑链条。

简单来说,强大的搜索力和思考力缺一不可。这正是 FutureX 希望推动 AI 发展的核心方向。

未来已来:推动 AI 从「已知」走向「未知」

FutureX 的探索仅仅是一个开始。我们的研究揭示了当前 AI 智能体在迈向真正实用的道路上,必须克服的核心挑战:如何在信息爆炸、充满不确定性的真实世界中,像人类专家一样进行思考、推理和决策。

我们坚信,FutureX 有潜力成为推动 LLM 智能体发展的关键引擎。通过提供一个公平、动态且极具挑战性的评估平台,我们希望能激励学术界和工业界的研究者们,共同开发出能够在高风险、高复杂度真实场景中,比肩甚至超越人类顶尖分析师的下一代 AI 智能体。

周赛开启:一起来可靠评测 Agent

每周题目发布于https://huggingface.co/datasets/futurex-ai/Futurex-Online,预测提交截止为每周三晚 23:59。欢迎阅读我们的技术报告,与我们一同探索 AI 的未来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“这个春节还怎么过!”漏呀漏呀漏……70多岁上海阿婆,苦不堪言

“这个春节还怎么过!”漏呀漏呀漏……70多岁上海阿婆,苦不堪言

上观新闻
2026-01-31 11:29:04
缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

小虎新车推荐员
2026-02-01 05:45:13
难以置信!郑州网友哭诉公司年会抽中苹果17,奖品被顶头上司盯上

难以置信!郑州网友哭诉公司年会抽中苹果17,奖品被顶头上司盯上

火山诗话
2026-02-01 10:26:39
伴娘好看还是新娘好看​​​​

伴娘好看还是新娘好看​​​​

太急张三疯
2026-02-01 15:55:51
老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

快科技
2026-02-01 11:55:44
吃相越来越难看,都开始硬抢了!

吃相越来越难看,都开始硬抢了!

胖胖说他不胖
2026-02-01 10:00:18
深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

每日经济新闻
2026-02-01 17:45:18
乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

史政先锋
2026-02-01 19:11:54
突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

中国基金报
2026-02-01 15:36:35
两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

侠客栈
2026-02-01 13:50:37
印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

封面新闻
2026-01-27 03:27:03
伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

每日经济新闻
2026-02-01 21:46:27
总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

不掉线电波
2026-02-01 15:52:15
马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

山河路口
2026-02-01 18:31:19
访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

访日刚结束,斯塔默遭51%民众反对,高市早苗犯愁,700万亿还不上

东极妙严
2026-02-01 21:18:04
萝莉岛上拆解儿童高达吃肉,这事儿怎么洗?

萝莉岛上拆解儿童高达吃肉,这事儿怎么洗?

韬闻
2026-02-01 13:46:13
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
绍伊古突然访华,一天内谈什么?四大焦点曝光!

绍伊古突然访华,一天内谈什么?四大焦点曝光!

华山穹剑
2026-02-01 20:29:38
官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

史行途
2026-01-30 09:43:04
郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

叶公子
2026-02-01 18:05:30
2026-02-02 04:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
数码
时尚
本地
军事航空

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

“多巴胺风”又又又火了!这样穿时髦又减龄

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版