网易首页 > 网易号 > 正文 申请入驻

o4-mini暴击六大数学天团,攻破陶哲轩难题!4.5h激战人类阵地失守

0
分享至

新智元报道

编辑:桃子

【新智元导读】不到两年,我们会见证AI数学家的重大突破!最新实验中,o4-mini与40位数学家,一同挑战300道菲尔兹奖级难题。o4-mini一举击败6组团队,超越人类平均水平。

八支「数学家天团」和o4-mini-medium同台竞技,谁会最终胜出?

最近,Epoch AI团队举办了一场竞赛,专门考察AI数学能力的进展。

这场比赛邀请了约40位数学精英,分成8组,每组由学科专家和优秀本科生组成。

他们要与AI一同在陶哲轩等人提出的FrontierMath基准上,展开终极对决。

比赛一共23题,限时4.5小时,实验最终得出:

o4-mini-medium碾压人类平均水平(19%),解决了约22%题目。

不过,o4-mini能够解决的问题,至少被一组数学家团队破解。由此,人类团队总体上解决了约35%的题目。

结果显示,o4-mini一共击败六组团队,在数学领域展现了惊人的潜力。

谷歌前CEO Eric Schmidt预测,未来1-2年内,「超级程序员」和「AI数学家」将取得重大突破。

o4-mini,作为AI的代表,便是一个很好的开始。

菲尔兹奖得主出题,AI击败6队

提及FrontierMath,想必圈内人无人不知。

这一基准于24年11月首次亮相,由菲尔兹奖得主与业内多位著名数学家共同出题,挑战AI数学能力的极限。

它包含300个问题,难度从高年级本科生水平到菲尔兹奖得主都认为具有挑战性的问题。

那么,这么多数学难题,人类在其表现中如何呢?

为了确定人类极限,Epoch AI便在MIT组织了这场比赛——FrontierMath Competition。

如上所述,每组被分成4-5人的8组团队,在联网情况下,最多用4.5h去解决23个数学题。最后,再与o4-mini-medium进行比拼。

o4-mini-medium的表现虽超过了平均人类团队,但不如所有团队的综合得分。

因此,在FrontierMath上,AI尚未完全超越人类,但Epoch AI认为顶尖模型很快就会做到。

目前,这份数据仅代表FrontierMath的一个小型非代表性子集。

若综合考虑,人类整体基准大约在30-50%之间。

接下来,Epoch AI详细解释了关于人类基准结果的四个关键点,包括其中来源和含义。

人类选手,并不代表数学SOTA

人类团队的表现,因团队而异构成。

由于参赛者主要来自波士顿数学社区,分析领域的专家较少,导致了整体专长分布不均。

每队虽至少有一名某一领域的专家,但也没有哪支队伍在所有高级领域,如拓扑学、代数几何、组合数学、数论等都有专家覆盖。

这使得人类平均分,可能低估了真实水平。

最重要的是,比赛4.5小时时间,可能限制了人类的表现。AI解决每题只需5-20分钟,而人类平均耗时约40分钟。

此前研究表明,人类在长时间任务上表现更具潜力,而AI性能可能在一定时间后趋于平稳。

为了更全面评估,研究团队采用了两种方式计算人类基准:

1. 团队平均得分:每支队伍独立表现,得分约19%

2. 综合得分:如果任一队答对某题就算正确,得分提升至约35%

若要为整个FrontierMath设定人类基准,还需解决第二个问题:比赛问题的难度分布与完整 FrontierMath数据集不同。

为此,研究人员按难度层级拆分结果,并根据完整基准的难度分布加权总体得分。

结果,按整体难度分布加权后,人类基准提升到约30%,基于「多次尝试」方法,更是刷新到了52%。

而此时,AI的加权得分约为37%。

Epoch AI指出,o4-mini-medium得分提升,是因为比赛中的Tier 1/Tier 2问题相对完整基准的同级问题较简单,说明了这一调整方法仍不理想。

设计巧思:推理而非知识

FrontierMath比赛的独特之处在于,它更注重数学推理能力,而非单纯的知识储备。

当前,AI在知识广度上远超人类——可以轻松调用数学、微分几何等庞大知识库,而人类很难精通所有领域。

因此,比赛题目被精心设计,尽量减少对背景知识的依赖。

比如,研究人员选用了7道适合优秀本科生的「通用问题」,以及16道专为专家定制的「高级问题」。

这些题目主要覆盖了四大类:拓扑学、代数几何、组合数学和数论。

为了激励参赛者挑战高难度题目,比赛还采用了特殊计分规则:

高级题目每题2分,通用题目每题1分;每个领域至少答对一题可额外加1分。

此外,奖金池也非常诱人,第一名1000美元,第二名800美元,第三名400美元。

全面超越人类,指日可待?

尽管o4-mini-medium在FrontierMath上,尚未完全超越人类,但其表现已令人瞩目。

它在比赛的得分不仅于人类顶尖团队相当,而且在知识广度上占据巨大优势。

Epoch AI预测,到2025年底,AI和可能明确超越30%-50%的人类基准。

有网友对此表示,要让AI成为超人的存在,必须定期解决人类数学家无法解决的问题。

然而,AI的成功机制依然是一道谜题。

它们究竟是靠猜测解题,还是真正掌握了数学推理?与人类的方法相比,有何不同?

在研究人员看来,这些问题有待进一步探索。

此外,FrontierMath的题目并非实际数学研究的直接代表,o4-mini的超人表现是否会转化为研究突破,仍需要时间来验证。

参考资料:

https://x.com/EpochAIResearch/status/1926031207482953794

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

陈意小可爱
2026-03-26 14:09:51
卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

另子维爱读史
2026-01-26 20:08:00
“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

新京报
2026-03-25 13:18:07
跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

懂球帝
2026-03-26 13:21:12
杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

懂球帝
2026-03-26 12:27:11
为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

鉴史录
2026-03-25 18:19:06
提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

美食格物
2026-03-14 01:05:06
马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

手工制作阿歼
2026-03-26 14:04:28
192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

菲儿爱蛋糕
2026-03-26 13:09:00
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:34:46
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

北青网-北京青年报
2026-03-26 13:55:05
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

海峡导报社
2026-03-25 08:17:03
马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

璀璨幻行者
2026-01-31 18:59:25
原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

奇思妙想草叶君
2026-03-26 14:01:49
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

另子维爱读史
2026-03-25 21:27:45
2026-03-26 14:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
手机
家居
数码
游戏

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

家居要闻

傍海而居 静观蝴蝶海

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

无障碍浏览 进入关怀版