网易首页 > 网易号 > 正文 申请入驻

数学圈地震!o3靠直觉刷爆人类顶尖难题,14位专家集体破防

0
分享至

  

  新智元报道

  编辑:桃子 犀牛

  【新智元导读】推理模型如何攻克数学难题?Epoch AI新研究发现,o3-mini-high不仅具备渊博学识,还会基于直觉解题。然而,它的推理风格过于依赖直觉,缺乏严谨性和创造力,甚至偶尔「投机取巧」。

  推理模型不会推理,一夜成为硅谷最热门的话题。

  来自Epoch AI最新报告称,o3-mini-high不仅会推理,还能破解顶尖数学难题。

  

  14位数学家组团,共同评估o3在29道FrontierMath推理能力。

  结果惊奇地发现,o3-mini-high完全凭借「数学直觉」破解了难题,并非依靠单纯死记硬背完成。

  

  他们还发现,o3具备一种类似物理学家思维方式,许多推理步骤缺少严格的论证、精确的证明。

  一位数学家称之为,「基于直觉的归纳推理器」。

  缺乏创造力和深入的理解,成为o3最大的弱点。

  

  在29道数学题考试中,o3-mini-high都有哪些表现,以下是报告所有细节。

  o3攻克13题,学识直觉兼具

  在29个推理过程中,有13个得出了正确答案——o3-mini-high到底是怎么搞定这些数学难题的呢?

  超强学识——不只是死记硬背

  一个关键因素是它那惊人的学识,这一点毫不意外,毕竟它接受了海量数据的训练。

  o3-mini-high能应对各种领域的FrontierMath问题,数学家们一致认为它的知识储备非常丰富。

  一位数学家评价说:「o3-mini-high能准确扩展问题的数学背景,涉及一些非常高深的概念。它的通用知识和对问题的理解完全不是瓶颈。」

  而且,这可不是单纯的死记硬背。

  即使问题设计者故意隐藏了解题所需的关键技术,数学家们普遍发现,o3-mini-high依然有不错的能力调用正确的定理来推进解题。

  特别是在大约66%的推理中,数学家们对模型调用相关数学结果的能力给出了至少3分(满分5分)的高评价。

  

  评审数学家普遍发现,o3-mini-high在调用数学文献中的相关结果方面表现尚可,在约三分之二的问题上获得了3/5或更高的评分

  全凭直觉,缺少精确

  如前所述,o3-mini-high推理过程,更倾向于非正式的风格。

  简言之,它是一个「基于直觉的归纳推理器」,并且拥有类似数学家好奇心,找出解决问题的最简单的方法。

  不过,在数学家看来,o3思考过程略显随意,不够精确。

  而且,其初始思路表述往往很粗糙,用语也不够严谨。存在一些在正式数学论文中不被接受的特殊情况。

  o3-mini-high为何不采用更形式化的推理?

  Epoch尚未完全弄清其中缘由,但至少可以确定,并不仅仅是「模型偷懒」那么简单。

  比如,他们发现,o3在需要的时候,会毫不犹豫地进行计算和写代码。

  这一看似并不起眼的繁琐步骤,却可以让模型能够保持更扎实、更少抽象的风格。

  不可否认,其推理依旧依赖的是直觉。

  而且,另一种可能是,预训练中「形式化推理」数据集占比少,后期难以完美激发o3所有潜力。

  三大短板曝出

  缺乏精确性

  上面提到的形式化精确性不足问题,是o3-mini-high的主要短板之一。

  比如,一位数学家指出:「o3-mini-high相比人类数学家的一个明显不足在于,它不会在发现某个结论后尝试去证明它。」

  在一个案例中,o3-mini-high通过非正式推理提出了一个正确的猜想,但完全没有尝试去证明这个猜想,而是直接用这个猜想来解决问题。

  最后还得到了正确答案。

  他们把这种情况称之为「投机取巧」(cheesing)。

  也就是说,模型基本上是靠猜答案,而没有经过完整的推理过程,完整的推理应该包括去证明相关的猜想。

  在模型得出正确答案的推理过程中,投机取巧的情况占了相当少的部分:

  

  「投机取巧」现象相对常见,但o3-mini-high在绝大多数情况下都能正确解决问题,且没有任何投机取巧行为(即得分为5)。该图仅适用于o3-mini-high正确回答所提问题的推理轨迹

  有时,o3-mini-high的思路大致是对的,但未能得出正确答案,仅仅是因为它未能建立起最后关键的联系。

  比如,在一个关于划分理论的问题中,模型只差一步就能答对,作者评论说:「如果它把n=0到某个数的输出求和,答案就对了。我对它的表现真的很佩服。」

  不过,更多时候,o3-mini-high并没有这么接近解决问题,如下图所示:

  

  只有大约18%的情况下,o3-mini-high得到错误解的情况非常接近正确解——总体而言,推理的正确程度分布更为广泛

  缺乏创造力和深刻理解

  数学家们认为,o3-mini-high最大的局限性在于缺乏创造力和深刻的理解,尤其是与具有同等知识水平的人类相比。

  一位数学家这样总结道:

  这个模型就像一个勤奋的研究生,读了很多书,能随口说出很多结果和作者的名字。初看之下挺厉害,但专家很快就会发现,这个「学生」并没有真正深入理解这些内容,大多只是鹦鹉学舌般地复述。

  模型的表现也是如此——它擅长识别相关内容,但无法以创新的方式扩展或应用这些知识。

  另一位数学家则说:

  这个模型有几个它偏爱的思路,总是试图套用这些想法。

  一旦这几个思路用尽,就没有实质性进展了。

  我觉得这挺让人失望的,作为一个专业组合数学家,我会期待它能更具创造性地解决问题,或者换个角度去思考(即便这些尝试可能会失败)。

  有位数学家甚至打趣道:「让AI解一道需要新思路的八年级数学竞赛题,可能比算一个大有限域上的超椭圆曲线有多少个点还难。」

  虽然这话听起来夸张,但它反映的情况和大多数数学家的观察差不多。

  幻觉问题

  模型还表现出许多其他失败模式。

  一个显著问题是,大约75%的推理过程包含「幻觉」,经常记错数学术语和公式。

  例如,一位数学家指出:「虽然它常常能回忆起相关公式的名字,但却无法准确复现,经常在无法回忆细节的地方插入占位符,如(…)。」

  o3-mini-high在使用工具和资源(如网络搜索)时也存在问题。

  比如,有人描述它「试图从许多它幻想出来的不存在的URL中获取信息」。这类问题在需要准确表达非常冷门的数学结果时就显得尤为关键。

  的确,有一位受访者认为:「一个能够执行类似浏览Google或arXiv,以查找潜在相关结果的智能体系统将大大提高它们在实际问题中的表现。」

  推理像人,又不像人,为何?

  o3-mini-high推理过程,与人类数学家有相似之处吗?

  对此,Epoch AI针对模型CoT和人类数学家进行了比对。整体讲,最终答案因不同数学家、推理过程而异。

  如下图所示,数学家对o3-mini-high推理像人程度,进行了打分。

  虽没有达到完全无法区分的程度,但AI在解答四道题目中,拿下了与人类数学家思维过程类似的成绩。

  

  1分表示推理完全不像人类,5分表示推理与人类数学家无法区分

  此外,在其他区间,o3均有涉及。为何跨度如此广泛?

  研究团队分析称,之所以有这么大的差异,与o3-mini-high具备多样化能力组合有关,至少对于人类来说是这样。

  一方面,它似乎非常擅长像人类一样推理问题,表现出好奇心并探索问题的不同解决路径。

  另一方面,它似乎知识过于渊博,缺乏创造力和严谨性,而且还有一些奇怪的「怪癖」。

  做题过程中,o3-mini-high推理过程往往非常冗长。甚至数学家形象地将其比作——口试中长篇大论的学生,倒也不是坏事。

  然而,并非所有的冗长推理细节,都明显有用。有时,AI在提交最终答案时,会出现类人的「焦虑」情绪。

  举个例子,o3-mini-high会最终陷入一种「反复重述」的循环怪圈——

  已完成解答,上面推理过程就是最终答案,还夹杂着自我怀疑的内心OS,然后又重新一步步计算得出最终公式的某些算术。

  不仅是o3,任何一个推理模型,都会陷入这类的死循环。

  至少在这种情况下,模型的推理过程明显不像一个冷静的人类数学家。

  

  基于以上内容,我们可以简单地将o3-mini-high总结为「一个博学但基于感觉的推理者,缺乏专业数学家的创造力和严谨性,且倾向于奇怪地冗长或重复」。

  这似乎与我们在网上看到的数学家的观点大体一致。

  他们认为,这一分析自然而然地引出了两个关键问题。

  第一个问题是:为什么像o3-mini-high这样的推理模型会展现出这些特性?

  一部分原因显而易见——这些模型之所以博学,是因为它们在大量数据上接受了训练,其中包括了大量公开的数学文献。

  但更让人好奇的是,为什么这些模型并不能更深入地利用已有知识,在不同数学子领域之间建立更多联系,或者更具创造性地提出新想法?

  这个问题的答案仍不明朗。

  第二个问题是:这些推理模型在目前的弱项(比如创造力和形式化推理)方面,未来还能改进到什么程度?而这样的进步,又会怎样重塑整个数学推理的方式?

  比如,我们可以把o3-mini-high的推理方式和AlphaProof这样的系统作比较——后者主要甚至完全基于合成数据训练,因此它「见过」的数学世界可能完全不同。

  考虑到数学本身对合成数据的高度适应性,有理由认为,未来的推理模型在思维方式上可能会和人类数学家越来越不一样。

  当然,我们现在的理解还只是刚刚触及这些模型工作机制的表层。希望未来能有更多类似的分析,来揭示这些系统背后的深层逻辑。

  参考资料:

  https://x.com/EpochAIResearch/status/1931746761221025914

  https://epoch.ai/gradient-updates/beyond-benchmark-scores-analysing-o3-mini-math-reasoning

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“第二个冯德莱恩”竞选日本首相,若成功当选,将掀起中日间巨震

“第二个冯德莱恩”竞选日本首相,若成功当选,将掀起中日间巨震

奇思妙想生活家
2025-09-14 16:35:27
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
9月14日WTT澳门赛决赛+CCTV5直播:孙颖莎VS王曼昱,王楚钦VS雨果

9月14日WTT澳门赛决赛+CCTV5直播:孙颖莎VS王曼昱,王楚钦VS雨果

开成运动会
2025-09-14 16:59:37
直降500元,苹果新机官宣:9月12日,全面开售!

直降500元,苹果新机官宣:9月12日,全面开售!

科技堡垒
2025-09-12 10:25:52
龙哥无语!阿隆索:米利唐当时在旁边,主裁回应:他离那有5米远

龙哥无语!阿隆索:米利唐当时在旁边,主裁回应:他离那有5米远

直播吧
2025-09-14 15:51:08
螳螂捕蝉黄雀在后!释永信“倒台”一个多月后,最大的受益人出现

螳螂捕蝉黄雀在后!释永信“倒台”一个多月后,最大的受益人出现

聚合大娱
2025-09-13 16:07:41
1966年,距今千年的六祖慧能肉身被剖,五脏六腑被扔,游街示众

1966年,距今千年的六祖慧能肉身被剖,五脏六腑被扔,游街示众

牛牛叨史
2025-09-11 22:06:15
杨尚昆问周总理:小平自称参加过遵义会议,此事确否,是何职务?

杨尚昆问周总理:小平自称参加过遵义会议,此事确否,是何职务?

大运河时空
2025-09-03 11:55:59
我发现双儿子家庭,最怕的不是买车买房,而是老了面对这3个困境

我发现双儿子家庭,最怕的不是买车买房,而是老了面对这3个困境

小马达情感故事
2025-09-13 17:55:06
10人皇马杀疯了!开局4连胜领跑西甲,姆巴佩传射,主裁判惹争议

10人皇马杀疯了!开局4连胜领跑西甲,姆巴佩传射,主裁判惹争议

侃球熊弟
2025-09-14 00:14:00
于朦胧坠楼真相曝光!独子骤逝父母崩溃,生前对女友摸头杀太甜

于朦胧坠楼真相曝光!独子骤逝父母崩溃,生前对女友摸头杀太甜

小彭聊社会
2025-09-12 03:27:10
女子称车停成都却收到重庆罚单,“车牌号后面都一样”,交管部门:“川渝”紧邻可能点错了,将尽快反馈、撤销

女子称车停成都却收到重庆罚单,“车牌号后面都一样”,交管部门:“川渝”紧邻可能点错了,将尽快反馈、撤销

极目新闻
2025-09-14 12:52:03
梅西罕见玩脱了?勺子点球被扑!2分钟后迈阿密丢球,从1-0变0-1

梅西罕见玩脱了?勺子点球被扑!2分钟后迈阿密丢球,从1-0变0-1

我爱英超
2025-09-14 08:49:27
好消息来了!铁路部门出“新规”:60岁以上老人享受5大“特权”

好消息来了!铁路部门出“新规”:60岁以上老人享受5大“特权”

白马惊天剑
2025-09-14 10:05:32
四川一高校向学生收“企业微信费”每人1200元?校方:自愿缴费,可交也可不交

四川一高校向学生收“企业微信费”每人1200元?校方:自愿缴费,可交也可不交

潇湘晨报
2025-09-11 19:06:30
隋坡探店西贝,720元吃个“不难吃也不好吃”?背后真相值得细品

隋坡探店西贝,720元吃个“不难吃也不好吃”?背后真相值得细品

行舟问茶
2025-09-14 11:09:00
中方:十分恶劣、立即停火!

中方:十分恶劣、立即停火!

中国基金报
2025-09-12 12:34:04
获释韩企员工讲述在美被拘押遭遇,80个人挤1个房间

获释韩企员工讲述在美被拘押遭遇,80个人挤1个房间

上观新闻
2025-09-13 23:33:07
真下课?媒体人爆料,北京国安考虑解雇塞蒂恩!邵佳一或成备胎

真下课?媒体人爆料,北京国安考虑解雇塞蒂恩!邵佳一或成备胎

国足风云
2025-09-14 14:24:50
美论坛:没有得到美国的允许,中国为何敢私自研发DUV光刻机?

美论坛:没有得到美国的允许,中国为何敢私自研发DUV光刻机?

元爸体育
2025-09-14 16:40:36
2025-09-14 18:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13444文章数 66149关注度
往期回顾 全部

教育要闻

初中数学因式分解题,数字多次重复出现就换元试试

头条要闻

俄国防部:俄军在演习中发射"锆石"高超音速巡航导弹

头条要闻

俄国防部:俄军在演习中发射"锆石"高超音速巡航导弹

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

彪悍那英,大女人与旧妻子

财经要闻

西贝贾国龙,“错”得离谱

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

时尚
艺术
亲子
教育
公开课

衣服“买精不买多”,日常准备这几款单品,简单舒适又大方

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

拇指发育不良有哪些症状,关节不稳、不能对掌和虎口小

教育要闻

父母应该多听听孩子的想法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版