网易首页 > 网易号 > 正文 申请入驻

o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】美国本科生最难数学竞赛,o1 pro竟然只用半小时就全部做出来了?要知道,参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现,错误率似乎高达100%,12道题没有一道完全正确?

一年一次的北美最难本科数学竞赛,刚在MIT沃克纪念堂(Walker Memorial)落幕。

这场普特南数学竞赛(Putnam Exam),每年汇聚了来自北美数百所高校的3500多名学生前来参赛。

既有个体,也有团体,他们需要在总时长为6小时的时间内完成作答。

在这场比赛还未开始之前,来自IBM研究员曾暗示,在公开题目发布后,会有人对大模型(AlphaProof、o1、Gemini)进行题目测试。

恰好,OpenAI最近发布了满血版o1,以及最强o1 pro,不知它们在这场考试表现如何?

相较于o1-preview,o1数学性能提升27%,o1 pro提升36%

o1 Pro半小时做出全部赛题

令人吃惊的是,有网友把此次普特南考试的考题给了OpenAI o1 pro。

6个小时的赛题,它居然半小时就做出来了!

用时最长的一道题花了6分52秒,最短的只用了1分12秒(上下滑动查看)

详细看了答案的网友们表示松了一口气:o1 pro还远未达到普特南考试的水平。

比如对于A1这道题,虽然它只用了1分钟58秒就做了出来,总体思路也是正确的,但仍有很多错误。

A2也没有完全解决。

如果在普特南答卷上写「……等等强烈表明我是对的」,显然你不会得分。

A3的答案,是错误的。

网友直接给出了正确的解题思路:可以利用鸽巢原理(抽屉原理)来证明在给定约束条件下,只存在唯一一个有效双射函数,并由此可以推导出不存在满足题目要求的a、b、c、d值。

对于B1,答案在n和k的形式上是正确的,但整个证明方法完全站不住脚。

总之,o1 pro似乎没有一道题是正确的。

这个结果属实有点惊人,因为其中一些问题难度没有那么高,比一些AIME竞赛题容易。

当然,如果从做出题目的数量来说,o1 pro的表现还是可圈可点。

目前来说,o1 pro做出的题目都是错误且不完整的。如果我们不以数学家的角度评判,可以认为它们很聪明。

更多评测

CodeSignal创始人Tigran Sloyan开启了两轮大测试,让o1 pro分别去解决普特南数学竞赛A1题,以及IMO试题。

显然,在普特南数学竞赛测试中,o1 pro成功做对了第一题。

得分+10,就已经超越了30%的参赛者。

如下,是o1 pro的全部解题过程。

而在IMO测试中,o1 pro完美解决了2006年测试集中最难的Q3题,仅仅用了6分48秒。

相较之下,在2006年全球大约500名19岁以下顶尖数学天才中,只有28人能在4个半小时内完全解出这道题。而美国对的6名成员,却无一人做到。

这是o1 pro的分析过程,虽然很简洁,好像省略了很多证明步骤。

Sloyan特别要求让其展示第4、5步的具体证明过程,o1 pro随后扩展出的思维过程同样令人印象深刻。

而且,他还测试其他模型(包括o1),尝试做这道题目,却都失败了。

没想到,这个结果惊动了xAI科学家Hieu Pham。

他表示,o1 pro的答案完全是胡说八道。如果在IMO竞赛中提交这样的解答,最多也只能给1分(满分7分)。如果遇到宽松的评判员,最多给2分,不会再多了。

他接着称,训练数据问题是一部分,这个答案 \frac{9}{16 \sqrt{2}}很可疑。IMO的题目和解答就像是数学CoT的黄金训练数据集,所以这些模型一会被反复训练无数遍。

另一位研究员Jason Li测试后惊叹道,o1似乎已经解决掉了一半的问题(60分/满分120),这在普特南竞赛的历史排名中大约能冲进前2%的参赛者之列。

o1挑战23年赛题

今年9月,o1发布不久后,AI评估平台HoneyHive曾让新模型去挑战了23年普特南数学竞赛的题目。

当时,OpenAI公开的测试结果显示,o1的数学性能大幅超越了GPT-4o,飙升43.3%实现了质的飞升。

在这场比赛中,o1-preview拿下了79分(满分120)位列第9,o1-mini取得了73,排名第19。

2023年普特南数学竞赛问题集,如下所示:

HoneyHive的评估方法是,每个模型重复运行2次,并让GPT-4o作为标准的判断者,以评估模型的答案,最终再由人类专家进行验证。

下面是让GPT-4o承担「评估者」角色的提示示例。

研究人员发现,第二次运行时,o1-preview得分从51提高到79,o1-mini从54提高到73,GPT-4o也从43提高到57。

在第二轮中,所有的模型都在努力给出证明,具体来说:

o1-preview完全解决了问题A1、A3、B4,部分解决了问题B2,但证明不足。

o1-mini的结果,与o1-preview类似。GPT-4o仅是完全解决了A1问题。

有趣的是,这些模型的结果虽然是正确的,但解决方案缺乏详细的分步解释,特别是对于证明类的问题。

比如,o1-preview和o1-mini在问题B2上都因证据不足、不够严谨失掉了一些分数,尽管最终结果是正确的。

他们认为,这可能是因为AI模型在表达或访问其内部「思维链」时,存在一定的局限性。

不过,IBM研究员表示,能够拿下一定的高分,当然也存在了数据泄露的可能性。

比赛介绍

普特南数学竞赛(全称William Lowell Putnam Mathematical Competition)专为美国和加拿大的本科生设立,每年于12月举办一届,今年是第85届年赛。

每年竞赛一共分为两场考试,分别是上午A试,下午B试,各三小时。

这场比赛可以追溯到1938年,最初只是各个高校数学系之间的友好较量。如今,它已经发展成为世界上最具权威的大学数学竞赛。

每年12月,数百所大学数学尖子生在为期6小时数学中展现自己的数学才华。

尽管考生需要独立完成试卷,但比赛同时设立了团队的环节。

普特南数学竞赛不仅仅是一场知识的较量,更是一个荣誉的殿堂。排名最高的团队的数学系可以获得现金奖励,学生成员还将被授予「普特南研究员」的称号。

与此同时,比赛还设立了「The Elizabeth Lowell Putnam Prize」奖项,专为表现卓越的女性数学家颁奖。

去年第84届比赛中,个体获奖者5名全部来自MIT,团体获奖者前五名也分别来自世界高校:MIT、哈佛、杜克、斯坦福、多伦多大学。

参考资料:

https://x.com/DanHendrycks/status/1865858756040704335

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最快女护士再夺冠!周末参赛血赚110000,时间线被扒,网友吵翻天

最快女护士再夺冠!周末参赛血赚110000,时间线被扒,网友吵翻天

一只番茄鱼
2025-11-02 22:40:02
联盟第一!雷霆大胜鹈鹕7战全胜 亚历山大30+7连79场20+历史第三

联盟第一!雷霆大胜鹈鹕7战全胜 亚历山大30+7连79场20+历史第三

醉卧浮生
2025-11-03 06:53:58
美国政府都“关门”一个多月了,为啥美国人却一点都不慌呢?

美国政府都“关门”一个多月了,为啥美国人却一点都不慌呢?

翻开历史和现实
2025-11-02 23:09:19
护士遭男友杀害案开庭,家属:40厘米长双刃刀和日记本成关键证据,女儿曾写日记称被人拿刀架在脖子上,有家不可回

护士遭男友杀害案开庭,家属:40厘米长双刃刀和日记本成关键证据,女儿曾写日记称被人拿刀架在脖子上,有家不可回

极目新闻
2025-11-03 11:46:18
河南14岁自闭症少年离世捐献器官和眼角膜,母亲:儿子生命以另一种方式延续,回报大家的爱

河南14岁自闭症少年离世捐献器官和眼角膜,母亲:儿子生命以另一种方式延续,回报大家的爱

极目新闻
2025-11-03 11:39:29
惨绝人寰!RSF屠杀震惊联合国,妇产医院460人被杀,土壤都被染红

惨绝人寰!RSF屠杀震惊联合国,妇产医院460人被杀,土壤都被染红

霁寒飘雪
2025-11-02 09:25:37
退休后3年必办3个证,少1个可能少拿万元

退休后3年必办3个证,少1个可能少拿万元

白浅娱乐聊
2025-11-01 12:22:04
久功不克俄罗斯连撤两员大将!西尔斯基:红军城守住了

久功不克俄罗斯连撤两员大将!西尔斯基:红军城守住了

史政先锋
2025-11-03 11:54:13
全国已有20个省份进入中度老龄化

全国已有20个省份进入中度老龄化

第一财经资讯
2025-10-29 21:55:57
现在,压力给到了上海

现在,压力给到了上海

梳子姐
2025-11-03 11:52:51
争议!全红婵与王伟莹第2跳明显不在同一节奏 裁判打出8分同步分

争议!全红婵与王伟莹第2跳明显不在同一节奏 裁判打出8分同步分

风过乡
2025-11-03 08:22:39
《亮剑》20年后,两位演员遗憾离世,漂亮的“秀芹”低调嫁人

《亮剑》20年后,两位演员遗憾离世,漂亮的“秀芹”低调嫁人

三楼的猫头鹰
2025-11-02 15:31:48
乌军投降了,红军城大鱼落网,俄凌晨击落6架敌机,基辅封锁消息

乌军投降了,红军城大鱼落网,俄凌晨击落6架敌机,基辅封锁消息

影孖看世界
2025-11-02 23:36:09
泪目!王艺迪夺冠后直言将胜利送给中国队 扛巨大压力只字不提

泪目!王艺迪夺冠后直言将胜利送给中国队 扛巨大压力只字不提

颜小白的篮球梦
2025-11-03 04:28:29
人事|多名省级党委常委密集履新

人事|多名省级党委常委密集履新

鲁中晨报
2025-11-03 09:43:25
上官正义为什么不受欢迎?

上官正义为什么不受欢迎?

上峰视点
2025-11-03 09:34:58
美防长涉华言论自相矛盾,军事专家:典型“当面一套背后一套”

美防长涉华言论自相矛盾,军事专家:典型“当面一套背后一套”

环球网资讯
2025-11-03 06:47:47
烦不胜烦!网友质问广州地铁“穷疯了吗”?花钱坐地铁须先看广告

烦不胜烦!网友质问广州地铁“穷疯了吗”?花钱坐地铁须先看广告

星河也灿烂
2025-11-02 20:59:17
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
随着王艺迪4-3夺冠,莫雷加德4-0横扫!奖金榜出炉,最高28.4万

随着王艺迪4-3夺冠,莫雷加德4-0横扫!奖金榜出炉,最高28.4万

知轩体育
2025-11-03 01:21:49
2025-11-03 14:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13772文章数 66236关注度
往期回顾 全部

教育要闻

AI时代应该培训小朋友什么能力

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

游戏
艺术
家居
教育
数码

新游现逆天恶性封号bug:只封主机玩家!

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

家居要闻

岁月柔情 现代品质轻奢

教育要闻

火花思维荣获艾瑞咨询权威确认,领跑数理思维真人小班直播课赛道

数码要闻

梦幻跨界产品:微波炉改造成PC整机!门作为显示屏、主板置于转盘

无障碍浏览 进入关怀版