网易首页 > 网易号 > 正文 申请入驻

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

0
分享至


大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!

看看Epoch AI是怎么做的

FrontierMath是一个用于评估人工智能高级数学推理能力的基准测试。Epoch AI与60多位顶尖数学家合作,创建了数百道原创的、极具挑战性的数学问题,FrontierMath涵盖了现代数学的大多数主要分支——从数论中计算密集型问题到代数几何和范畴论中的抽象问题,目标是捕捉当代数学的概貌,即使是经验丰富的数学专家,也得绞尽脑汁,花费数小时甚至数天才能解出来


FrontierMath具有三个关键的设计原则:1)所有问题都是新的且未发表的,以防止数据污染;2)解决方案是自动可验证的,从而实现高效的评估;3)问题是“防猜测”的,在没有正确推理的情况下解决的可能性很低

评估结果

评估了六个领先的模型,包括o1 ,Claude 3.5 Sonnet、GPT-4o,Grok和Gemini 1.5 Pro。即使有延长的思考时间(10,000个token)、Python访问权限以及运行实验的能力,成功率仍然低于2%——相比之下,在传统基准测试中,成功率超过90%


Epoch AI指出,现有的数学benchmark,例如GSM8K和MATH,早就被LLM们刷烂了,高分的原因很大程度上是因为数据污染——说白了,就是LLM通过记忆大量的“考古题”来提高分数,真正考试的时候,当然容易!而FrontierMath则完全不同,所有题目都是全新的、未公开的,LLM想作弊都没门!这下LLM们,自然就暴露了它们的真实水平


连菲尔兹奖得主都服了

为了进一步验证FrontierMath的难度,Epoch AI还特意采访了多位菲尔兹奖(数学界的最高荣誉)得主,包括陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998),以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)。这些大佬们一致认为,FrontierMath的题目非常具有挑战性,需要深厚的专业知识和强大的推理能力才能解决


Andrej Karpathy对FrontierMath的看法 :LLM评估中的莫拉维克悖论

莫拉维克悖论(Moravec's paradox)是由人工智能和机器人学者所发现的一个和常识相佐的现象。和传统假设不同,人类所独有的高阶智慧能力只需要非常少的计算能力,例如推理,但是无意识的技能和直觉却需要极大的运算能力。这个理念是由汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人于1980年代所阐释。如莫拉维克所写;“要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的

Andrej Karpathy对这个新的前沿数学基准测试(LLM仅解决了2%)的反应:


之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准。有趣的问题是,尽管从许多方面(/evals)来看,大模型正逐步跻身顶级专家行列(如数学和编码等),但你不会雇用他们而不是让他们从事最琐碎的工作。如果你把问题描述整齐地放在盘子里,他们就能解决复杂的封闭式问题,但他们很难连贯地把长长的、自主的、解决问题的序列串联起来,而人却会觉得非常容易

这是莫拉维克悖论的变相,他在 30 多年前就观察到,对人类来说容易/困难的事情,与对计算机来说容易/困难的事情,在非直觉上可能大相径庭。例如,人类对计算机下国际象棋印象深刻,但国际象棋对计算机来说却很容易,因为它是一个封闭的、确定性的系统,具有离散的行动空间、完全的可观测性等等。反之亦然,人类可以系好鞋带或叠好衬衫,而且根本不需要考虑太多,但这是一项极其复杂的传感运动任务,对硬件和软件的技术水平都是挑战。这就像不久前 OpenAI 发布的魔方一样,大多数人都把注意力集中在解魔方本身(这是微不足道的),而不是用机器人的手转动魔方的一个面这一实际难度极高的任务

因此,我非常喜欢这个 FrontierMath 基准,我们应该制作更多的基准。但我也认为,如何为所有 "容易 "但其实很难的东西创建评估是一个有趣的挑战。很长的语境窗口、连贯性、自主性、常识、有效的多模态输入/输出...... 我们如何建立良好的 "初级工作 "评估?你对团队中任何初级实习生的期望

结语:

不管怎么说,数学为评估复杂推理提供了一个独特的理想环境。它需要创造力和 extended chains of precise logic——通常涉及复杂的证明——这些证明必须经过精心计划和执行,但允许对结果进行客观验证

衡量人工智能在创造性问题解决和在多个步骤中保持精确推理方面的能力,可能有助于深入了解在系统性、创新性思维(科学研究所需)方面的进展

探索FrontierMath:


https://epochai.org/frontiermath发布了带有详细解答、专家评论和研究论文的示例问题

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广州楼市超神了!广州楼市珠江新城房价从104000元涨至109000元

广州楼市超神了!广州楼市珠江新城房价从104000元涨至109000元

有事问彭叔
2024-12-05 17:34:14
4年之后,两岸统一的希望,恐将落在这个人身上

4年之后,两岸统一的希望,恐将落在这个人身上

老鹈爱历史
2024-12-04 15:50:16
美国114页报告得出结论:一旦对华开战,战争或在一个月内结束

美国114页报告得出结论:一旦对华开战,战争或在一个月内结束

阵匠
2024-12-06 02:12:12
何赛飞回应追着代拍打,肖战夏之光都曾深受其害,网友:干得漂亮

何赛飞回应追着代拍打,肖战夏之光都曾深受其害,网友:干得漂亮

白面书誏
2024-12-06 03:30:03
中方对美实施出口禁令,不到24小时美派人访华,当面作出重要承诺

中方对美实施出口禁令,不到24小时美派人访华,当面作出重要承诺

听风者说
2024-12-05 07:49:10
喜讯!鲁能为下赛季中超争冠将邀请巴西国脚二进宫,曾是巴甲金靴

喜讯!鲁能为下赛季中超争冠将邀请巴西国脚二进宫,曾是巴甲金靴

小海要说球
2024-12-05 17:20:56
1年只吃26次!超长效口服降糖新药进入新医保,4大特点一定要了解

1年只吃26次!超长效口服降糖新药进入新医保,4大特点一定要了解

李药师谈健康
2024-12-04 11:38:11
红米一加等品牌明年或放弃骁龙8 Elite 转用SM8835

红米一加等品牌明年或放弃骁龙8 Elite 转用SM8835

手机中国
2024-12-05 15:05:11
A股:大家要提前做好准备,股市,或将迎来大级别的大涨?

A股:大家要提前做好准备,股市,或将迎来大级别的大涨?

财经大拿
2024-12-06 02:00:03
面对解放军反恐的重拳打击,俾路支紧急致信,要求中方手下留情

面对解放军反恐的重拳打击,俾路支紧急致信,要求中方手下留情

空天时代视频
2024-12-05 18:44:09
琼瑶走了,别难过!网友:一生犯了四大错误,归根结底是三观不正

琼瑶走了,别难过!网友:一生犯了四大错误,归根结底是三观不正

刚哥说法365
2024-12-05 00:56:48
Skip:詹姆斯快40了还在被打花的第四节上场,为了刷新历史纪录?

Skip:詹姆斯快40了还在被打花的第四节上场,为了刷新历史纪录?

懂球帝
2024-12-05 11:17:16
悲催!网友称又一名设计院同行猝死了,都别加班了,再急慢慢干…

悲催!网友称又一名设计院同行猝死了,都别加班了,再急慢慢干…

火山诗话
2024-12-05 17:27:48
震惊!网传宁波一国际幼儿园4岁女童一年多,被反复全裸关小黑屋

震惊!网传宁波一国际幼儿园4岁女童一年多,被反复全裸关小黑屋

火山诗话
2024-12-05 15:16:31
三叔是高官,父亲从来不向外人提起他,母亲被打伤后父亲提起了他

三叔是高官,父亲从来不向外人提起他,母亲被打伤后父亲提起了他

乔生桂
2024-11-09 14:57:28
凌晨突袭!美运导弹被连环殉爆:西方专家没人能逃生

凌晨突袭!美运导弹被连环殉爆:西方专家没人能逃生

智凌纵横
2024-12-02 18:45:02
在设计院,性能力才是第一生产力

在设计院,性能力才是第一生产力

黯泉
2024-11-21 19:48:40
我是刑警:“看不懂”的张克寒,究竟是高智商罪犯,还是有勇无谋

我是刑警:“看不懂”的张克寒,究竟是高智商罪犯,还是有勇无谋

花煜寒
2024-12-05 18:46:34
入冬后,建议大家少买这5种青菜,可能含甲醛,我也是才知道!

入冬后,建议大家少买这5种青菜,可能含甲醛,我也是才知道!

洪洋美食日记
2024-12-05 19:18:18
进口药被从医院赶跑了,部分国产仿制药疗效却不给力

进口药被从医院赶跑了,部分国产仿制药疗效却不给力

小刀99
2024-11-03 20:35:11
2024-12-06 05:59:00
AI寒武纪
AI寒武纪
专注于人工智能,科技领域
361文章数 111关注度
往期回顾 全部

科技要闻

苹果引入文心一言,客户隐私或成合作阻碍

头条要闻

官方通报"摊贩被要求借钱交罚款":对执法人员批评教育

头条要闻

官方通报"摊贩被要求借钱交罚款":对执法人员批评教育

体育要闻

3场失2点,姆巴佩又崩了......

娱乐要闻

琼瑶过世细节曝光 前一天嘱咐儿媳来家

财经要闻

房价开始涨了

汽车要闻

2.4T+9AT+四驱 哈弗H9柴油版起售

态度原创

教育
手机
家居
公开课
军事航空

教育要闻

华师高分同学来支招,四六级过过过!

手机要闻

三星 One UI 7.0 动画细节曝光:支持打断、并行动画效果

家居要闻

舒适优雅 打造从容舒适的居家氛围

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德国总理:向乌克兰派兵“绝无可能”

无障碍浏览 进入关怀版