网易首页 > 网易号 > 正文 申请入驻

AI在数学考试中的表现超越了科学家出题速度

0
分享至


数学通常被认为是衡量AI进步的理想领域。数学的逐步逻辑推理过程易于追踪,其确定的可自动验证答案排除了任何人为或主观因素。但AI系统正以如此快的速度改进,以至于数学基准测试都难以跟上。

早在2024年11月,非营利研究机构Epoch AI悄然发布了Frontier Math。作为一个标准化、严格的基准测试,Frontier Math旨在衡量最新AI工具的数学推理能力。

"这是一堆真正困难的数学问题,"Epoch AI高级研究员Greg Burnham解释道。"最初是300个问题,我们现在称之为第1-3层级,但看到AI能力真正加速后,我们感到必须跑得更快才能保持领先,所以现在有一个特殊挑战集,包含额外精心构造的问题,我们称之为第4层级。"

粗略来说,第1-4层级涵盖从高年级本科生到早期博士后水平的数学。刚推出时,最先进的AI模型无法解决Frontier Math中超过2%的问题。快进到今天,最好的公开AI模型,如ChatGPT 5.2 Pro和Claude Opus 4.6,正在解决Frontier Math 300个第1-3层级问题中的40%以上,以及50个第4层级问题中的30%以上。

这种令人眩晕的进步速度丝毫没有减缓的迹象。例如,最近Google DeepMind宣布,从Gemini Deep Think衍生的实验性AI系统Aletheia取得了可发表的博士级研究成果。尽管在数学上比较晦涩——计算算术几何中称为特征权重的某些结构常数——但这一结果在AI开发方面意义重大。

"他们声称这基本上是自主完成的,意味着人类没有指导这项工作,而且是可发表的,"Burnham说。"这绝对处于能让数学家兴奋的工作光谱的低端,但它是新的——这是我们以前真正没有见过的东西。"

为了将这一成就置于背景中,每个Frontier Math问题都有一个人类推导出的已知答案。虽然人类可能也能达到Aletheia的结果,"如果他们坐下来下定决心工作一周,"Burnham说,但之前没有人类这样做过。

Aletheia的结果和AI数学家最近的其他成就表明,需要新的、更严格的基准来理解AI能力,而且要快,因为现有的基准很快就会变得无关紧要。"有一些更容易的数学基准已经过时了,好几代都是如此,"Burnham说。"Frontier Math可能会在未来两年内饱和(意味着最先进的AI模型得分达到100%);可能会更快。"

为了开始解决这个问题,2月6日,一组11位杰出数学家提出了First Proof挑战,这是一套10个极其困难的数学问题,这些问题在作者的研究过程中自然产生,其证明大约五页或更少,且未与任何人分享。First Proof挑战是评估AI系统独立解决研究级数学问题能力的初步努力。

在数学界引起严重轰动,专业和业余数学家以及包括OpenAI在内的团队都迎接了这一挑战。但当作者们在2月14日发布证明时,没有人提交所有10个问题的正确解答。

事实上,远非如此。作者们自己只用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro解决了10个问题中的2个。大多数外部提交的表现也好不了多少,除了OpenAI。在"有限人工监督"下,OpenAI最先进的内部AI系统解决了10个问题中的5个——这一结果在数学界不同成员中引起了从敬畏到失望的各种情绪。First Proof背后的团队计划在3月14日进行更困难的第二轮。

"我认为First Proof非常棒:它尽可能接近让AI系统站在数学家的立场上,"Burnham说。虽然他钦佩First Proof如何为广泛的数学和数学家测试AI的数学实用性,但Epoch AI有自己的新测试方法——Frontier Math: Open Problems。独特的是,这个试点基准包含14个来自研究数学的开放问题(更多问题即将推出),专业数学家曾尝试但未能解决。自1月27日Open Problems发布以来,没有一个问题被AI解决。

"通过Open Problems,我们试图让它更具挑战性,"Burnham说。"仅基准本身就是可发表的,至少在专业期刊上。"更重要的是,每个问题都设计得可以自动评分。"这有点反直觉,"Burnham补充道。"没有人知道答案,但我们有一个计算机程序能够判断答案是否正确。"

Burnham认为First Proof和Open Problems是互补的。"我想说理解AI能力是多多益善的情况,"他补充道。"AI已经达到了在某些方面比大多数博士生更好的程度,所以我们需要提出问题,其答案至少对一些人类数学家来说是适度有趣的,不是因为AI在做它,而是因为它是人类数学家关心的数学。"

Q&A

Q1:Frontier Math是什么?它是如何测试AI数学能力的?

A:Frontier Math是由Epoch AI发布的标准化数学基准测试,包含300个第1-3层级问题和50个第4层级问题,涵盖从高年级本科生到早期博士后水平的数学。它通过让AI解决真正困难的数学问题来衡量AI的数学推理能力,目前最好的AI模型能解决其中40%以上的问题。

Q2:为什么现有的数学基准测试很快就会过时?

A:因为AI系统改进速度极快,原本只能解决2%问题的AI模型,现在已经能解决40%以上的问题。专家预测Frontier Math可能会在未来两年内被完全攻克,一些更简单的数学基准已经完全过时,需要不断创造更困难的测试来跟上AI的进步速度。

Q3:First Proof挑战和Open Problems有什么区别?

A:First Proof挑战包含10个极其困难的数学问题,有已知答案但未公开,OpenAI的系统解决了其中5个。而Open Problems包含14个真正的开放问题,连专业数学家都未能解决,目前还没有AI能解决任何一个,它们代表了数学研究的前沿难题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

米果说识
2026-02-22 11:29:00
上海推出网约公交车:票价1元,可通过小程序预约

上海推出网约公交车:票价1元,可通过小程序预约

新民晚报
2026-03-06 13:22:52
不止魅族,这10个品牌已“全剧终”,全是我们的青春啊!

不止魅族,这10个品牌已“全剧终”,全是我们的青春啊!

小蜜情感说
2026-03-04 14:20:13
媒体人:中国篮球历史上第一位美式后卫的生涯可能要结束了

媒体人:中国篮球历史上第一位美式后卫的生涯可能要结束了

懂球帝
2026-03-06 08:34:06
美伊打仗,又打火了中国制造!

美伊打仗,又打火了中国制造!

福建平子
2026-03-06 08:09:45
即将涨价!

即将涨价!

君临财富
2026-03-06 16:17:44
男子被绿后还被判净身出户,女法官说男人要大度,男子两枪杀之

男子被绿后还被判净身出户,女法官说男人要大度,男子两枪杀之

干史人
2026-02-23 13:25:10
谢贤前女友再曝猛料!相识第一天拒绝了两次谢贤,当时行情非常好

谢贤前女友再曝猛料!相识第一天拒绝了两次谢贤,当时行情非常好

念得小柔
2026-02-13 02:19:33
什么叫裁员裁到大动脉?网友:老板想哭的心都有了

什么叫裁员裁到大动脉?网友:老板想哭的心都有了

另子维爱读史
2026-03-03 16:26:25
震惊!副高教师被裁员,当事人哭诉终于从失业的悲伤中,缓过来了

震惊!副高教师被裁员,当事人哭诉终于从失业的悲伤中,缓过来了

火山詩话
2026-03-06 07:03:21
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
美国会被伊朗拖入泥潭?别逗了,根本不可能

美国会被伊朗拖入泥潭?别逗了,根本不可能

修明札记
2026-03-02 12:34:50
关注:不建议再继续延长春节假期,现有的8天已经足够了——

关注:不建议再继续延长春节假期,现有的8天已经足够了——

叶初七
2026-03-06 09:41:15
英媒:热刺降级将损失2.61亿镑,去年热刺运营成本欧洲第三高

英媒:热刺降级将损失2.61亿镑,去年热刺运营成本欧洲第三高

懂球帝
2026-03-06 16:19:05
惯子如杀子!辽宁女孩早晨遛狗导致全家被害,父亲重伤,母亲被杀

惯子如杀子!辽宁女孩早晨遛狗导致全家被害,父亲重伤,母亲被杀

深度报
2025-09-02 22:45:04
稳了!中超开幕式+揭幕战 央视CCTV5会直播!

稳了!中超开幕式+揭幕战 央视CCTV5会直播!

80后体育大蜀黍
2026-03-05 22:07:47
港片史大洗牌:周星驰被踢下票房前十,如今香港电影只认两个人

港片史大洗牌:周星驰被踢下票房前十,如今香港电影只认两个人

草莓解说体育
2026-03-06 12:59:24
巴方总统警告中国,中国要是敢反击,巴拿马就动手,后果自负!

巴方总统警告中国,中国要是敢反击,巴拿马就动手,后果自负!

壹知眠羊
2026-03-06 11:44:58
悲壮:伊朗双体船被击中前,拼尽全力向美军打出反舰导弹

悲壮:伊朗双体船被击中前,拼尽全力向美军打出反舰导弹

谛听骨语本尊
2026-03-06 13:58:44
开战第6天,伊朗教练机血拼F-35,机毁人亡却有骨气

开战第6天,伊朗教练机血拼F-35,机毁人亡却有骨气

健身狂人
2026-03-06 15:44:44
2026-03-06 16:59:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16580文章数 49694关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

辽宁省委书记:有些干部热衷于当官 没想为老百姓服务

头条要闻

辽宁省委书记:有些干部热衷于当官 没想为老百姓服务

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

经济主题记者会 潘功胜吴清等出席演讲

汽车要闻

岚图梦想家OTA升级:华为乾崑智驾ADS V4.1满血登场

态度原创

健康
家居
艺术
本地
公开课

转头就晕的耳石症,能开车上班吗?

家居要闻

暖棕撞色 轻法奶油风

艺术要闻

敦煌壁画里的“动物世界”,温馨有爱!

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版