网易首页 > 网易号 > 正文 申请入驻

AI奥数大奖出炉,英伟达摘桂冠!14B破解34题暴击DeepSeek R1

0
分享至

新智元报道

编辑:编辑部 NJY

【新智元导读】AIMO2最终结果出炉了!英伟达团队NemoSkills拔得头筹,凭借14B小模型破解了34道奥数题,完胜DeepSeek R1。

第二届人工智能数学奥林匹克竞赛(AIMO2)开奖了!

作为大赛顾问委员会的一员,陶哲轩激动地宣布了最新的结果——英伟达团队AI成功破解了34道题(共50题)。

这一次,50道测试题保持了与AIMO1相同「数值答案」形式基础上,进一步提升了「抗暴力破解」的难度。

这场由Kaggle主办的AI竞赛,参赛者必须使用开源LLM,在规定的有限算力条件下,用AI完成解题。

不过,目前最终成绩仍处于审核阶段,但现有数据已能确定大概率的胜者。

英伟达深度学习研究员分享,团队仅用了14B小模型,就拿下了比赛第一。

让人惊喜的是,微调后的14B竟然超越了405B的DeepSeek R1。

那么,他们是如何做到的呢?

英伟达团队摘桂冠,14B攻克34题

AIMO2每年都会评选5名获胜者,第一名便是英伟达团队——NemoSkills。

为了让大家更直观地对这个分数有一个认识:主办方使用了DeepSeek R1 405B在同一个测试数据上,进行了无限计算/时间的测试。

结果发现,R1-405B得分仅仅20分左右。

而英伟达微调出的14B模型,以更小参数规模,以及时间和硬件限制下拿下了惊人的34分。

这款模型便是Qwen-14B,在数百万合成数学测试集上进行了微调,能够支持CoT推理。

最大的亮点是高度优化的推理,仅使用了4个L4 GPU,在短短5小时内解决了50个问题中的34个。

目前,他们尚未提交解决方案,所以一些技术细节还无法窥探。

这个团队一共由7个人组成,他们分别是Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。

除了英伟达,还有哪些团队取得了精彩的表现?

清华拿下第二

第二名是来自清华和微软的三人团队,分别是清华大学研究助理教授Foxfi Ning、微软的高级研究员Zinan Lin以及清华学子yiyouyc。

左右滑动查看

在公开排行榜上, 他们得分34/50(排名第一),在私有排行榜上得分31/50(排名第二)。

最为关键的是,他们是目前Top-5中唯一公开解决方法的参赛团队。

本次比赛要求同时优化效率和推理性能。

目前,排名前5中,只有排名第二的参赛团队公布了解决方法。

他们的最终解决方案由三个主要部分组成:

第一部分:推理导向训练—— 提升模型的推理能力 阶段1 - SFT(监督微调)和阶段2 - DPO(数据增强优化)使用精选数据。

第二部分:效率优化—— 提升推理效率 选择合适的推理引擎、权重量化、KV缓存量化。

第三部分:推理时策略—— 改善效率与推理性能的权衡 设计有效的提示语、进行自一致性聚合、在样本/问题级别进行早停以及调整一些启发式超参数。

训练脚本基于Light-R1项目。

在本地验证方面,用了AIME 2025测试集(30个问题)以及参考集(10个问题),评估了平均样本准确率和通过自一致性聚合的准确率,以获得参赛团队试验解决方案的初步判断。

第三名,Nokron,AI得分30,4年前加入Kggle。

第四名,Søren Ravn Andersen,AI得分29,10年前加入Kaggle。

第五名,来自浙江杭州的匿名选手,AI得分29,6年前加入了Kaggle。

AIMO2比赛介绍

AIMO是什么来头?

这是第二届AIMO进步奖竞赛,第一届的AIMO进步奖于2024年7月由Project Numina团队赢得。

这次竞赛增加了奖金池,提供了全新的题目数据集,为参赛者提供更多算力支持,并更新了关于使用开源大语言模型(LLM)的规则。

数学推理能力是人工智能发展的一个关键里程碑,是解决许多复杂问题的基石,比如工程奇迹或复杂的金融模型。

然而,目前的人工智能在这方面的能力还比较有限。

人工智能数学奥林匹克(AIMO)是一个总金额高达1000万美元的基金,旨在激励开发能够与国际数学奥林匹克(IMO)顶尖人类选手表现相当的开源AI模型。

本届竞赛包含110道数学题目,涵盖代数、组合数学、几何和数论。

相比第一届,题目难度有所提升,大约达到国家奥林匹克竞赛的水平。

这些题目还被设计为「对AI来说特别难」,需要较强的数学推理能力,并且已经针对当前开源大语言模型的能力进行了测试。

为了避免训练数据与测试数据混淆的问题,竞赛采用了由国际解题团队创作的全新数学题目。



评估方式

参赛者的提交将根据预测结果与真实答案(ground-truth labels)的准确率进行评估。

简单来说,排名依据是预测答案与真实答案之间完全匹配的比例。

在这场比赛中,每个真实答案是一个0到999之间的整数。

奖项设置

本次竞赛总奖金达到了211.7152万美元

排名前五团队的奖金:

  • 第一名:26.2144万美元

  • 第二名:13.1072万美元

  • 第三名:6.5536万美元

  • 第四名:3.2768万美元

  • 第五名:1.6384万美元

总体进步奖:

  • 总体进步奖将颁发给在公开和私有测试集上均获得至少47/50分的最高排名团队。

  • 在前五名奖金分配后,剩余的奖金将全部颁发给总体进步奖得主。

  • 如果某团队获得总体进步奖,奖金将至少为158.9248万美元。

  • 如果本届竞赛没有团队获得总体进步奖,剩余奖金将滚入下一届竞赛,奖金额度和分配规则保持不变。


代码要求

提交必须通过Notebook完成。提交按钮在提交后激活需满足以下条件:

  • CPU Notebook运行时间 ≤ 9小时

  • GPU Notebook运行时间 ≤ 5小时

  • 禁用互联网访问

  • 允许使用免费且公开的外部数据,包括预训练模型

  • 提交文件必须通过API生成


参考资料:

https://x.com/kagglingdieter/status/1910591141138886923

https://mathstodon.xyz/@tao/114319952836204640

https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6连败!开拓者125-130太阳,斯普利特帅位不保,杨瀚森NBA迎转机

6连败!开拓者125-130太阳,斯普利特帅位不保,杨瀚森NBA迎转机

小火箭爱体育
2026-02-04 14:42:51
巴拿马变天了?总统拒不服从法院,喊话称哪怕被判了,港口也不停

巴拿马变天了?总统拒不服从法院,喊话称哪怕被判了,港口也不停

梦醉为红颜一笑
2026-02-04 12:25:57
以色列称如果美国谈不来又不好打就自己打,美国完全不用打都行

以色列称如果美国谈不来又不好打就自己打,美国完全不用打都行

邵旭峰域
2026-02-04 12:34:59
新款本田飞度宣布售罄 此前限量3000辆 已上市20天

新款本田飞度宣布售罄 此前限量3000辆 已上市20天

CNMO科技
2026-02-04 12:54:03
内蒙车祸事件后续!撞到线杆瞬间解体,女司机当场没了,官方通报

内蒙车祸事件后续!撞到线杆瞬间解体,女司机当场没了,官方通报

奇思妙想草叶君
2026-02-03 23:08:36
1968年,那个逃到苏联成为克格勃的女知青傅索安,结局如何?

1968年,那个逃到苏联成为克格勃的女知青傅索安,结局如何?

明月清风阁
2026-02-03 15:20:06
小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

浩源的妈妈
2026-01-27 06:29:07
男孩舔嘴舔出“羊胡子疮”?医生:这种皮炎在儿童中最常见

男孩舔嘴舔出“羊胡子疮”?医生:这种皮炎在儿童中最常见

人民日报健康客户端
2026-02-04 11:52:03
最新研究:人类寿命长短超50%由基因决定,衰老在很大程度上是遗传的

最新研究:人类寿命长短超50%由基因决定,衰老在很大程度上是遗传的

红星新闻
2026-02-02 18:30:18
A股涨到4102.20点,已经很明显,准备好,明天周四,很可能这样走

A股涨到4102.20点,已经很明显,准备好,明天周四,很可能这样走

虎哥闲聊
2026-02-04 15:08:22
“后悔来清华参观,自取其辱”,母亲带娃游清华,被食堂气到失控

“后悔来清华参观,自取其辱”,母亲带娃游清华,被食堂气到失控

诗意世界
2025-11-30 11:04:47
具俊晔公开大S死因!去机场时心脏骤停,医生称大S猝死与怀孕有关

具俊晔公开大S死因!去机场时心脏骤停,医生称大S猝死与怀孕有关

不八卦掌门人
2026-02-04 10:40:09
巧思,阿森纳罚角球时切尔西居然安排3名球员在中圈准备反击

巧思,阿森纳罚角球时切尔西居然安排3名球员在中圈准备反击

懂球帝
2026-02-04 14:18:10
俄方为什么会突破限制向中方供重型发动机?

俄方为什么会突破限制向中方供重型发动机?

安安说
2026-02-03 12:44:57
爱泼斯坦案公布海量内幕,精英群体说的“吃人”,原来是真吃人

爱泼斯坦案公布海量内幕,精英群体说的“吃人”,原来是真吃人

老木说
2026-02-03 21:39:19
金饰价格涨到1600元/克 一夜涨102元

金饰价格涨到1600元/克 一夜涨102元

财联社
2026-02-04 09:20:08
老泄残精,人穷寿尽!医生提醒:63岁之后,男性要守好这三道关

老泄残精,人穷寿尽!医生提醒:63岁之后,男性要守好这三道关

健康科普365
2026-01-30 21:26:44
成了!中国刚刚向世界宣布重磅成果,美日急了:怎么会这么快?

成了!中国刚刚向世界宣布重磅成果,美日急了:怎么会这么快?

Thurman在昆明
2026-02-04 15:41:43
中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

柳先说
2026-02-03 17:12:14
美伊首次交火!美国林肯号航母击落伊朗大型无人机

美伊首次交火!美国林肯号航母击落伊朗大型无人机

项鹏飞
2026-02-04 17:08:19
2026-02-04 18:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14477文章数 66566关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

头条要闻

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

多家中小银行宣布上调存款利率

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

时尚
本地
旅游
数码
房产

这才是中年女人该有的穿搭,上衣挺括、下装宽松,优雅又显瘦

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

旅游要闻

古道迎春年味浓 石景山模式口历史文化街区举办立春活动

数码要闻

贝尔金推出迪士尼《疯狂动物城2》联名超薄磁吸移动电源,239元

房产要闻

龙湖对面,突然要出新宅地!海口商改住又爆狠料!

无障碍浏览 进入关怀版