网易首页 > 网易号 > 正文 申请入驻

DeepSeek加持,北大通院几何模型达IMO金牌水平!

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

国产AI几何模型性能达IMO金牌水平,打平谷歌DeepMind最新AlphaGeometry系列——

TongGeometry,使用的策略网络和价值网络还来自微调版本的DeepSeek-Coder

它能解决IMO-AG-30题中的所有30题,在IMO-AG-50上也能解决42题,而人类金牌选手平均水平分别为:25.9、40.9

例如,下面是TongGeometry提出的一道IMO2024几何题的解法,与标准答案完全一致:

TongGeometry不仅能解题还会出题,所出的题目甚至获得了权威数学竞赛认可。

就在去年全国高中数学联赛预赛北京地区的考试中,就有TongGeometry出的几何题;由美国IMO竞赛教练组组织的一项美国民间数学竞赛USEMO,也收录了TongGeometry出的两道几何题在他们的竞赛短表中。

TongGeometry由北京通用人工智能研究院打造,下文是更多细节。

DeepSeek加持神经网络基础

IMO是面向全球200多个国家,最顶尖高中生,所举办的最有影响力的数学竞赛。这项竞赛要求参赛选手对代数、数论、几何、组合四项类型的问题有深刻的理解。其中,几何学问题,又常常因为其优美的图形性质,受到众多参赛选手和数学爱好者们的热议。

△Thébault定理,2003年前曾一度被西方认为是最难证明的几何定理之一

业界通常认为,能够代表国家参加该项赛事并获得金牌,是个人在数学研究历程上的莫大荣誉。菲尔兹奖得主陶哲轩(Terence Tao)教授,就曾经是该项赛事最年轻的金牌得主。

△陶哲轩教授参加IMO比赛历史记录

对比赛而言,几何题的难点就在于如何恰到好处地添加辅助线,使得原先难以推理出来的结论,能够借助辅助的点、线、圆来得到。构建这些推理的桥梁,是解决这类问题的关键。

通常,非常困难的问题需要添加数条辅助线才能完成定理的证明。

谷歌DeepMind AlphaGeometry最早提出了使用结合语言模型和逻辑引擎解决此类问题的方案。

在他们的方案中,语言模型负责提出可能的辅助线,推理引擎则负责检查添加辅助线后所能产生的结论是否是我们正在寻找的。如果所需要证明的定理仍然不在其中,系统则需要继续搜索可能的辅助线构造方案。

在最新的工作中,AlphaGeometry宣称其工作超越了奥林匹克竞赛金牌获得者的平均水平,能够解决IMO-AG-30数据集上的所有30题,并能解决IMO-AG-50上的42题。

而人类金牌选手的平均水平分别是,25.9和40.9。

△AlphaGeometry系列工作在数据集上的表现

在AlphaGeometry最新工作公布后,北京通用人工智能研究院的TongGeometry工作也浮出水面。

相比较AlphaGeometry1/2,TongGeometry有如下改进:

  • 摒弃算数推理(AR),仅仅使用归纳数据库方法(DD)
  • 严格构造对称图形,确保几何图形上的优美性
  • 使用马尔可夫链构造树形状搜索结构,并使用人类数据启发数据生成树的搜索方向
  • 利用策略网络(Policy)和价值网络(Value)联合Beam Search进行解题
纯粹的归纳数据库方法

相比较AlphaGeometry,TongGeometry摒弃了DD+AR的方法,转而只使用DD。

据悉,AR方法由于计算慢,效率低,在实际测试中的严重影响性能。TongGeometry使用的DD方法,包含类似AlphaGeometry使用的10个核心谓词:共线(equine),共圆(eqcircle),等长(cong),中点(midp),平行(para),垂直(perp),等角(eqangle),等比(eqratio),相似(simtri),全等(contri)。

这套谓词表示逻辑,能够覆盖IMO 2000-2024年的所有几何题目中的86.8%。

△归纳数据库方法

构造对称图形,确保几何图形保持美观

相比于AlphaGeometry仅仅使用随机化的构造方案,TongGeometry在设计问题搜索时就优先考虑对称图形。这种方法来自开源项目GeoGen。在正式比赛中,多见大量对称图形。

因此,使用对称方法生成数据,能够在有限数据的情况下,尽可能确保数据符合问题的分布。

△TongGeometry生成的对称图形

使用人类数据启发搜索方向

除了在问题构造的时候优先考虑对称结构,TongGeometry在问题生成的时候还将使用人类数据中获得的分布,指导数据生成方向。

TongGeometry从往届IMO,CMO,以及各大比赛中总共收集196题,并使用这个小数据集构造数据。从结果看,这一方法能够产生大量难度上数倍于现有IMO题目的构型。

△使用人类数据进行启发,TongGeometry生成的数据难度可数倍于IMO现有题目难度

利用策略网络和价值网络联合搜索

TongGeometry在解题过程中,使用了类似Reinforcement Learning的Policy和Value两个网络。

Policy网络用于提出可能的解题搜索方向。而Value网络用于从Policy网络提出的所有可能搜索方向中,筛选出最有用的几种方向。

结合Beam Search和后端的逻辑推理引擎,TongGeometry的解题策略能够形成一个闭环。

△策略网络和价值网络联合搜索解题

此外,TongGeometry使用的策略网络和价值网络都来自微调版本的DeepSeek-Coder。可以说,DeepSeek也在默默地助力TongGeometry的发展。

△DeepSeek-Coder在列,作为TongGeometry的神经网络基础

在性能测试上,TongGeometry技术报告显示,TongGeometry能够解决IMO-AG-30题中的所有30题。

根据北京通用人工智能研究院的最新介绍,在IMO-AG-50上,TongGeometry也能解决42题。注意到TongGeometry的技术报告公布于2024年12月份,谁才是第一个超过人类金牌选手平均水平的几何解题工具,还尚值得商榷。

△TongGeometry在2024年12月公布的技术报告中的性能指标

解题/出题样样精通

TongGeometry除了是一个解题达人,还是一个出题教练。TongGeometry的训练数据包含许多很有价值的几何关系发现,其中不乏大量具有镜像对称和旋转对称的美丽构型。

根据报告,这些题目的难度可能数倍于现有的IMO竞赛题目

此外,TongGeometry所出的题目还获得了数学竞赛的认可。在2024年全国高中数学联赛预赛北京地区的考试中,TongGeometry所出的几何题就正式亮相。

△TongGeometry在全国高中数学联赛北京卷和美国奥林匹克竞赛中的供题

去年北京地区的考生,可能神不知鬼不觉地已经经历了一次来自AI的测试。另外,由美国IMO竞赛教练组组织的一项美国民间数学竞赛USEMO,也收录了2题几何题在他们的竞赛短表中(shortlist)。

△北京卷赛题几何部分记录

高效推理,性能提升18倍

相比AlphaGeometry需要246个CPU核心和4块英伟达V100的高性能计算集群才能在90分钟解决一题相比,TongGeometry只需要32个CPU核心和1块4090就能实现满血解题。

在这一配置下,TongGeometry最多用时仅仅需要38分钟

△AlphaGeometry将解体时间控制在90分钟需要使用246核心CPU和4块英伟达V100的高性能计算集群

相比AlphaGeometry使用246*90核心分钟相比,TongGeometry仅仅需要32*38核心分钟,性能提升18倍有余。在这个配置要求下,你的黑神话主机,都能用来学习几何了。

△TongGeometry仅仅使用32个CPU核心和1块4090就能将解题时间控制在38分钟内

论文链接:https://arxiv.org/pdf/2412.10673

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白玉兰最大赢家:不是孙俪也不是吴越,反而是那个“三无”女演员

白玉兰最大赢家:不是孙俪也不是吴越,反而是那个“三无”女演员

暖心萌阿菇凉
2026-06-29 04:53:50
霍英东三太太林淑端有多美?因美貌得宠,连生四子,一生不争家业

霍英东三太太林淑端有多美?因美貌得宠,连生四子,一生不争家业

春秋砚
2026-06-26 15:10:08
1夜8大转会!扎卡加盟切尔西,热刺狂追托纳利,拜仁清洗努贝尔!

1夜8大转会!扎卡加盟切尔西,热刺狂追托纳利,拜仁清洗努贝尔!

田先生篮球
2026-06-29 07:38:13
女人想要“慢一点”,男人想要“久一点”:性和谐的密码在这里

女人想要“慢一点”,男人想要“久一点”:性和谐的密码在这里

精彩分享快乐
2026-06-29 12:00:23
国际金价跳水,国际油价上涨

国际金价跳水,国际油价上涨

第一财经资讯
2026-06-29 07:57:36
普京:俄建议乌俄双方均停止打击对方领土纵深目标

普京:俄建议乌俄双方均停止打击对方领土纵深目标

界面新闻
2026-06-29 07:01:03
签证暴涨针对中国游客?高市不听岸田劝告,中方对日本改了称呼!

签证暴涨针对中国游客?高市不听岸田劝告,中方对日本改了称呼!

透视到底
2026-06-29 06:42:20
优雅告别,约旦赛后打扫更衣室并留下传统糖果

优雅告别,约旦赛后打扫更衣室并留下传统糖果

懂球帝
2026-06-29 08:13:14
国防部长是个搞营销的?这仗还怎么打

国防部长是个搞营销的?这仗还怎么打

二湘空间
2026-06-28 08:00:09
连续四年百亿投入“砸”研发 长城汽车2025营收同比增长10.19%

连续四年百亿投入“砸”研发 长城汽车2025营收同比增长10.19%

中国经营报
2026-06-29 09:37:09
阿圭罗忆曼城冲突:科拉罗夫曾说要杀我,后来他还问我在家不

阿圭罗忆曼城冲突:科拉罗夫曾说要杀我,后来他还问我在家不

懂球帝
2026-06-28 19:52:12
王濛拒领奖离场,怒指节目组不满而非针对姐姐们

王濛拒领奖离场,怒指节目组不满而非针对姐姐们

可爱小菜
2026-06-29 06:56:38
曝勇士有意引进詹眉!先用巴特勒+选秀权换浓眉 再全力招募詹姆斯

曝勇士有意引进詹眉!先用巴特勒+选秀权换浓眉 再全力招募詹姆斯

罗说NBA
2026-06-29 10:17:20
难怪特朗普不想再打了!伊朗仅用这一招,就能把美军治得服服帖帖

难怪特朗普不想再打了!伊朗仅用这一招,就能把美军治得服服帖帖

赶集的山姑娘
2026-06-28 14:57:25
WTT美国大满贯:国乒豪夺2连胜!林诗栋3:0韩国,蒯曼3:0开门红

WTT美国大满贯:国乒豪夺2连胜!林诗栋3:0韩国,蒯曼3:0开门红

国乒二三事
2026-06-29 03:31:11
人民日报怒批机关事业单位的三大怪状,引基层人员共鸣!

人民日报怒批机关事业单位的三大怪状,引基层人员共鸣!

细说职场
2026-06-28 22:59:37
阿拉巴:2-3的时候已经在考虑收行李的事了,出线后如释重负

阿拉巴:2-3的时候已经在考虑收行李的事了,出线后如释重负

懂球帝
2026-06-29 03:26:09
从业余联赛到6500万镑加盟曼城:加纳前锋塞梅诺的逆袭之路

从业余联赛到6500万镑加盟曼城:加纳前锋塞梅诺的逆袭之路

仰卧撑FTUer
2026-06-29 07:12:02
无声的施压!约基奇迟迟不续约,逼掘金放弃避税、重金升级阵容

无声的施压!约基奇迟迟不续约,逼掘金放弃避税、重金升级阵容

夜白侃球
2026-06-29 11:55:16
77年邓华重回军队,对子女提起3个人:我被下放时,他们伸过援手

77年邓华重回军队,对子女提起3个人:我被下放时,他们伸过援手

史之铭
2026-06-29 02:00:56
2026-06-29 12:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12859文章数 176506关注度
往期回顾 全部

科技要闻

OpenAI推迟上市,那“Kimi们”呢?

头条要闻

在德网友吐槽欧洲高温:赶紧结束吧 别逼我回武汉避暑

头条要闻

在德网友吐槽欧洲高温:赶紧结束吧 别逼我回武汉避暑

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

萧蔷宣布捐出参加“浪姐”所有收入

财经要闻

35岁职场人,又好找工作了?

汽车要闻

精致大气 尊界V800诠释顶级体验的新旗舰MPV

态度原创

艺术
教育
健康
房产
手机

艺术要闻

晚明"四大天王"手稿,看了方知书法妙!

教育要闻

德国竞赛题:拓展c^c=c,猜答案不严谨

“无糖汤圆”是否隐藏着健康陷阱?

房产要闻

你敢想?海口房地产投资,暴跌5成!

手机要闻

麒麟9010S+7000mAh电池 华为nova 16手机全面评测: 全系手感最优的真香款

无障碍浏览 进入关怀版