网易首页 > 网易号 > 正文 申请入驻

字节Seed数学新模型,SOTA了

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

不仅能达IMO银牌水准,更能解决普特南数学竞赛难题,甚至超越顶尖模型o4-mini!

字节发布全新复杂数学解决模型——Seed-Prover



该模型全面超越了谷歌的AlphaGeometry2,并在MiniF2F数据集上实现了惊人的100%正确率。

不仅如此,Seed-Prover还展现了其卓越的泛化能力:

  • 成功解决了78.1%的历年IMO难题
  • 普特南数学竞赛中的成绩达到其他主流模型的4倍;
  • 在MiniCTX-2数据集上,以81.8%的高正确率远超基准模型o4-mini。



对此,前谷歌成员Deedy Das惊叹道:字节真不愧是唯一一家专为IMO发表完整论文的AI实验室!



Seed-Prover模型框架

Seed-Prover是一个专注于使用Lean 4进行形式化推理的大型语言模型。

Lean 4允许用户精确定义数学对象和定理,并通过机器自动验证推理步骤的严谨性与正确性。

相较于先前的研究,Seed-Prover最显著的区别在于采用了引理式证明作为证明范式,从而将引理置于推理过程的核心。

简单来说,就是在进行推理时,先要求模型生成一些有用的引理,每个引理由 “lemma” 关键字引入 ,然后再使用 “theorem” 通过应用生成的引理来生成主要证明。



这种方法具有几个关键优势:

1、它可以清晰地识别已成功证明的引理和需要进一步完善的引理。

2、由于引理是模块化的,它们可以独立编译、独立存储和自由组合。

3、证明引理的过程可能为模型提供灵感,以证明其他未证引理或解决主要问题。

为了实现Seed-Prover的工作流程,研究人员为每个难题建立了一个引理池,存储来自所有推理运行的综合数据,包括引理陈述、引理名称、完整证明、证明难度和依赖关系。

根据可用的推理资源和问题难度,字节还开发了三个级别的策略:轻量推理、中等推理和重量级推理。



由于Lean在几何支持方面存在不足,Seed-Prover集成了一个专用的几何推理引擎Seed-Geometry

它采用了前向链推理的引擎架构:即系统通过检查适用的规则来推导所有已知事实,直到得出结论。

此外,Seed-Geometry还具有反向追踪事实依赖关系的能力,能够识别一个几何问题中最小的依赖关系结构,从而将问题本身的上下文与解决该问题所需的辅助构造有效区分开来。

基于上述工作,Seed-Geometry建立了一个包含2.3亿个需要辅助构造的独特几何问题的库。

这是通过利用过去20多年数学奥林匹克竞赛的统计数据,并在其专用领域特定语言定义的几何空间中进行广泛搜索实现的。

基于这一专属几何数据训练得到的Seed模型,成为了一个高效的神经-符号混合几何证明器

它可以补全缺失的辅助构造元素,并借助几何推理引擎,按步骤进行前向推理,最终完成整个几何问题的形式化证明。

达IMO银牌水准

研究团队使用Seed-Prover与Seed-Geometry参加了IMO 2025,完整解决了6道题中的4道以及一道题的部分证明,在比赛规定时间内达到了IMO银牌水准。

根据IMO-AG-50的统计方法,在2000年至2024年IMO几何问题中,Seed-Geometry (SG) 解决了43道题,比AlphaGeometry 2 (AG2) 多解决1道。



对于2000年至2022年难度大的多的IMO候选题中的几何题,AlphaGeometry 2解决了19道,而Seed-Geometry解决了22道。



此外,值得注意的是,Seed-Geometry还在2秒内解出了IMO 2025第2题。

除此之外,对于MiniF2F测试集,Seed-Prover达到了几乎百分百的正确率。



参考链接:
[1]https://x.com/deedydas/status/1951829325839499753
[2]https://www.alphaxiv.org/pdf/2507.23726

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正式交易?独行侠发声,汤普森下家3选1,勇士热门,豪门或截胡

正式交易?独行侠发声,汤普森下家3选1,勇士热门,豪门或截胡

乐聊球
2025-11-08 09:56:16
美国选举结果利好乌克兰

美国选举结果利好乌克兰

名人苟或
2025-11-06 16:40:48
浙江20岁女子隐私部位已经80岁了!医生:立刻停止

浙江20岁女子隐私部位已经80岁了!医生:立刻停止

深圳晚报
2025-11-07 23:56:11
阎肃:有人想否定样板戏,也许容易,但要想否定那个时代,难!

阎肃:有人想否定样板戏,也许容易,但要想否定那个时代,难!

观星赏月
2025-11-08 00:40:01
史晓燕揭秘李春平遗产:没有268亿,每年只拿1500万,痴呆是遗传

史晓燕揭秘李春平遗产:没有268亿,每年只拿1500万,痴呆是遗传

不八卦掌门人
2025-11-06 16:12:28
时隔894天!巴萨诺坎普球场开放:2万球迷涌入 买票看训练

时隔894天!巴萨诺坎普球场开放:2万球迷涌入 买票看训练

叶青足球世界
2025-11-07 20:07:08
内蒙古14岁农村少年发明“浇水神器”斩获全球金奖,老师:他曾获全球发明大会中国区一等奖,发明灵感源于母亲做饭产生的水蒸气

内蒙古14岁农村少年发明“浇水神器”斩获全球金奖,老师:他曾获全球发明大会中国区一等奖,发明灵感源于母亲做饭产生的水蒸气

极目新闻
2025-11-07 20:56:35
特斯拉ModelY全新车型上市!售价28.85万起外观动感,续航821公里

特斯拉ModelY全新车型上市!售价28.85万起外观动感,续航821公里

小史谈车
2025-11-08 11:54:01
网友分享:你捡过最大的漏是什么?看完笑到飞起!

网友分享:你捡过最大的漏是什么?看完笑到飞起!

特约前排观众
2025-09-29 00:05:12
印度首富独爱女儿一脉,4个孙辈偏宠外孙女,正牌孙子孙女不咋地

印度首富独爱女儿一脉,4个孙辈偏宠外孙女,正牌孙子孙女不咋地

坠入二次元的海洋
2025-11-08 11:19:51
广州市教育局明确:并非“官方”教辅

广州市教育局明确:并非“官方”教辅

番禺台
2025-11-08 00:09:22
暴跌了50%!中国第一睡城成鬼城,十年前上车“燕郊”的人都哭了

暴跌了50%!中国第一睡城成鬼城,十年前上车“燕郊”的人都哭了

墨兰史书
2025-10-24 13:25:03
见识过令人拍案叫绝的临场反应吗?评论区:我等凡人只有五体投地

见识过令人拍案叫绝的临场反应吗?评论区:我等凡人只有五体投地

夜深爱杂谈
2025-10-31 19:29:00
老人鞋足力健已是多次失信被执行人,张凯丽称代言5年前已结束

老人鞋足力健已是多次失信被执行人,张凯丽称代言5年前已结束

界面新闻
2025-11-07 11:35:46
陈梦这到底是没占着天时地利,还是实力真就差了点啊

陈梦这到底是没占着天时地利,还是实力真就差了点啊

小光侃娱乐
2025-11-08 11:15:03
副院长视频后续:眼科女主任很爱干净,沙发上铺了两张无菌床单

副院长视频后续:眼科女主任很爱干净,沙发上铺了两张无菌床单

鋭娱之乐
2025-11-07 15:50:06
弗格森祝贺瓜帅达1000场里程碑:你应该为自己带来的影响自豪

弗格森祝贺瓜帅达1000场里程碑:你应该为自己带来的影响自豪

懂球帝
2025-11-07 18:28:17
玻璃瓶、情趣用品从天而降!一楼住户因高空抛物苦不堪言,物业回应

玻璃瓶、情趣用品从天而降!一楼住户因高空抛物苦不堪言,物业回应

极目新闻
2025-11-07 17:45:34
三甲副院长跟女主任不雅视频疯传?官方回应

三甲副院长跟女主任不雅视频疯传?官方回应

医脉圈
2025-11-06 13:59:06
65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

大龄女一晓彤
2025-09-23 19:35:20
2025-11-08 13:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
11645文章数 176329关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

萧美琴等在欧洲议会大楼进行"台独"分裂活动 中方回应

头条要闻

萧美琴等在欧洲议会大楼进行"台独"分裂活动 中方回应

体育要闻

邵佳一准备好了,但中国足球准备好了吗?

娱乐要闻

梁婷为辛芷蕾发声:没什么可质疑的

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

家居
本地
艺术
数码
公开课

家居要闻

现代自由 功能美学居所

本地新闻

这届干饭人,已经把博物馆吃成了食堂

艺术要闻

江西深山的“亚洲第一铀矿”,曾为原子弹做贡献,如今怎样了?

数码要闻

AMD Ryzen X3D十月在亚马逊的销量超过英特尔整个CPU产品线

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版