网易首页 > 网易号 > 正文 申请入驻

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

字节最新数学推理专用模型,刚刚刷新战绩:拿下IMO金牌成绩。

Scaling Law加持下,这个名为Seed Prover 1.5的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35分,达到今年IMO的金牌线。



这一成绩与7月官方认证的IMO金牌“选手”谷歌Gemini打平。而字节自己的前代模型,当时的成绩是3天完成了6道题目中的4道,以及一道题的部分证明,达到银牌成绩。

同时,Seed Prover 1.5也在北美本科级别数学竞赛Putnam这一基准上,大幅刷新了SOTA成绩。



模型尚未开源,但技术报告已经公开。

值得关注的是,Seed Prover 1.5强调了大规模强化学习给数学模型带来的性能提升,也证明,在推理阶段增加计算资源,可以显著提高解题率。

即,验证了测试时Scaling和强化学习训练时的Scaling的有效性。

草稿引导的高效形式化证明

具体来看技术报告。Seed Prover 1.5的参数规模与Seed 1.6相同,230B总参数,23B激活。

主要创新有两点:

  • Agentic Prover:一种新的形式化数学推理范式
  • Sketch Model:自然语言到形式语言的翻译器

Agentic Prover

相较于通用模型用自然语言解答数学问题的方式,数学推理专用模型采用的是形式化数学推理,也就是用Lean等形式语言,构建可在公理系统中机械验证的证明,以确保结果更加可靠。

其难点在于,形式化证明比自然语言证明更加困难。根据“De Bruijn factor”经验法则,一行普通的数学推导,通常需要扩展成4到10行复杂的代码。

这要求模型不仅懂数学,还要精通编程和类型论,而这一高门槛导致形式化证明在效率和成功率上一直远落后于自然语言推理。

以往的研究中,形式化证明器通常分为两类:

  • Step-prover:一步一步证明,效率很低;
  • Whole-prover:一次性生成完整证明,但中间一旦出错就会前功尽弃。

Seed Prover 1.5为了平衡两种方法的优缺点,提出了一种全新的Agentic Prover架构:

模型将Lean语言视为一种工具,且在证明过程中可以自主地调用其他多种工具。

  • Mathlib搜索工具:类似于程序员查阅技术文档,模型可以主动检索Lean庞大的数学库 Mathlib,寻找可用的定理和定义,而非依赖不可靠的隐式记忆。
  • Python代码执行:遇到需要计算的部分,模型可以编写并运行Python脚本来辅助验证直觉。
  • 增量式引理验证:模型不再被迫一次性生成整个证明,而是将复杂问题拆解为若干引理。每证明出一个引理,系统就会将其保留并复用,作为后续推理的基石。

这样一来,模型既可以像人类一样先使用“草稿纸”(自然语言)进行推理,又能够与Lean环境及多种工具进行交互,随时调用工具来验证猜想。



就是说,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整个证明,也无需每一步都做交互验证。

官方技术报告中还提到,Seed Prover 1.5进行了大规模的Agentic RL。

实验证明,随着强化学习训练步数的增加,模型在训练集上的证明通过率从初始的50%升至接近90%。

Agentic RL还带来了大幅的效率提升。在对比测试中,Seed Prover 1.5仅需少量的计算资源,就能在Putnam和Fate等高难度数据集上,击败消耗大量算力的上一代Seed Prover模型。



Sketch Model

为了让模型能更好地“打草稿”,研究人员还专门训练了Sketch Model,来模拟人类数学家解决问题的方式:

数学家在证明一个复杂定理时,通常不会直接写出每一步严丝合缝的代码。他们会先在纸上写下一个非形式化的证明草稿,列出关键的中间步骤、引理和大致思路。

Sketch Model同样不纠结于具体的语法细节,而是专注于逻辑路径的规划。它可以将自然语言证明拆解为若干个独立的、难度更低的引理,并暂时跳过具体证明,仅保留整体的逻辑骨架。

这就将原本不可解的复杂命题,转化成了难度更低的子目标。

研究人员采用混合奖励信号的强化学习策略,来训练这一模型:

  • 信号一:Lean编译器验证生成的草图是否完全正确。
  • 信号二:自然语言Prover会逐一检查引理,一旦发现任一引理在数学上不成立,整个草稿即被否决。
  • 信号三:引入基于长思维链的Rubric评分模型,从语义层面评估草稿的质量——考量引理是否与自然语言证明对齐、拆解的粒度是否合适、是否真正降低了原题的难度。

当草稿在形式验证、数学正确性和整体评分上均满足要求时,才会获得正向奖励。



测试时工作流

以上创新最终构成了一个分层级的多智能体协作系统:

  • Natural Language Prover负责提供高层的数学直觉和自然语言证明。
  • Sketch Model将自然语言转化为形式化的引理结构。
  • Agentic Prover并行地攻克每一个被拆解出的引理。

如果某个引理太难证明,系统还会递归地调用Sketch Model再次进行拆解。这不仅规避了长文本生成的错误累积问题,更提升了推理的并行度和成功率。



研究人员还验证了这一工作流的测试时Scaling特性。

如上图所示,投入更多的计算资源,Seed Prover 1.5对问题的解决率会呈对数线性增长。

这项研究来自字节Seed AI4Math团队。

量子位捕捉到了其中几位作者的踪迹。

Zheng Yuan,清华统计学博士。今年6月刚刚加入字节,此前在阿里Qwen团队负责对齐和推理方向工作。

Hanwen Zhu,本科毕业于牛津大学数学与计算机科学专业,目前在CMU读研,即将加入字节Seed。

郑泽宇,CMU在读博士,字节Seed实习生,专业方向同样是数学与计算机科学联合方向。

论文链接:
https://arxiv.org/pdf/2512.17260
参考链接:
[1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2
[2]https://x.com/GanjinZero/status/2001948751871815741

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网购下单就被拦,山东网友怒了!品牌甩锅“账户异常”,真相如何

网购下单就被拦,山东网友怒了!品牌甩锅“账户异常”,真相如何

李砍柴
2025-12-25 16:05:13
人心不足蛇吞象!74岁姜昆赴美过圣诞内幕曝光,原来韩红没说错

人心不足蛇吞象!74岁姜昆赴美过圣诞内幕曝光,原来韩红没说错

做一个合格的吃瓜群众
2025-12-26 19:23:20
女性的臀部和胸部,为何会对男性产生强烈的“性吸引力”?

女性的臀部和胸部,为何会对男性产生强烈的“性吸引力”?

宇宙时空
2025-09-03 09:53:14
一部封神!九条满:出道一年即消失,却让老司机们念念不忘

一部封神!九条满:出道一年即消失,却让老司机们念念不忘

灼灼小齐
2025-12-26 19:41:18
幸亏中国没中标!泰国高铁选择日本人建设,建成后让泰国悲痛欲绝

幸亏中国没中标!泰国高铁选择日本人建设,建成后让泰国悲痛欲绝

娱乐圈的笔娱君
2025-12-27 01:08:21
湖北一大妈跳了20多年广场舞后,拿100多个金镯子去卖,说家里还有金项链没拿,我人好,都是别人送的

湖北一大妈跳了20多年广场舞后,拿100多个金镯子去卖,说家里还有金项链没拿,我人好,都是别人送的

LULU生活家
2025-12-24 18:51:10
老好人主持内裤被梦女偷了

老好人主持内裤被梦女偷了

毒舌扒姨太
2025-12-26 22:48:18
日本名古屋市丰臣秀吉雕像“被斩首”,嫌犯找到了:一名警察涉案

日本名古屋市丰臣秀吉雕像“被斩首”,嫌犯找到了:一名警察涉案

大象新闻
2025-12-27 00:17:04
腿粗屁股大的金发辣妹,黑背心配红瑜伽裤,凸显饱满臀线魅力

腿粗屁股大的金发辣妹,黑背心配红瑜伽裤,凸显饱满臀线魅力

小乔古装汉服
2025-12-17 15:54:55
让女人对你“上隐”,只需这两招

让女人对你“上隐”,只需这两招

风起见你
2025-12-26 05:37:37
美少妇晚上睡觉不关门,陌生小伙偷偷遛进,女子:隐约感到太小!

美少妇晚上睡觉不关门,陌生小伙偷偷遛进,女子:隐约感到太小!

趣味萌宠的日常
2025-10-22 10:16:29
人民币汇率破7!接下来股市、楼市和你手里的资产都会怎么走?

人民币汇率破7!接下来股市、楼市和你手里的资产都会怎么走?

墨兰史书
2025-12-26 18:40:03
携程被迫发声明,但声明或会让信任再次崩塌,卸载潮难止!

携程被迫发声明,但声明或会让信任再次崩塌,卸载潮难止!

鲁八两
2025-12-25 18:20:23
四个姓徐的巧合  三代人控制一条龙  南博国宝流失疑案谁来查?

四个姓徐的巧合 三代人控制一条龙 南博国宝流失疑案谁来查?

金牌舆情官
2025-12-23 16:04:38
孙正义长女自曝身份 川名麻耶承认:我就是孙正义女儿!

孙正义长女自曝身份 川名麻耶承认:我就是孙正义女儿!

财经八卦阵
2025-12-26 09:19:46
香港资深演员公开确诊胰腺癌,决定停止治疗,体重暴跌至不足70斤

香港资深演员公开确诊胰腺癌,决定停止治疗,体重暴跌至不足70斤

古木之草记
2025-12-26 14:50:50
纳闷了,中国对运送售台武器的船只进行拦截查扣,天会塌下来吗?

纳闷了,中国对运送售台武器的船只进行拦截查扣,天会塌下来吗?

南权先生
2025-12-22 16:59:52
美国强硬封锁委油轮,中委能源贸易受威胁!商务部释放强硬信号

美国强硬封锁委油轮,中委能源贸易受威胁!商务部释放强硬信号

像梦一场a
2025-12-27 01:43:49
老年艾滋病感染人数持续上升,他们是怎么得的病?

老年艾滋病感染人数持续上升,他们是怎么得的病?

中国新闻周刊
2025-12-26 19:25:04
《长安二十四计》第二季:谢淮安、刘理假死,“那个人”是他母亲

《长安二十四计》第二季:谢淮安、刘理假死,“那个人”是他母亲

春之寞陌
2025-12-26 18:14:13
2025-12-27 04:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
11927文章数 176344关注度
往期回顾 全部

科技要闻

收割3000亿!拼多多"土办法"熬死所有巨头

头条要闻

老人婚宴上被提醒孙女非亲生 做鉴定后忍3年忍不了了

头条要闻

老人婚宴上被提醒孙女非亲生 做鉴定后忍3年忍不了了

体育要闻

开翻航母之后,他决定亲手造一艘航母

娱乐要闻

王传君生病后近照变化大,面部浮肿

财经要闻

投资巨鳄罗杰斯最新持仓:只留四种资产

汽车要闻

两大CEO试驾 华为乾崑*启境开启首款猎装轿跑路测

态度原创

时尚
数码
艺术
教育
游戏

我们为什么需要节日穿搭?

数码要闻

盛色推出“OF24TC”23.8英寸显示器:1080P 144Hz,499元

艺术要闻

你绝对想不到,佛陀微笑隐藏的秘密竟然是!

教育要闻

不公布成绩排名其实也不耽误学生知道谁是优秀生谁是差生!

PS6或兼容PS1-PS5全世代游戏!索尼新专利曝光

无障碍浏览 进入关怀版