网易首页 > 网易号 > 正文 申请入驻

103K「硬核」题,让大模型突破数学推理瓶颈

0
分享至

本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。

本文的通讯作者为涂兆鹏,腾讯混元数字人专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过 10000 次,担任 SCI 期刊 NeuroComputing 副主编,多次担任 ACL、EMNLP、ICLR 等国际顶级会议领域主席。共同通讯作者王瑞,上海交通大学副教授,研究方向为计算语言学。第一作者为上海交通大学博士生何志威,腾讯 AI Lab 高级研究员梁添、徐嘉豪。

在 AGI 的浩瀚征途中,数学推理能力始终是衡量其智能水平的关键试金石。然而,当前大语言模型(LLM)在数学推理,特别是通过强化学习(RL)进行训练时,正面临着前所未有的数据瓶颈:现有数据集普遍缺乏挑战性和新颖性、答案难以验证,且常与评估基准存在 “污染” 问题。

为了解决以上问题,DeepMath-103K数据集横空出世,它以其大规模、高难度、严格去污染和可验证答案的特性,为 AI 数学推理领域带来进一步突破。

  • 论文题目:DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning
  • 论文地址:https://arxiv.org/pdf/2504.11456
  • 数据地址:https://hf.co/datasets/zwhe99/DeepMath-103K
  • 模型地址:https://hf.co/collections/zwhe99/deepmath-6816e139b7f467f21a459a9a
  • 代码地址:https://github.com/zwhe99/DeepMath

痛点:现有数据集为何 “拖后腿” ?

想象一下,你正在训练一个 AI 数学家,但它手里的 “习题集” 却有诸多缺陷:

  • 难度不够:题目过于简单,无法真正挑战模型的推理极限。
  • 答案难验:缺乏标准化、可验证的答案格式,让强化学习的奖励机制无从下手。
  • 数据污染:训练数据与测试基准存在重叠,无法真实反映能力。
  • 缺乏新意:大多是对现有资源的简单重组,新颖性和多样性严重不足。

这些问题,就像给 AI 数学家戴上了 “镣铐”,即使模型架构再先进,也难以施展拳脚,更别提实现真正的 “深度思考” 和泛化能力。

DeepMath-103K:AI 数学推理的 “硬核” 解决方案

为了打破这些桎梏,DeepMath-103K 应运而生。它是一个包含约103,022 个数学问题的全新大规模数据集,专为通过强化学习训练高级推理模型而设计。

1. 规模与难度:专为 “极限挑战” 而生

DeepMath-103K 的显著特点是其高难度。其中 95K 个问题被精心构造为难度等级 5-10,另有 8K 个来自 SimpleRL 的问题(难度等级 3-5)以确保更广泛的难度覆盖。这种难度分布明显偏向高难度,旨在推动当前模型的推理极限,与现有其它数据集形成鲜明对比。

2. 数据新颖性:告别 “千篇一律”

与许多现有开放数据集不同,DeepMath-103K 主要从Math StackExchange等更多样化但结构性较差的来源获取内容。这种方法将非正式讨论转化为结构化问答,带来了显著的新颖性和多样性。

在涵盖的主题上,DeepMath-103K 包含了从基础概念(如初等代数、平面几何)到高级主题(如抽象代数、微积分、数论、几何、概率、离散数学等)的广泛数学领域 。这种分层且全面的主题覆盖,确保了模型能够接触到不同复杂度、不同类型的数学问题,从而促进在不同数学领域中通用推理能力的发展。

对数据集内容的深入分析表明,DeepMath-103K 在问题新颖性和独特性方面表现出压倒性优势。在对数据集的问题进行嵌入化,降维,可视化后,我们惊人地发现大多数数据集的问题分布极其雷同(蓝色点簇)。而 DeepMath-103K 的问题(红色点簇)则在空间中形成了一个与众不同的分布。

进一步地,在总计约 103K 个问题中,高达 82.81K 个问题是独一无二的,这意味着它们在其它数据集中从未出现过。

这直观地表明,DeepMath-103K 的问题集合在语义和结构上与现有数据集存在显著差异,避免了 “炒冷饭” 的问题,为模型提供了真正新颖的训练样本。

3. 严格去污染:确保评估 “纯净”

DeepMath-103K 的构建过程堪称 “匠心独运”,通过一个细致的四阶段构造流程:

1.来源分析与收集:分析现有数据来源,选择难题比例高的数据源。

2.数据去污染:使用嵌入相似性搜索和 LLM-Judge 来识别并消除与 MATH、AIME、AMC、Minerva Math、OlympiadBench 等 17 个数学和 STEM 基准的重叠,确保评估的完整性并防止数据泄露。

3.难度过滤:使用 GPT-4o 对问题进行难度评估,保留难度等级 5 或更高的问题。

4.答案验证:采用两阶段流程,确保所有解决方案路径中的最终答案一致且可验证。

这个过程的计算成本极其高昂:约 138,000 美元的费用和127,000 小时的 H20 GPU时间 。这足以证明其在数据质量和纯净度上的巨大投入。

4. 独特结构:为 RL 训练 “量身定制”

DeepMath-103K 中的每条数据都包含丰富的信息,支持多种数学推理研究和应用 :

  • 问题:核心的数学问题陈述。
  • 最终答案:可靠且可验证的最终答案,这对于在可验证奖励强化学习(RLVR)中基于规则的奖励函数至关重要,是自动化评估和反馈的基础。
  • 难度:数值难度标注,支持难度感知训练。
  • 主题:分层主题分类,涵盖从初等代数到抽象代数、微积分的广泛数学主题。
  • R1 解决方案:由 DeepSeek-R1 模型生成的三种不同的推理路径。这些多重解决方案对于监督微调和模型蒸馏等多种训练范式都具有巨大价值。

DeepMath 系列模型在多个基准上达到 SOTA

  • Zero RL(从 Base model 直接开始 RL): DeepMath-Zero-7B 和 DeepMath-Zero-Math-7B 从 Qwen-2.5-7B 和 Qwen-2.5-Math-7B 模型开始训练,表现出显著的性能提升,并在所有评估基准上取得了新的 SOTA 结果。
  • RL(从 Instruct model 开始 RL):基于 R1-Distill-Qwen-1.5B 初始化的 DeepMath-1.5B 取得了优异的性能;从 OpenMath-Nemotron-1.5B 开始的 DeepMath-Omn-1.5B 在所有评估基准上都获得了 1.5B 规模模型中新的 SOTA 结果,甚至超越了 o1-mini 和 o3-mini (low effort)。

可泛化的推理:从数学到科学的飞跃

DeepMath 系列模型展示了将其推理能力从纯数学领域泛化到更广泛的科学领域的显著能力。与基线模型相比,它们在涵盖生物学、物理学和化学的GPQA-Diamond 基准上取得了卓越的性能。这支持了强大的数学推理并非孤立技能,而是一种基础性认知能力,支撑着更广泛的科学和逻辑理解的假设。

结语

DeepMath-103K 的发布,无疑为人工智能数学推理领域形成了新的突破。它不仅解决了数据瓶颈问题,更通过其独特的设计和卓越的性能,证明了精心构造的高质量训练数据在推动 AI 前沿方面的深远价值。我们期待,在 DeepMath-103K 的推动下,AI 能够真正学会 “深度思考”,从数学的逻辑殿堂走向更广阔的科学探索,最终迈向更强大、更具通用性、认知上更复杂的智能系统!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

扬子晚报
2026-03-25 20:25:53
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

懂球帝
2026-03-26 14:33:09
伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

红星新闻
2026-03-25 17:17:14
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
来消息了!日本船主协会会长突然爆出猛料!

来消息了!日本船主协会会长突然爆出猛料!

达文西看世界
2026-03-26 10:48:30
A股:刚刚,突传重大消息,两个信号,周四将迎来更大级别的变盘

A股:刚刚,突传重大消息,两个信号,周四将迎来更大级别的变盘

云鹏叙事
2026-03-26 00:00:06
看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

孤云朗境
2026-03-06 20:43:36
辛纳在迈阿密比赛中险些误伤美国球星,赛后赶紧致歉

辛纳在迈阿密比赛中险些误伤美国球星,赛后赶紧致歉

网球之家
2026-03-26 13:25:54
大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

体坛小李
2026-03-26 08:53:49
NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

铁甲西奇
2026-03-26 16:43:09
泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

削桐作琴
2026-03-26 18:14:58
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
张雪峰直播连炫7根雪糕,三口一根猛灌凉水:他哪是爱吃冰

张雪峰直播连炫7根雪糕,三口一根猛灌凉水:他哪是爱吃冰

风起见你
2026-03-26 07:57:51
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

可乐谈情感
2026-03-26 13:42:47
巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

懂球帝
2026-03-26 06:43:09
2026-03-26 19:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
教育
游戏
家居
时尚

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

无障碍浏览 进入关怀版