网易首页 > 网易号 > 正文 申请入驻

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背

0
分享至

MathFusion团队 投稿
量子位 | 公众号 QbitAI

当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。

为了打破这种局限,让大模型学会“串联”与“并联”知识,上海AI Lab、人大高瓴等团队联合提出了MathFusion,通过指令融合增强大语言模型解决数学问题的能力。

仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。

△越靠左上角,模型表现越好且数据效率越高。

核心思想:三种“融合策略”

MathFusion通过三种“融合策略”,将不同的数学问题巧妙地结合起来,生成封装了二者关系和结构的新问题。

  • 顺序融合(Sequential Fusion)
  • 将两个问题串联起来,前一个问题的答案作为后一个问题的某个输入条件。这就像解决一个多步骤问题,模型需要先解出第一步,才能进行第二步,从而学会处理问题间的依赖关系。
  • 并列融合(Parallel Fusion)
  • 将两个相似的问题融合在一起,对它们的数学概念进行识别和融合,在原来问题的基础上提出一道新的问题。
  • 条件融合(Conditional Fusion)
  • 创造一个需要对两个问题的解进行比较和选择的问题场景。

首先从现有数据集(GSM8K、MATH)中识别出适合融合的问题对(主要通过embedding search),然后应用融合策略生成新问题,并利用GPT-4o-mini来生成解答。通过这三种策略,生成了一个全新的融合数据集MathFusionQA。

融合实例:不同策略的融合结果

为了更直观地理解这三种融合策略,来看一个具体的例子:

原始问题

  • 问题A:一天内,一艘船在湖中航行4次,每次最多可载12人。请问在2天内,这艘船可以运送多少人?
  • 问题B:学校组织去博物馆。他们租了4辆巴士来接送孩子和老师。第二辆巴士的人数是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。如果第一辆巴士上有12人,请问总共有多少人去了博物馆?

顺序融合

学校组织一次去博物馆的旅行,需要运送学生和老师。首先,请计算一艘船在2天内的载客量,这艘船每天航行4次,每次最多可载12人。然后,将这个总载客量作为第一辆巴士的人数。已知第二辆巴士的人数是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。请问总共有多少人去了博物馆?

并列融合

一所学校组织一次到博物馆的实地考察,并租用了4辆巴士和一艘船6。这艘船一天航行2次,每次载客12人。每辆巴士的人数不同:第一辆巴士有12人,…,第四辆比第一辆多9人。请计算在2天内,船和所有巴士总共可以运送多少人?

条件融合

一个社区正在组织两种不同的郊游活动。对于湖上游览,一艘船每天运营4次,载客量为12人,他们计划让这艘船服务2天。与此同时,一所学校正在安排一次有4辆巴士的博物馆之旅11。第一辆巴士有12人,第二辆是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。考虑到这些安排,哪种交通方式的载客能力更强?

实验结果:有效捕捉问题间深层联系

在MathFusionQA的基础上,使用三种融合策略——顺序、并行和条件——对模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)进行微调。实验得到以下发现:

显著提升模型性能与效率:与标准训练方法(只在GSM8K和MATH上训练)相比,MathFusion在多个base模型(包括DeepSeekMath-7B、Llama3-8B、Mistral-7B)上都取得了稳定的性能提升。并且,MathFusion在大幅提升性能的同时,保持了极高的数据效率,用远少于其他方法的数据量就达到了良好的效果。

策略之间优势互补:将顺序融合、条件融合和并行融合三种策略结合使用,组合融合策略始终优于每种单一融合策略。另外,基础模型性能越弱,组合融合策略带来的提升就越大。在所有基准测试中,组合融合策略在DeepSeekMath-7B上平均提升了3.1分,在Llama3-8B上提升了4.9分,在Mistral-7B上提升了7.5分。

强大的泛化与扩展能力:MathFusion不仅在in-domain测试中表现优异,在更具挑战性的out-of-domain基准测试中同样超越了标准模型。

对MathFusion做进一步的分析,有以下几点发现:

  • 融合之后的问题的指令遵循难度(IFD)更高,说明融合之后的问题对于模型来说更加困难。
  • 随着融合数据量的增加,MathFusion模型的性能呈现出近似对数形式的增长。
  • 当把MathFusionQA数据集与DART-Math数据集结合使用时,模型的性能可以得到进一步的提升,甚至超过了单独使用任何一个数据集时的表现。这表明MathFusion的“问题融合”思路与DART-Math的“挖掘难题”思路是互补的。
  • 通过t-SNE可视化分析,发现MathFusion得到的问题在特征空间中的分布比原始问题更均匀和广泛。
  • 通过对teacher model的消融分析,证明了MathFusion带来的提升源自于问题融合本身,而非teacher model的好坏。

总的来说,通过生成结构更多样、逻辑更复杂的合成问题,MathFusion有效地增强了模型捕捉问题间深层联系的能力。

但目前MathFusion还只在GSM8K、MATH这种比较简单的数学问题,以及short cot solution的数据集上进行了验证,有待进一步扩展到更难的数学问题、long cot solution以及其他领域的数据上。

论文链接: https://arxiv.org/abs/2503.16212
代码库:https://github.com/QizhiPei/MathFusion

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广西岑溪市委书记上场踢“县超”,还佩戴了队长袖标

广西岑溪市委书记上场踢“县超”,还佩戴了队长袖标

澎湃新闻
2026-03-31 10:22:29
SpaceX猎鹰重型炸场:3台发动机同时熄火,马斯克说「太美了」

SpaceX猎鹰重型炸场:3台发动机同时熄火,马斯克说「太美了」

野生运营
2026-03-31 07:36:59
户外一姐唐艺惊现意外走光,粉丝为何越看越上头?

户外一姐唐艺惊现意外走光,粉丝为何越看越上头?

娱乐领航家
2026-03-12 22:00:04
唐欣被盯死、施海荣无调整,江苏女排0-3输球真不冤

唐欣被盯死、施海荣无调整,江苏女排0-3输球真不冤

金毛爱女排
2026-04-01 02:15:03
比亚迪,减员10万人

比亚迪,减员10万人

大佬灼见
2026-03-31 11:28:05
高层缺席来华会议后,韩国政府宣布,将对中国征收关税,风向已变

高层缺席来华会议后,韩国政府宣布,将对中国征收关税,风向已变

潘蠸旅行浪子
2026-03-30 19:58:31
明明磷酸铁锂电池更安全,为什么中高端车还是选三元锂电池?

明明磷酸铁锂电池更安全,为什么中高端车还是选三元锂电池?

小李子体育
2026-03-29 09:39:57
中俄联手都镇不住高市早苗,知名学者判断:中日一个月内或有空战

中俄联手都镇不住高市早苗,知名学者判断:中日一个月内或有空战

安安说
2026-03-02 13:42:53
40岁菲尔普斯现状曝光!退役后暴瘦到无人识,老婆长得很漂亮

40岁菲尔普斯现状曝光!退役后暴瘦到无人识,老婆长得很漂亮

小徐讲八卦
2026-03-23 14:19:30
公园打花后续:保洁老人被开除,更多细节流出,网友评论一针见血

公园打花后续:保洁老人被开除,更多细节流出,网友评论一针见血

以茶带书
2026-03-31 16:18:06
“血栓大户”被揪出!再次提醒:劝你少吃3种食物,越吃血管越堵

“血栓大户”被揪出!再次提醒:劝你少吃3种食物,越吃血管越堵

39健康网
2026-03-20 20:20:37
丰田这车1小时狂收3100单,22万定价把自家雷克萨斯架火上烤

丰田这车1小时狂收3100单,22万定价把自家雷克萨斯架火上烤

我是一个养虾人
2026-03-31 08:58:20
你知道吗?正常乳头的样子竟是这样的!

你知道吗?正常乳头的样子竟是这样的!

特约前排观众
2026-03-28 00:15:03
男人不管多少岁,运动鞋尽量别穿耐克、李宁,换成这些品牌更高级

男人不管多少岁,运动鞋尽量别穿耐克、李宁,换成这些品牌更高级

白宸侃片
2026-03-23 00:39:46
奉陪到底,外交部宣布动手,高市军师遭制裁,日方急求中国派人谈

奉陪到底,外交部宣布动手,高市军师遭制裁,日方急求中国派人谈

真正能保护你的
2026-04-01 03:08:19
崩得最彻底的专业,网友哭诉:孩子600多分进的,如今找不到工作

崩得最彻底的专业,网友哭诉:孩子600多分进的,如今找不到工作

黯泉
2026-03-28 20:41:06
妈妈肺癌晚期5年,我用80万买来的教训,希望你千万别踩

妈妈肺癌晚期5年,我用80万买来的教训,希望你千万别踩

千秋文化
2026-03-30 20:49:24
从单一车型到独立品牌 “神行者”有了新身份

从单一车型到独立品牌 “神行者”有了新身份

红星新闻
2026-03-31 22:29:27
张雪机车概念股,连续两天“20cm”涨停!公司最新回应

张雪机车概念股,连续两天“20cm”涨停!公司最新回应

证券时报e公司
2026-03-31 21:20:33
澳门世界杯积分榜!国乒3人一只脚踏进16强大门,梁靖崑局势不利

澳门世界杯积分榜!国乒3人一只脚踏进16强大门,梁靖崑局势不利

烧体坛
2026-03-31 22:36:46
2026-04-01 04:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12386文章数 176434关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

伊朗总统:愿意结束战争 前提是诉求得到满足

头条要闻

伊朗总统:愿意结束战争 前提是诉求得到满足

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

健康
旅游
手机
本地
公开课

干细胞抗衰4大误区,90%的人都中招

旅游要闻

沿沪宁好去处丨上海西站出发,逛花海、品早茶、看球赛!泰州发布三大春季主题线路

手机要闻

vivo X300s线下上手:体验后,不吐不快!

本地新闻

用Color Walk的方式解锁城市春日

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版