网易首页 > 网易号 > 正文 申请入驻

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背

0
分享至

MathFusion团队 投稿
量子位 | 公众号 QbitAI

当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。

为了打破这种局限,让大模型学会“串联”与“并联”知识,上海AI Lab、人大高瓴等团队联合提出了MathFusion,通过指令融合增强大语言模型解决数学问题的能力。



仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。



△越靠左上角,模型表现越好且数据效率越高。

核心思想:三种“融合策略”

MathFusion通过三种“融合策略”,将不同的数学问题巧妙地结合起来,生成封装了二者关系和结构的新问题。



  • 顺序融合(Sequential Fusion)
  • 将两个问题串联起来,前一个问题的答案作为后一个问题的某个输入条件。这就像解决一个多步骤问题,模型需要先解出第一步,才能进行第二步,从而学会处理问题间的依赖关系。
  • 并列融合(Parallel Fusion)
  • 将两个相似的问题融合在一起,对它们的数学概念进行识别和融合,在原来问题的基础上提出一道新的问题。
  • 条件融合(Conditional Fusion)
  • 创造一个需要对两个问题的解进行比较和选择的问题场景。

首先从现有数据集(GSM8K、MATH)中识别出适合融合的问题对(主要通过embedding search),然后应用融合策略生成新问题,并利用GPT-4o-mini来生成解答。通过这三种策略,生成了一个全新的融合数据集MathFusionQA。

融合实例:不同策略的融合结果

为了更直观地理解这三种融合策略,来看一个具体的例子:

原始问题

  • 问题A:一天内,一艘船在湖中航行4次,每次最多可载12人。请问在2天内,这艘船可以运送多少人?
  • 问题B:学校组织去博物馆。他们租了4辆巴士来接送孩子和老师。第二辆巴士的人数是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。如果第一辆巴士上有12人,请问总共有多少人去了博物馆?

顺序融合

学校组织一次去博物馆的旅行,需要运送学生和老师。首先,请计算一艘船在2天内的载客量,这艘船每天航行4次,每次最多可载12人。然后,将这个总载客量作为第一辆巴士的人数。已知第二辆巴士的人数是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。请问总共有多少人去了博物馆?

并列融合

一所学校组织一次到博物馆的实地考察,并租用了4辆巴士和一艘船6。这艘船一天航行2次,每次载客12人。每辆巴士的人数不同:第一辆巴士有12人,…,第四辆比第一辆多9人。请计算在2天内,船和所有巴士总共可以运送多少人?

条件融合

一个社区正在组织两种不同的郊游活动。对于湖上游览,一艘船每天运营4次,载客量为12人,他们计划让这艘船服务2天。与此同时,一所学校正在安排一次有4辆巴士的博物馆之旅11。第一辆巴士有12人,第二辆是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。考虑到这些安排,哪种交通方式的载客能力更强?

实验结果:有效捕捉问题间深层联系

在MathFusionQA的基础上,使用三种融合策略——顺序、并行和条件——对模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)进行微调。实验得到以下发现:



显著提升模型性能与效率:与标准训练方法(只在GSM8K和MATH上训练)相比,MathFusion在多个base模型(包括DeepSeekMath-7B、Llama3-8B、Mistral-7B)上都取得了稳定的性能提升。并且,MathFusion在大幅提升性能的同时,保持了极高的数据效率,用远少于其他方法的数据量就达到了良好的效果。

策略之间优势互补:将顺序融合、条件融合和并行融合三种策略结合使用,组合融合策略始终优于每种单一融合策略。另外,基础模型性能越弱,组合融合策略带来的提升就越大。在所有基准测试中,组合融合策略在DeepSeekMath-7B上平均提升了3.1分,在Llama3-8B上提升了4.9分,在Mistral-7B上提升了7.5分。

强大的泛化与扩展能力:MathFusion不仅在in-domain测试中表现优异,在更具挑战性的out-of-domain基准测试中同样超越了标准模型。





对MathFusion做进一步的分析,有以下几点发现:

  • 融合之后的问题的指令遵循难度(IFD)更高,说明融合之后的问题对于模型来说更加困难。
  • 随着融合数据量的增加,MathFusion模型的性能呈现出近似对数形式的增长。
  • 当把MathFusionQA数据集与DART-Math数据集结合使用时,模型的性能可以得到进一步的提升,甚至超过了单独使用任何一个数据集时的表现。这表明MathFusion的“问题融合”思路与DART-Math的“挖掘难题”思路是互补的。
  • 通过t-SNE可视化分析,发现MathFusion得到的问题在特征空间中的分布比原始问题更均匀和广泛。
  • 通过对teacher model的消融分析,证明了MathFusion带来的提升源自于问题融合本身,而非teacher model的好坏。

总的来说,通过生成结构更多样、逻辑更复杂的合成问题,MathFusion有效地增强了模型捕捉问题间深层联系的能力。

但目前MathFusion还只在GSM8K、MATH这种比较简单的数学问题,以及short cot solution的数据集上进行了验证,有待进一步扩展到更难的数学问题、long cot solution以及其他领域的数据上。

论文链接: https://arxiv.org/abs/2503.16212
代码库:https://github.com/QizhiPei/MathFusion

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全剧终了?高市已“举白旗”,不会再乱谈台海问题,马英九没说错

全剧终了?高市已“举白旗”,不会再乱谈台海问题,马英九没说错

混沌录
2025-11-20 00:11:03
波音747货机冲出跑道坠海致2人身亡,香港发表初步调查报告

波音747货机冲出跑道坠海致2人身亡,香港发表初步调查报告

鲁中晨报
2025-11-18 19:03:04
广东宏远VS山西男篮!萨林杰首秀,崔永熙出战,杜锋拒绝爆冷

广东宏远VS山西男篮!萨林杰首秀,崔永熙出战,杜锋拒绝爆冷

体坛瞎白话
2025-11-20 10:30:56
喻恩泰好友反击了!爆料史林子多次偷情出轨,并曝出露骨聊天截图

喻恩泰好友反击了!爆料史林子多次偷情出轨,并曝出露骨聊天截图

萌神木木
2025-11-18 19:36:17
差点被翻!火箭114-104骑士,看数据:他是头号功臣!

差点被翻!火箭114-104骑士,看数据:他是头号功臣!

篮坛篮谈
2025-11-20 09:26:55
深圳模特比赛争议后续:冠军一身赘肉年纪大,主办方发声却翻车

深圳模特比赛争议后续:冠军一身赘肉年纪大,主办方发声却翻车

深析古今
2025-11-19 13:26:48
喻恩泰发声回应!为孩子忍辱多年,情敌前妻看不下去,放猛料助攻

喻恩泰发声回应!为孩子忍辱多年,情敌前妻看不下去,放猛料助攻

阿纂看事
2025-11-19 22:34:25
俄罗斯警告高市早苗

俄罗斯警告高市早苗

极目新闻
2025-11-19 17:31:43
章泽天发文为自己庆祝32岁生日,网友:走出半生归来才32岁,羡慕

章泽天发文为自己庆祝32岁生日,网友:走出半生归来才32岁,羡慕

小咪侃娱圈
2025-11-20 10:51:10
10余名台湾同胞在意大利餐厅点5份披萨遭老板讽刺,当地华人团结反击致闭门歇业,旅行团:一共13个人,还点了多杯饮料

10余名台湾同胞在意大利餐厅点5份披萨遭老板讽刺,当地华人团结反击致闭门歇业,旅行团:一共13个人,还点了多杯饮料

极目新闻
2025-11-19 15:35:21
全运会乒乓球大结局!10块金牌今天全出炉,樊振东王楚钦冲击冠军

全运会乒乓球大结局!10块金牌今天全出炉,樊振东王楚钦冲击冠军

国乒二三事
2025-11-20 06:49:48
斯诺克赛程:决出4强,3场世界冠军较量,赵心童首秀,75双雄出战

斯诺克赛程:决出4强,3场世界冠军较量,赵心童首秀,75双雄出战

刘姚尧的文字城堡
2025-11-20 08:10:15
国会批准、特朗普改口,爱泼斯坦档案会成为美国政坛“核弹”吗?

国会批准、特朗普改口,爱泼斯坦档案会成为美国政坛“核弹”吗?

民言民语
2025-11-20 13:28:47
角逐940万大奖,丁俊晖火箭都0-4出局!赵心童独闯八强附对阵赛程

角逐940万大奖,丁俊晖火箭都0-4出局!赵心童独闯八强附对阵赛程

求球不落谛
2025-11-20 07:05:55
琉球不属日本,50年代琉球老照片:街头到处是中文,琉球女孩漂亮

琉球不属日本,50年代琉球老照片:街头到处是中文,琉球女孩漂亮

法老不说教
2025-11-19 15:02:39
初三学生被霸凌者打断肋骨,母亲不去派出所,隔天校园来六辆商务车

初三学生被霸凌者打断肋骨,母亲不去派出所,隔天校园来六辆商务车

悬案解密档案
2025-10-21 09:24:49
央八开播!年代传奇剧《大生意人》定档,看完阵容我说:这剧要爆

央八开播!年代传奇剧《大生意人》定档,看完阵容我说:这剧要爆

可乐谈情感
2025-11-20 12:11:49
难怪解放军连续出重拳,日方极力隐藏的武器,被中方发现了

难怪解放军连续出重拳,日方极力隐藏的武器,被中方发现了

林子说事
2025-11-19 13:12:28
创业板指翻绿 开盘一度涨近2%

创业板指翻绿 开盘一度涨近2%

财联社
2025-11-20 10:22:06
电池不变续航升级821公里,Model Y含金量还在提高

电池不变续航升级821公里,Model Y含金量还在提高

邱小铖
2025-11-18 17:43:19
2025-11-20 14:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
11714文章数 176335关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

本地
手机
游戏
教育
公开课

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

手机要闻

统一国产大底主摄 华为Mate 80系列规格曝光

《冬日幸存者》Steam正式推出 开放世界生存冒险

教育要闻

2026高考日语听力播2遍,如何适配新听力变革?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版