网易首页 > 网易号 > 正文 申请入驻

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背

0
分享至

MathFusion团队 投稿
量子位 | 公众号 QbitAI

当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。

为了打破这种局限,让大模型学会“串联”与“并联”知识,上海AI Lab、人大高瓴等团队联合提出了MathFusion,通过指令融合增强大语言模型解决数学问题的能力。



仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。



△越靠左上角,模型表现越好且数据效率越高。

核心思想:三种“融合策略”

MathFusion通过三种“融合策略”,将不同的数学问题巧妙地结合起来,生成封装了二者关系和结构的新问题。



  • 顺序融合(Sequential Fusion)
  • 将两个问题串联起来,前一个问题的答案作为后一个问题的某个输入条件。这就像解决一个多步骤问题,模型需要先解出第一步,才能进行第二步,从而学会处理问题间的依赖关系。
  • 并列融合(Parallel Fusion)
  • 将两个相似的问题融合在一起,对它们的数学概念进行识别和融合,在原来问题的基础上提出一道新的问题。
  • 条件融合(Conditional Fusion)
  • 创造一个需要对两个问题的解进行比较和选择的问题场景。

首先从现有数据集(GSM8K、MATH)中识别出适合融合的问题对(主要通过embedding search),然后应用融合策略生成新问题,并利用GPT-4o-mini来生成解答。通过这三种策略,生成了一个全新的融合数据集MathFusionQA。

融合实例:不同策略的融合结果

为了更直观地理解这三种融合策略,来看一个具体的例子:

原始问题

  • 问题A:一天内,一艘船在湖中航行4次,每次最多可载12人。请问在2天内,这艘船可以运送多少人?
  • 问题B:学校组织去博物馆。他们租了4辆巴士来接送孩子和老师。第二辆巴士的人数是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。如果第一辆巴士上有12人,请问总共有多少人去了博物馆?

顺序融合

学校组织一次去博物馆的旅行,需要运送学生和老师。首先,请计算一艘船在2天内的载客量,这艘船每天航行4次,每次最多可载12人。然后,将这个总载客量作为第一辆巴士的人数。已知第二辆巴士的人数是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。请问总共有多少人去了博物馆?

并列融合

一所学校组织一次到博物馆的实地考察,并租用了4辆巴士和一艘船6。这艘船一天航行2次,每次载客12人。每辆巴士的人数不同:第一辆巴士有12人,…,第四辆比第一辆多9人。请计算在2天内,船和所有巴士总共可以运送多少人?

条件融合

一个社区正在组织两种不同的郊游活动。对于湖上游览,一艘船每天运营4次,载客量为12人,他们计划让这艘船服务2天。与此同时,一所学校正在安排一次有4辆巴士的博物馆之旅11。第一辆巴士有12人,第二辆是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。考虑到这些安排,哪种交通方式的载客能力更强?

实验结果:有效捕捉问题间深层联系

在MathFusionQA的基础上,使用三种融合策略——顺序、并行和条件——对模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)进行微调。实验得到以下发现:



显著提升模型性能与效率:与标准训练方法(只在GSM8K和MATH上训练)相比,MathFusion在多个base模型(包括DeepSeekMath-7B、Llama3-8B、Mistral-7B)上都取得了稳定的性能提升。并且,MathFusion在大幅提升性能的同时,保持了极高的数据效率,用远少于其他方法的数据量就达到了良好的效果。

策略之间优势互补:将顺序融合、条件融合和并行融合三种策略结合使用,组合融合策略始终优于每种单一融合策略。另外,基础模型性能越弱,组合融合策略带来的提升就越大。在所有基准测试中,组合融合策略在DeepSeekMath-7B上平均提升了3.1分,在Llama3-8B上提升了4.9分,在Mistral-7B上提升了7.5分。

强大的泛化与扩展能力:MathFusion不仅在in-domain测试中表现优异,在更具挑战性的out-of-domain基准测试中同样超越了标准模型。





对MathFusion做进一步的分析,有以下几点发现:

  • 融合之后的问题的指令遵循难度(IFD)更高,说明融合之后的问题对于模型来说更加困难。
  • 随着融合数据量的增加,MathFusion模型的性能呈现出近似对数形式的增长。
  • 当把MathFusionQA数据集与DART-Math数据集结合使用时,模型的性能可以得到进一步的提升,甚至超过了单独使用任何一个数据集时的表现。这表明MathFusion的“问题融合”思路与DART-Math的“挖掘难题”思路是互补的。
  • 通过t-SNE可视化分析,发现MathFusion得到的问题在特征空间中的分布比原始问题更均匀和广泛。
  • 通过对teacher model的消融分析,证明了MathFusion带来的提升源自于问题融合本身,而非teacher model的好坏。

总的来说,通过生成结构更多样、逻辑更复杂的合成问题,MathFusion有效地增强了模型捕捉问题间深层联系的能力。

但目前MathFusion还只在GSM8K、MATH这种比较简单的数学问题,以及short cot solution的数据集上进行了验证,有待进一步扩展到更难的数学问题、long cot solution以及其他领域的数据上。

论文链接: https://arxiv.org/abs/2503.16212
代码库:https://github.com/QizhiPei/MathFusion

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林北亏麻了!荒野求生14人全部进决赛,喝鸡汤住别墅,每人2万元

林北亏麻了!荒野求生14人全部进决赛,喝鸡汤住别墅,每人2万元

甜柠聊史
2025-11-18 20:02:08
从被骗2000元到年入1400亿!浙江父子靠“一勺盐”,搏出千亿明天

从被骗2000元到年入1400亿!浙江父子靠“一勺盐”,搏出千亿明天

白浅娱乐聊
2025-11-19 00:33:42
双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

蜉蝣说
2025-11-19 08:15:05
“国际模特大赛”15号模特广东冠军,因突破大众对模特的认知引发争议,主办方回应:赛事拉了多个赞助,具体由负责人解释

“国际模特大赛”15号模特广东冠军,因突破大众对模特的认知引发争议,主办方回应:赛事拉了多个赞助,具体由负责人解释

扬子晚报
2025-11-19 10:26:20
越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

火山诗话
2025-11-18 06:39:29
突发,美国多个网站崩了!

突发,美国多个网站崩了!

每日经济新闻
2025-11-19 00:42:30
几个男人能做到?28岁樊振东不慎双膝跪地 仅靠核心力量原地弹起

几个男人能做到?28岁樊振东不慎双膝跪地 仅靠核心力量原地弹起

风过乡
2025-11-19 10:23:11
遭中国严厉警告后,日本到G7“告状”,马克龙:请中国加入G7!

遭中国严厉警告后,日本到G7“告状”,马克龙:请中国加入G7!

流史岁月
2025-11-18 13:59:36
自作自受!日本允许国籍栏填“台湾”,堵上了唯一向中国求救的路

自作自受!日本允许国籍栏填“台湾”,堵上了唯一向中国求救的路

科普100克克
2025-10-05 10:23:37
换车,就是一个巨大的消费陷阱。

换车,就是一个巨大的消费陷阱。

爱吃糖的猫cat
2025-11-16 18:14:27
选美冠军杀疯了!360度无死角美貌+超模身材,这配置让同行都破防

选美冠军杀疯了!360度无死角美貌+超模身材,这配置让同行都破防

动物奇奇怪怪
2025-11-10 06:23:02
最高15%!黄金大消息!这一国计划征税

最高15%!黄金大消息!这一国计划征税

极目新闻
2025-11-19 08:32:11
最高院:判决不服、法官违法、执行有问题的都可以申请检察监督!

最高院:判决不服、法官违法、执行有问题的都可以申请检察监督!

周军律师聊案子
2025-11-19 08:47:16
陈震:特斯拉车机即将引入Carplay,只有车机不好的才会依赖!

陈震:特斯拉车机即将引入Carplay,只有车机不好的才会依赖!

夜深爱杂谈
2025-11-18 20:26:25
中日一旦爆发战争,开打后2~3小时对日本很关键,或产生三大后果

中日一旦爆发战争,开打后2~3小时对日本很关键,或产生三大后果

文雅笔墨
2025-11-19 09:57:15
罗志祥疑似内涵极限男人帮,自称位列“被黑最惨艺人排行榜”前三

罗志祥疑似内涵极限男人帮,自称位列“被黑最惨艺人排行榜”前三

文娱没有圈
2025-11-19 10:15:19
上世纪50年代,到底杀了多少地主恶霸?公布的数据,让人不敢相信

上世纪50年代,到底杀了多少地主恶霸?公布的数据,让人不敢相信

文史道
2025-11-15 06:45:03
日本网民把军国主义鬼魂画成奥特曼,中国网友乐了:想吃核弹了?

日本网民把军国主义鬼魂画成奥特曼,中国网友乐了:想吃核弹了?

阿龙聊军事
2025-11-18 11:47:45
美女美图7239期

美女美图7239期

情感大头说说
2025-11-18 01:04:25
一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

蔡蔡说史
2025-11-15 05:12:34
2025-11-19 12:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
11702文章数 176334关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

本地
家居
亲子
健康
公开课

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

家居要闻

水岸美学 书香人文生活

亲子要闻

科普|别再瞎补了!如何科学提升宝宝免疫力

警惕超声报告这六大"坑"

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版