网易首页 > 网易号 > 正文 申请入驻

贾佳亚团队新作:10k数据让大模型数学能力超GPT-4

0
分享至

港中文贾佳亚团队 投稿
量子位 | 公众号 QbitAI

只要10k数据,就能让大模型的数学成绩增长5.6%。

港中文贾佳亚团队推出了基于推理步骤的大模型优化策略,能够像老师教学生一样优化大模型。

利用这种方法,72B Qwen模型的数学成绩超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一众闭源模型。

老师在纠正学生错误时,不会只告诉学生最终答案错了,还会告知具体哪个步骤错了,以此快速纠正其错误。

贾佳亚团队正是学习了这一特点,将斯坦福团队推出的DPO(直接偏好优化)进一步细化,形成了逐步应用的策略Step-DPO

该方法让Qwen-72B模型在多个数据集上进步明显,同时也获得了更强的长链条推理任务能力。

像教育学生一样训练大模型

如何强化推理能力,一直是大语言模型领域的重要问题之一。

常见的思维链策略通过在输入提示词部分添加“Let’s think step by step.”,来使模型在输出中完成逐步推理,但对于复杂的问题,仅通过修改提示词不足以引导模型正确解决问题。

由于复杂问题涉及的推理过程较长,有时包含数十个推理步骤,一旦其中任一步骤出错,就难以得到正确的结果。

此外,现有方案旨在通过监督式微调(SFT)阶段增加问答数据以实现更好的对齐。

然而,当SFT数据达到一定数量时,模型经常出现幻觉,性能也随之趋于饱和。

一个潜在的原因是,随着偏好输出的概率上升,非偏好输出的概率也会随之增加。

为了抑制幻觉,提升模型的事实性,斯坦福大学提出了直接偏好优化方法,其工作原理是创建基于人类偏好对的数据集,每个偏好对都包含一个输入提示、偏好输出以及非偏好输出。

然后对语言模型直接进行微调,最大限度地提高生成的可能性,并减少输出的可能性。

因此,DPO的优化目标为:

其中π_θ与π_ref分别表示当前微调模型以及参照模型。

但在长链条推理任务中,DPO无法准确判断推理过程中的错误步骤,从而无法聚焦关键出错步骤。

如下图所示,基于DPO的模型在训练过程中无法准确判断推理步骤正确与否。

因此,作者提出了基于推理步骤的直接偏好优化——Step-DPO

就像老师在纠正学生错误时,不会只告诉学生最终答案错了,还会告知具体哪个步骤错了,以此快速纠正其错误。

与此类似,Step-DPO不再像DPO从整体上对比答案,而是将每个推理步骤视为一个基本单元,并且对比单个推理步骤,从更精细的角度提升模型的多步推理分析能力。

Step-DPO的优化目标为:

除此之外,作者还提出基于模型自生成的数据处理流程。如图所示,该流程包含以下三个步骤:

第一步是错误收集

首先,给定一组数学问题D_0=(x,y^),其中x是数学问题,y^是其真实答案。

然后,使用初始模型πref来得到每个数学问题x的答案。

在进行模型推理之前,需要添加思维链(CoT)前缀作为提示,以确保模型的推理结果被结构化为多个推理步骤,每个步骤均以“Step i:”开始。

经过模型推理可得到每个数学问题x的推理结果y,然后选择与真实答案y^不一致的那些结果,并汇总得到数据集D_1:

第二步是错误步骤定位

每个错误推理结果y都呈现为一系列推理步骤的序列y=s_1,s_2,…,s_n,随后需要人工或利用GPT-4验证每个推理步骤的正确性,直到找到第一个错误步骤s_k,并记录其步骤编号。

然后将sk选为错误的推理步骤s_lose,从而得到D2:

最后是错误步骤修正

为了获得D2中每个样本对应的正确推理步骤,需要对模型π_ref进行推断,使用提示x和前面的正确推理步骤s_1~k-1来采样多个输出y_cont,此过程可以表示为:

随后保留ycont中那些与真实答案一致的输出,并将其中的第一个推理步骤作为s_win,最终得到数据集D:

下图展示了一个数据样本示例。值得一提的是,该数据准备流程无需大量的人工介入,人类或GPT-4只需要判断给定推理步骤是否正确,而无需亲自撰写答案来修正错误。

10k数据带来数学能力大幅提升

Step-DPO可以在SFT模型或现有的开源Instruct模型上进行微调,仅通过10K数据以及数百个训练步数,即可取得大幅度的数学能力提升。

如下图所示,在Qwen2-7B-Instruct模型的基础上进行Step-DPO可在MATH测试集上获得5.6%准确率的提升

在Qwen2-72B-Instruct模型的基础上进行Step-DPO,可在MATH和GSM8K测试集的准确率分别达到70.8%和94.0%,超过一系列闭源模型如Gemini-1.5-Pro、GPT-4-1106,以及Claude-3-Opus。

除此之外,在难度较高的包含数学竞赛题的Odyssey-MATH榜单上也有显著提升。

经过Step-DPO之后,模型更加鲁棒,减少幻觉的产生,在推理过程中也不容易出错。如以下两个例子所示。

假设h(x)=f-1(x),如果h(2)=10,h(10)=1,h(1)=2,求f(f(10))。

t的平方根大于2且小于3.5,满足这一条件的整数t有多少个?

即便是下图这道数学竞赛题,经过Step-DPO之后的模型也可以做对。

在所有非增函数f:{1,2,…,10}→{1,2,…,10}中,有些函数有固定点,另一些没有,这两种函数的数量相差多少?

目前,该项目的代码,数据,模型,Demo均已公开至GitHub和Hugging Face,同时支持在线体验。

论文地址:
https://arxiv.org/abs/2406.18629
GitHub:
https://github.com/dvlab-research/Step-DPO
在线Demo:
http://103.170.5.190:7870/
模型(HF):
https://huggingface.co/collections/xinlai/step-dpo-6682e12dfbbb2917c8161df7
数据(HF):
https://huggingface.co/datasets/xinlai/Math-Step-DPO-10K

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
除夕夜官宣:苹果春季发布会3月4日在中国上海举行!

除夕夜官宣:苹果春季发布会3月4日在中国上海举行!

PChome电脑之家
2026-02-16 22:30:43
赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

达文西看世界
2026-01-20 13:35:51
订婚时新郎长相普通,新娘颜值爆表却望着他移不开眼:生理性喜欢

订婚时新郎长相普通,新娘颜值爆表却望着他移不开眼:生理性喜欢

梅子的小情绪
2026-01-16 21:09:56
揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

古事寻踪记
2026-02-06 07:13:45
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
火上人民日报!重庆高速一货车载一辆自行车,网友:最温柔的年货

火上人民日报!重庆高速一货车载一辆自行车,网友:最温柔的年货

火山詩话
2026-02-16 17:42:02
被打脸!除夕,《匿杀》等票房要哭,《镖人》等预售破5亿!

被打脸!除夕,《匿杀》等票房要哭,《镖人》等预售破5亿!

星夜涟漪
2026-02-17 02:13:30
撒贝宁的眉毛再上热搜,“依旧像蜡笔小新”;尼格买提:他这叫寿眉,不要欺负老人家

撒贝宁的眉毛再上热搜,“依旧像蜡笔小新”;尼格买提:他这叫寿眉,不要欺负老人家

大象新闻
2026-02-16 22:43:04
程潇:这姐一直都是,汹涌澎湃的

程潇:这姐一直都是,汹涌澎湃的

手工制作阿歼
2026-02-06 11:10:47
怪不得解放军不拦,国民党发现不对劲,美国售台坦克果然有问题!

怪不得解放军不拦,国民党发现不对劲,美国售台坦克果然有问题!

一簌月光
2026-02-16 13:06:51
女孩从陕西嫁到重庆,过年本来准备带宝宝回老家看父母,结果母亲让她不要回去了。

女孩从陕西嫁到重庆,过年本来准备带宝宝回老家看父母,结果母亲让她不要回去了。

张晓磊
2026-02-15 11:11:05
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
山东人是对父母最不好的省份,山东人认可吗?

山东人是对父母最不好的省份,山东人认可吗?

王姐懒人家常菜
2026-02-16 21:16:35
军统谷正文晚年回忆:所有被捕的人中,只有张志忠算得上硬汉

军统谷正文晚年回忆:所有被捕的人中,只有张志忠算得上硬汉

朝子亥
2026-02-15 15:50:03
穆帅:当年为皇马倾尽所有;我说明白,合同条款和皇马无关

穆帅:当年为皇马倾尽所有;我说明白,合同条款和皇马无关

顺静自然
2026-02-17 06:07:57
朱之文女儿大婚仅1天,男方被扒底朝天,500万陪嫁传闻是冰山一角

朱之文女儿大婚仅1天,男方被扒底朝天,500万陪嫁传闻是冰山一角

寒士之言本尊
2026-02-15 11:07:01
他都退休了,因战略眼光出众,又被军委召回担任要职,获上将军衔

他都退休了,因战略眼光出众,又被军委召回担任要职,获上将军衔

云霄纪史观
2025-12-23 01:40:09
确认是假货!涉及多个大牌,网友:天塌了,我说怎么那么便宜?

确认是假货!涉及多个大牌,网友:天塌了,我说怎么那么便宜?

浙江之声
2026-02-13 13:11:59
工龄40年,江苏60岁教师的养老金真是不错!

工龄40年,江苏60岁教师的养老金真是不错!

乐天果果
2026-02-16 17:32:07
湖南女外卖员戴燕执行死刑,被押火葬场,结束罪恶一生

湖南女外卖员戴燕执行死刑,被押火葬场,结束罪恶一生

徐侠客有话说
2025-07-18 15:21:44
2026-02-17 06:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12173文章数 176385关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

房产
旅游
亲子
健康
艺术

房产要闻

三亚新机场,又传出新消息!

旅游要闻

巨型“彩马”驰骋上海夜空 上千架无人机浪漫烟花交相辉映

亲子要闻

小孩收到压岁钱,该怎么办?枕头底下垫红包

转头就晕的耳石症,能开车上班吗?

艺术要闻

名家笔下话过年,别有风味!

无障碍浏览 进入关怀版