网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

贾佳亚团队新作：10k数据让大模型数学能力超GPT-4

2024-07-05 17:22:05　来源: 量子位

北京举报

0

分享至

港中文贾佳亚团队投稿
量子位 | 公众号 QbitAI

只要10k数据，就能让大模型的数学成绩增长5.6%。

港中文贾佳亚团队推出了基于推理步骤的大模型优化策略，能够像老师教学生一样优化大模型。

利用这种方法，72B Qwen模型的数学成绩超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一众闭源模型。

老师在纠正学生错误时，不会只告诉学生最终答案错了，还会告知具体哪个步骤错了，以此快速纠正其错误。

贾佳亚团队正是学习了这一特点，将斯坦福团队推出的DPO（直接偏好优化）进一步细化，形成了逐步应用的策略Step-DPO。

该方法让Qwen-72B模型在多个数据集上进步明显，同时也获得了更强的长链条推理任务能力。

像教育学生一样训练大模型

如何强化推理能力，一直是大语言模型领域的重要问题之一。

常见的思维链策略通过在输入提示词部分添加“Let’s think step by step.”，来使模型在输出中完成逐步推理，但对于复杂的问题，仅通过修改提示词不足以引导模型正确解决问题。

由于复杂问题涉及的推理过程较长，有时包含数十个推理步骤，一旦其中任一步骤出错，就难以得到正确的结果。

此外，现有方案旨在通过监督式微调（SFT）阶段增加问答数据以实现更好的对齐。

然而，当SFT数据达到一定数量时，模型经常出现幻觉，性能也随之趋于饱和。

一个潜在的原因是，随着偏好输出的概率上升，非偏好输出的概率也会随之增加。

为了抑制幻觉，提升模型的事实性，斯坦福大学提出了直接偏好优化方法，其工作原理是创建基于人类偏好对的数据集，每个偏好对都包含一个输入提示、偏好输出以及非偏好输出。

然后对语言模型直接进行微调，最大限度地提高生成的可能性，并减少输出的可能性。

因此，DPO的优化目标为：

其中π_θ与π_ref分别表示当前微调模型以及参照模型。

但在长链条推理任务中，DPO无法准确判断推理过程中的错误步骤，从而无法聚焦关键出错步骤。

如下图所示，基于DPO的模型在训练过程中无法准确判断推理步骤正确与否。

因此，作者提出了基于推理步骤的直接偏好优化——Step-DPO。

就像老师在纠正学生错误时，不会只告诉学生最终答案错了，还会告知具体哪个步骤错了，以此快速纠正其错误。

与此类似，Step-DPO不再像DPO从整体上对比答案，而是将每个推理步骤视为一个基本单元，并且对比单个推理步骤，从更精细的角度提升模型的多步推理分析能力。

Step-DPO的优化目标为：

除此之外，作者还提出基于模型自生成的数据处理流程。如图所示，该流程包含以下三个步骤：

第一步是错误收集。

首先，给定一组数学问题D_0=(x,y^)，其中x是数学问题，y^是其真实答案。

然后，使用初始模型πref来得到每个数学问题x的答案。

在进行模型推理之前，需要添加思维链（CoT）前缀作为提示，以确保模型的推理结果被结构化为多个推理步骤，每个步骤均以“Step i：”开始。

经过模型推理可得到每个数学问题x的推理结果y，然后选择与真实答案y^不一致的那些结果，并汇总得到数据集D_1：

第二步是错误步骤定位。

每个错误推理结果y都呈现为一系列推理步骤的序列y=s_1,s_2,…,s_n，随后需要人工或利用GPT-4验证每个推理步骤的正确性，直到找到第一个错误步骤s_k，并记录其步骤编号。

然后将sk选为错误的推理步骤s_lose，从而得到D2：

最后是错误步骤修正。

为了获得D2中每个样本对应的正确推理步骤，需要对模型π_ref进行推断，使用提示x和前面的正确推理步骤s_1~k-1来采样多个输出y_cont，此过程可以表示为：

随后保留ycont中那些与真实答案一致的输出，并将其中的第一个推理步骤作为s_win，最终得到数据集D：

下图展示了一个数据样本示例。值得一提的是，该数据准备流程无需大量的人工介入，人类或GPT-4只需要判断给定推理步骤是否正确，而无需亲自撰写答案来修正错误。

10k数据带来数学能力大幅提升

Step-DPO可以在SFT模型或现有的开源Instruct模型上进行微调，仅通过10K数据以及数百个训练步数，即可取得大幅度的数学能力提升。

如下图所示，在Qwen2-7B-Instruct模型的基础上进行Step-DPO可在MATH测试集上获得5.6%准确率的提升。

在Qwen2-72B-Instruct模型的基础上进行Step-DPO，可在MATH和GSM8K测试集的准确率分别达到70.8%和94.0%，超过一系列闭源模型如Gemini-1.5-Pro、GPT-4-1106，以及Claude-3-Opus。

除此之外，在难度较高的包含数学竞赛题的Odyssey-MATH榜单上也有显著提升。

经过Step-DPO之后，模型更加鲁棒，减少幻觉的产生，在推理过程中也不容易出错。如以下两个例子所示。

假设h(x)=f-1(x)，如果h(2)=10，h(10)=1，h(1)=2，求f(f(10))。

t的平方根大于2且小于3.5，满足这一条件的整数t有多少个？

即便是下图这道数学竞赛题，经过Step-DPO之后的模型也可以做对。

在所有非增函数f:{1,2,…,10}→{1,2,…,10}中，有些函数有固定点，另一些没有，这两种函数的数量相差多少？

目前，该项目的代码，数据，模型，Demo均已公开至GitHub和Hugging Face，同时支持在线体验。

论文地址：
https://arxiv.org/abs/2406.18629
GitHub：
https://github.com/dvlab-research/Step-DPO
在线Demo：
http://103.170.5.190:7870/
模型（HF）：
https://huggingface.co/collections/xinlai/step-dpo-6682e12dfbbb2917c8161df7
数据（HF）：
https://huggingface.co/datasets/xinlai/Math-Step-DPO-10K

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

任贤齐6首金曲联唱，找回那份久违的感动！

湖南卫视 2026-02-12 01:48:26
676 跟贴 676
五角大楼"三号人物":美将通过实力而非对抗来威慑中国

澎湃新闻 2026-02-16 18:59:44
1643 跟贴 1643

男子驾车返乡途中被猫锁在车外

极目新闻 2026-02-16 08:24:08
2946 跟贴 2946

反向过年新潮流：老外扎堆来中国，单日飞三亚外国游客大增3倍

每日经济新闻 2026-02-15 11:30:33
1672 跟贴 1672
蔡磊近照曝光，一家三口送新年祝福！曾称科研实现多维突破

南方都市报 2026-02-16 21:41:43
21 跟贴 21

福建舰全体官兵祝全国人民新春快乐，福安体健

新华社 2026-02-16 12:48:45
78 跟贴 78

动作频频！王思聪进军餐饮业，旗下新公司与雾餐饮成立

红星资本局 2026-02-16 15:06:09
266 跟贴 266
樊振东出战德甲，全队身穿红色唐装亮相，樊振东首盘3-1击败对手

环球网资讯 2026-02-16 12:40:25
109 跟贴 109

10万现金被娃当垃圾扔，深圳一物业连夜翻13吨垃圾找回

南方都市报 2026-02-16 16:51:08
61 跟贴 61
视频丨空间站的年夜饭都有什么？听航天员报菜名收祝福

环球网资讯 2026-02-16 16:21:02
45 跟贴 45
多地金融监管局迎来“85后”副局长

澎湃新闻 2026-02-16 08:14:26
206 跟贴 206
宝马独立子品牌发布全新车标：不是蓝天白云标

中国能源网 2026-02-16 10:26:10
58 跟贴 58
高手！不经意显露的手上真功夫，女子稳坐街头炫硬核刀法

北青网-北京青年报 2026-02-16 12:41:36
208 跟贴 208
中国队无缘男子5000米接力A组决赛

中国日报网 2026-02-16 21:03:03
28 跟贴 28
王菲接班李谷一！今年春晚的“洗衣凝珠”耳环火了，网友求同款，和去年的“虾片”是同一个品牌

极目新闻 2026-02-16 23:21:22
0 跟贴 0
从杭州借道俄罗斯回东北的女孩已抵达黑河家中：耗时5天4夜，比国内直飞节约500多元，还玩了两个俄罗斯城市

极目新闻 2026-02-16 20:11:03
0 跟贴 0

除夕夜官宣：苹果春季发布会3月4日在中国上海举行！

除夕夜官宣：苹果春季发布会3月4日在中国上海举行！

PChome电脑之家

2026-02-16 22:30:43

赢了官司却亏到吐血！嫣然医院搬家，房东成年度最大笑话！

赢了官司却亏到吐血！嫣然医院搬家，房东成年度最大笑话！

达文西看世界

2026-01-20 13:35:51

订婚时新郎长相普通，新娘颜值爆表却望着他移不开眼：生理性喜欢

订婚时新郎长相普通，新娘颜值爆表却望着他移不开眼：生理性喜欢

梅子的小情绪

2026-01-16 21:09:56

揪心！谷爱凌脑出血休克，癫痫发作濒死边缘，母亲泪崩曝细节

揪心！谷爱凌脑出血休克，癫痫发作濒死边缘，母亲泪崩曝细节

古事寻踪记

2026-02-06 07:13:45

7年败光2个亿，邹市明冉莹颖共同发文，终究还是踏出了这一步

7年败光2个亿，邹市明冉莹颖共同发文，终究还是踏出了这一步

林轻吟

2026-02-11 11:29:40

火上人民日报！重庆高速一货车载一辆自行车，网友：最温柔的年货

火上人民日报！重庆高速一货车载一辆自行车，网友：最温柔的年货

火山詩话

2026-02-16 17:42:02

被打脸！除夕，《匿杀》等票房要哭，《镖人》等预售破5亿！

被打脸！除夕，《匿杀》等票房要哭，《镖人》等预售破5亿！

星夜涟漪

2026-02-17 02:13:30

撒贝宁的眉毛再上热搜，“依旧像蜡笔小新”；尼格买提：他这叫寿眉，不要欺负老人家

撒贝宁的眉毛再上热搜，“依旧像蜡笔小新”；尼格买提：他这叫寿眉，不要欺负老人家

大象新闻

2026-02-16 22:43:04

程潇：这姐一直都是，汹涌澎湃的

程潇：这姐一直都是，汹涌澎湃的

手工制作阿歼

2026-02-06 11:10:47

怪不得解放军不拦，国民党发现不对劲，美国售台坦克果然有问题！

怪不得解放军不拦，国民党发现不对劲，美国售台坦克果然有问题！

一簌月光

2026-02-16 13:06:51

女孩从陕西嫁到重庆，过年本来准备带宝宝回老家看父母，结果母亲让她不要回去了。

女孩从陕西嫁到重庆，过年本来准备带宝宝回老家看父母，结果母亲让她不要回去了。

张晓磊

2026-02-15 11:11:05

中国向全世界披露：美国4400颗卫星，包围中国空间站，这是要做啥

中国向全世界披露：美国4400颗卫星，包围中国空间站，这是要做啥

素衣读史

2026-01-17 18:35:57

山东人是对父母最不好的省份，山东人认可吗？

山东人是对父母最不好的省份，山东人认可吗？

王姐懒人家常菜

2026-02-16 21:16:35

军统谷正文晚年回忆：所有被捕的人中，只有张志忠算得上硬汉

军统谷正文晚年回忆：所有被捕的人中，只有张志忠算得上硬汉

朝子亥

2026-02-15 15:50:03

穆帅：当年为皇马倾尽所有；我说明白，合同条款和皇马无关

穆帅：当年为皇马倾尽所有；我说明白，合同条款和皇马无关

顺静自然

2026-02-17 06:07:57

朱之文女儿大婚仅1天，男方被扒底朝天，500万陪嫁传闻是冰山一角

朱之文女儿大婚仅1天，男方被扒底朝天，500万陪嫁传闻是冰山一角

寒士之言本尊

2026-02-15 11:07:01

他都退休了，因战略眼光出众，又被军委召回担任要职，获上将军衔

他都退休了，因战略眼光出众，又被军委召回担任要职，获上将军衔

云霄纪史观

2025-12-23 01:40:09

确认是假货！涉及多个大牌，网友：天塌了，我说怎么那么便宜？

确认是假货！涉及多个大牌，网友：天塌了，我说怎么那么便宜？

浙江之声

2026-02-13 13:11:59

工龄40年，江苏60岁教师的养老金真是不错！

工龄40年，江苏60岁教师的养老金真是不错！

乐天果果

2026-02-16 17:32:07

湖南女外卖员戴燕执行死刑，被押火葬场，结束罪恶一生

湖南女外卖员戴燕执行死刑，被押火葬场，结束罪恶一生

徐侠客有话说

2025-07-18 15:21:44

追踪人工智能动态

12173文章数 176385关注度

往期回顾全部

科技要闻

阿里除夕发布千问3.5，性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉中使馆驳斥

头条要闻

日方宣称向中方提出交涉中使馆驳斥

体育要闻

短道男子接力半决赛失误后刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱水滴钻石耳环再出圈

财经要闻

2025，中国商业十大意外，黄金只排第九

汽车要闻

叫停纯屏操作工信部拟推车内实体操作件强制国标

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

旅游

亲子

健康

艺术

房产要闻

三亚新机场，又传出新消息！

旅游要闻

巨型“彩马”驰骋上海夜空上千架无人机浪漫烟花交相辉映

亲子要闻

小孩收到压岁钱，该怎么办？枕头底下垫红包

转头就晕的耳石症，能开车上班吗？

艺术要闻

名家笔下话过年，别有风味！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版