网易首页 > 网易号 > 正文 申请入驻

阿里发布新推理模型4B,独特序列蒸馏技术提升长链推理能力!

0
分享至

智猩猩AI整理

编辑: 发发

长思维链(Long CoT)推理是大模型解决复杂任务的核心能力,但传统蒸馏方法存在三大痛点:教师分布覆盖不足、师生分布错位、训练-推理暴露偏差。这些问题导致小模型难以继承大模型的泛化能力,往往需要海量训练数据或巨大参数量。

为此,阿里巴巴团队提出分布对齐序列蒸馏(DASD)新范式,成功打造出轻量级推理模型DASD-4B-Thinking,并且通过温度调度学习、差异感知采样和混合策略蒸馏三大创新,系统解决了序列蒸馏的核心问题,仅用448K样本实现"小模型+少数据"的极致效率。在数学推理、代码生成和科学问答三大核心任务上均达到SOTA性能,不仅超越所有同规模模型,更直接碾压多个32B级大模型。目前该研究的模型权重和训练数据集已全量开源。



  • 论文标题:

    Distribution-Aligned Sequence Distillation forSuperior Long-CoT Reasoning

  • 论文链接:

    https://arxiv.org/pdf/2601.09088v1

  • 开源代码:

    https://github.com/D2I-ai/dasd-thinking

01 方法

(1)温度调度学习



图1:不同温度下gpt - oss - 120b采样数据的概率分布和训练损失对比

传统方法随机采样响应数据,仅覆盖教师序列级分布的一小部分模式。DASD采用一种两阶段温度调度学习策略

  • 低温阶段(T=0.6):从教师模型(gpt-oss-120b)生成回答。这会产生高置信度、模式集中的输出,有助于学生模型(Qwen3-4B)在训练早期稳定学习。

  • 高温阶段(T=1.0):扩大采样温度覆盖更多教师模式,增加数据多样性,捕获稀有推理模式。

该课程学习式调度先易后难,低温样本快速建立基础,高温样本拓宽分布覆盖,兼顾了早期训练的稳定性与后期知识覆盖的广度。

(2)差异感知采样


图2:三种模型预测概率的联合比较

传统SFT会放大概率差异产生误导梯度。DASD提出一种系统性的分布分解框架,识别四种句子类型:

  • 教师句子:教师高置信度而学生低概率的句子。

  • 学生句子:学生高概率而教师低概率的句子。

  • 共享句子:师生概率相近且蒸馏后不变的句子。

  • 增强句子:蒸馏后概率显著提升的句子。

图3:研究团队内部训练的模型(左二个面板)和开源的DeepSeek -蒸馏- Qwen3 - 8B - (右两个面板)在四种句子类型上的位置分布

研究发现,“教师高置信、学生低概率”的句子与最终答案正确性高度正相关。因此,在数据采样阶段即优先选择此类样本,这种分歧感知采样(DAS)自然缓解了误导性梯度问题。

(3)混合策略蒸馏


图4:不同token长度下截止响应之间的比值

为缓解曝光偏差,研究团队在离策略SFT训练后,引入了一个轻量级的混合策略蒸馏阶段

  • 用训练好的学生模型重新生成训练查询的响应。

  • 识别与教师输出差异大的实例,如截断响应。

  • 随机截断学生生成内容,让教师续写完成。

  • 仅保留通过质量筛选的教师续写部分用于微调。

这一构造性方法,通过结合学生策略与教师修正,有效提升了模型在真实自回归场景下的鲁棒性。

(4)DASD整体训练流程


图5:DASD - 4B - Thinking整体训练流程

该流程首先进行低/高温度采样,并全程应用分歧感知采样(DAS)来筛选数据。在两阶段SFT后,再通过混合策略蒸馏进行微调。

02 评估

(1)核心基准测试

表1:DASD - 4B - Thinking整体训练流程


如表1所示,在AIME24/25、LiveCodeBench (v5/v6)和GPQA-Diamond五大权威基准上,DASD-4B-Thinking表现卓越,在多个任务上实现SOTA性能

  • 数学推理:在AIME24(88.5分)和AIME25(83.3分)上,DASD-4B-Thinking不仅超越所有同规模模型,还显著超越了Qwen3-32B(81.4/72.9)和GLM-Z1-32B(80.8/63.6)等32B级大模型。

  • 代码生成:在LiveCodeBench v5(69.3分)上超越DeepSeek-R1-0528-Qwen3-8B(60.5分)和Qwen3-14B(63.5分);在v6(67.5分)上显著优于Qwen3-4B-Thinking-2507(55.2分)。

  • 科学推理:GPQA Diamond得分68.4分,与Qwen3-32B持平,远超同规模模型。

(2)消融实验

表2:训练阶段消融实验


从 Qwen3-4B-Instruct-2507 基线开始,可以观察到三个阶段的性能持续提升:

  • 低温训练带来了显著的初始增益,AIME25从47.4%提升至74.0%(+26.6%)。这证实了早期训练中稳定、低方差的梯度信号对于建立坚实的推理基础至关重要。

  • 高温训练进一步提升了关键基准测试集的性能,LiveCodeBench v5提升11.8%。这表明,在建立稳定基线后,高温下的多样化探索能有效扩大策略的解决方案覆盖范围。

  • 混合策略蒸馏收尾,各基准再获0.3%-0.9%增益,证明了混合策略蒸馏在以最小训练开销解决暴露偏差问题方面的有效性。

(3)跨架构适配

表3:MoE模型性能对比


将DASD框架扩展至MoE模型DASD-30B-A3B-Thinking-Preview,直接复用4B模型的训练数据集,展现出色架构适应性:

  • 相比Qwen3-30B-A3B,在AIME25提升1.7%,在LiveCodeBench v6提升6.8%。

  • 仅用105K样本,性能超越NVIDIA 18M样本训练的Nemotron-3-Nano-30B-A3B。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵子豪发文告别国乒:离开不是结束,是属于下一个人生阶段的开始

赵子豪发文告别国乒:离开不是结束,是属于下一个人生阶段的开始

画夕
2026-01-23 14:04:15
意甲副班长掀桌子不过了 把主力前锋2000万欧卖给争冠球队 等降级

意甲副班长掀桌子不过了 把主力前锋2000万欧卖给争冠球队 等降级

智道足球
2026-01-23 12:45:39
你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

带你感受人间冷暖
2026-01-21 00:15:05
末节崩盘!库里空砍38+4!弗拉格狂轰21+11+2,追梦犯病葬送勇士

末节崩盘!库里空砍38+4!弗拉格狂轰21+11+2,追梦犯病葬送勇士

Tracy的篮球博物馆
2026-01-23 11:21:22
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
越南政坛新布局:十四届一中全会召开,谁将引领未来五年?

越南政坛新布局:十四届一中全会召开,谁将引领未来五年?

缅甸中文网
2026-01-23 14:48:07
女子违停竖中指被撞,交警最新回应来了!责任划分引全网热议

女子违停竖中指被撞,交警最新回应来了!责任划分引全网热议

天天热点见闻
2026-01-23 12:57:06
银行最怕的不是你欠钱不还,最怕的是你突然知道这7件事!

银行最怕的不是你欠钱不还,最怕的是你突然知道这7件事!

流苏晚晴
2026-01-22 18:29:58
407米!深圳在建第一高楼封顶,“罗湖之冠”正式加冕

407米!深圳在建第一高楼封顶,“罗湖之冠”正式加冕

GA环球建筑
2026-01-22 21:55:01
高中,你不知道的几个潜规则:中等生就是默认被放弃的群体!

高中,你不知道的几个潜规则:中等生就是默认被放弃的群体!

好爸育儿
2026-01-22 22:13:24
善恶终有报!靠星光大道成名的“盲人”杨光,终要为自己荒唐买单

善恶终有报!靠星光大道成名的“盲人”杨光,终要为自己荒唐买单

小熊侃史
2026-01-23 11:01:14
快船近17战14胜!哈登:很清楚自己的位置 赢下这些比赛很有趣

快船近17战14胜!哈登:很清楚自己的位置 赢下这些比赛很有趣

Emily说个球
2026-01-23 13:49:30
维多利亚跳舞内幕公开:当众冷落羞辱儿媳妇,妮可拉哭着离场

维多利亚跳舞内幕公开:当众冷落羞辱儿媳妇,妮可拉哭着离场

素素娱乐
2026-01-23 09:35:43
金昊,维持死刑!

金昊,维持死刑!

中国新闻周刊
2026-01-22 17:30:08
一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

不写散文诗
2026-01-22 19:38:59
央视直播:王欣瑜澳网16强战,胜获228万+2大纪录

央视直播:王欣瑜澳网16强战,胜获228万+2大纪录

阿謯体育
2026-01-23 13:03:25
将帅失和?维拉爆发激烈内讧:埃梅里推搡并怒吼中场大将

将帅失和?维拉爆发激烈内讧:埃梅里推搡并怒吼中场大将

球事百科吖
2026-01-23 09:23:48
茅台包装被网友揪出错字,就少一撇,大事还是小事?

茅台包装被网友揪出错字,就少一撇,大事还是小事?

正经社
2026-01-22 16:00:34
“老年斑”的罪魁祸首被发现,45岁后尽量少去碰,老了也能不长斑

“老年斑”的罪魁祸首被发现,45岁后尽量少去碰,老了也能不长斑

垚垚分享健康
2026-01-23 09:48:38
美军连夜撤离,把台湾扔给解放军!055带刀侍卫杀到,北京:收网

美军连夜撤离,把台湾扔给解放军!055带刀侍卫杀到,北京:收网

素衣读史
2026-01-22 19:13:20
2026-01-23 18:24:49
娱乐督察中
娱乐督察中
独乐乐不如众乐乐
165文章数 20506关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

21岁女孩确诊白血病后急寻亲生父母:已签病危通知书

头条要闻

21岁女孩确诊白血病后急寻亲生父母:已签病危通知书

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

房产
本地
数码
手机
公开课

房产要闻

正式官宣!三亚又一所名校要来了!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

数码要闻

荣耀工程师揭秘Magic8 Pro Air如何实现轻薄旗舰:做了108处的毫米级精雕

手机要闻

小米REDMI Turbo 5 Max手机“下周见”,全球首发天玑9500s

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版