网易首页 > 网易号 > 正文 申请入驻

Claude-Opus-4.6 蒸馏 Qwen3.5 V2 来了

0
分享至

大家好,我是Ai学习的老章

Claude-Opus-4.6 蒸馏 Qwen3.5 我一直很关注:


现在 v2 来了,这次的升级重点不是"更准",而是"更快更省"——同样的准确率,思维链缩短了 24%,每个 Token 产出的正确答案多了 31.6%。


部署条件没变,Qwen3.5-27B 4bit 单张 4090 即可本地跑起


v2 到底改了啥?

先看核心数据:

指标

v1

v2

变化

HumanEval pass@1

96.95%

96.91%

基本持平

思维链长度

基准

缩短 ~24%

显著减少

每 Token 正确率

基准

+31.6%

大幅提升

HumanEval+

基准

-1.24%

微降

MMLU-Pro

基准

-7.2%

有所下降

简单说就是:代码能力几乎没掉,但思考效率提升了三成

这意味着什么?同样一道编程题,v2 想的更少、答得更快,但正确率一样。对于跑本地模型的人来说,生成速度本来就是瓶颈,少生成 24% 的 Token 就等于快了 24%——还不用加任何硬件。




怎么做到的?

v2 的训练数据是关键。作者 Jackrong 用了14,000 条 Claude 4.6 Opus 风格的通用推理样本,注意是"通用推理"——数学题、逻辑推理、文字题,不是代码题

这个设计思路很有意思:不针对代码刷分,而是让模型学会一种更高效的"思考脚手架"。结果在 HumanEval(代码测试)上照样拿了 96.91%,说明底层推理能力的提升是可以跨任务迁移的

具体来说,v2 学到的推理模式长这样:

Let me analyze this request carefully:


1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.

对比 v1 的长篇大论式思考,v2 更像一个有经验的工程师——先列大纲再下手,不会在简单问题上反复纠结。这就是 Claude Opus 的推理风格:结构化、有条理、不废话


训练细节

技术栈和 v1 一脉相承:

  • 基座模型:Qwen3.5-27B

  • 训练框架:Unsloth + LoRA SFT

  • 训练方式:Response-Only Training,只对 assistant 的思考部分做监督

  • 数据量:~14,000 条筛选后的高质量推理轨迹

Base Model (Qwen3.5-27B)


Qwen3.5-27B fine-tuned with Unsloth


Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n " )


Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

数据来源包括几个公开的 Claude 4.6 Opus 蒸馏数据集:

数据集

用途

Opus-4.6-Reasoning-3000x-filtered

Claude 4.6 Opus 推理轨迹

claude-opus-4.6-10000x

大规模通用推理迁移

claude-4.5-opus-high-reasoning-250x

高强度结构化推理

Qwen3.5-reasoning-700x

补充多样性推理样本


代价是什么?

说完优点,也得说缺点。

v2 在 **MMLU-Pro 上掉了 7.2%**,也就是通用知识推理能力有所下降。Jackrong也很坦诚地说了,由于 SFT 数据主要是通用推理类,对长上下文理解和复杂多步推理场景可能不如原版 Qwen3.5。

我的理解是:这是一个典型的"专精 vs 通用"的权衡。如果你主要用来写代码、做逻辑推理、解数学题,v2 毫无疑问更好——又快又准。但如果你需要一个什么都能聊的通用模型,原版 Qwen3.5 或者 v1 可能更稳。


怎么跑?

跟之前一样,GGUF 格式直接用 LM Studio、llama.cpp、Ollama 这些工具跑就行。HuggingFace 上提供了多种量化版本:

模型地址:Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF

之前我用 4090 跑 v1 的 27B 能到 46 Token/s,v2 思维链短了 24%,等效推理速度还能再快不少。

总结

v2 的核心价值就一句话:用更少的 Token 办同样的事

  • 代码准确率不掉:HumanEval 96.91%

  • 思维链缩短 24%:生成更快,成本更低

  • 每 Token 正确率 +31.6%:推理效率质的飞跃

  • 代价:通用知识推理(MMLU-Pro)下降 7.2%

对于本地部署场景,这种"推理效率优化"比单纯提升准确率更有实际价值——毕竟我们的瓶颈往往不是模型不够聪明,而是它想得太慢。

.5

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
兵败如山倒?多家日企撤离中国,中日制造或已迎来“大反转”了?

兵败如山倒?多家日企撤离中国,中日制造或已迎来“大反转”了?

触摸史迹
2026-04-05 15:44:15
意大利、挪威、西班牙、比利时、瑞典等15国,发表联合声明

意大利、挪威、西班牙、比利时、瑞典等15国,发表联合声明

鲁中晨报
2026-04-03 06:57:18
国家触发一级战备时,普通人千万要牢记这3条!保命切记别去抢购

国家触发一级战备时,普通人千万要牢记这3条!保命切记别去抢购

健身狂人
2026-04-05 12:39:10
事态严重了,中方接到日媒消息,日本远导锁定东海,俄已选边站

事态严重了,中方接到日媒消息,日本远导锁定东海,俄已选边站

混沌录
2026-04-02 20:01:04
独家:某运营商原集团董事长又有�...

独家:某运营商原集团董事长又有�...

新浪财经
2026-04-06 03:42:22
特朗普宣布:美军完成史上最大胆搜救行动,一名飞行员安全获救

特朗普宣布:美军完成史上最大胆搜救行动,一名飞行员安全获救

可达鸭面面观
2026-04-05 12:53:09
杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

一盅情怀
2026-04-03 07:49:11
上海一老乡鸡门店标注“3元自助早餐”,两人结账竟被收取45.5元并被告知“仅粥饮自助”,官方客服回应:已反馈调查

上海一老乡鸡门店标注“3元自助早餐”,两人结账竟被收取45.5元并被告知“仅粥饮自助”,官方客服回应:已反馈调查

齐鲁壹点
2026-04-05 09:18:49
陈光标为啥5日突然捐1000万给嫣然儿童医院?不是良心,是不得不捐

陈光标为啥5日突然捐1000万给嫣然儿童医院?不是良心,是不得不捐

爱看剧的阿峰
2026-04-05 20:04:05
硬撑15年、仅1台服务器、8GB内存:他用一堆“淘汰” 技术,让50+万人敲下人生第一条Linux命令!

硬撑15年、仅1台服务器、8GB内存:他用一堆“淘汰” 技术,让50+万人敲下人生第一条Linux命令!

CSDN
2026-03-31 17:33:02
特朗普精力充沛,养生秘诀是吃大量阿司匹林,日常三餐吃麦当劳

特朗普精力充沛,养生秘诀是吃大量阿司匹林,日常三餐吃麦当劳

南权先生
2026-04-04 05:05:03
中国又拿下全球首例!央视曝光国产翱翔,背后信号不简单

中国又拿下全球首例!央视曝光国产翱翔,背后信号不简单

Thurman在昆明
2026-04-05 18:31:06
黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

极目新闻
2026-04-05 18:19:57
曝知名港星李道瑜去世,仅58岁,曾在《古惑仔》中扮演洪兴二当家

曝知名港星李道瑜去世,仅58岁,曾在《古惑仔》中扮演洪兴二当家

裕丰娱间说
2026-04-05 06:19:28
别什么东西都往豆包上发了,男子发私照让豆包评价身材,账号遭封禁:会有人审核,别乱发乱聊天

别什么东西都往豆包上发了,男子发私照让豆包评价身材,账号遭封禁:会有人审核,别乱发乱聊天

观威海
2026-04-04 16:15:03
民政局最新提醒:户口分开不算一家人,这3种证明走遍全国都认

民政局最新提醒:户口分开不算一家人,这3种证明走遍全国都认

李博世财经
2026-04-05 17:20:59
美国MATCH法案突袭:比芯片禁令更狠,中国半导体如何突围

美国MATCH法案突袭:比芯片禁令更狠,中国半导体如何突围

粤语音乐喷泉
2026-04-05 16:55:07
告诉孩子:判断婚姻对错,只有一个简单标准

告诉孩子:判断婚姻对错,只有一个简单标准

青苹果sht
2026-03-26 06:09:17
听闻山上有处明代将军墓,5人夜盗古墓,被无人机全程锁定现场抓获!

听闻山上有处明代将军墓,5人夜盗古墓,被无人机全程锁定现场抓获!

大风新闻
2026-04-05 21:11:05
斯诺克战报!赵心童首局被罚12分赢球,清红定乾坤,小特出师不利

斯诺克战报!赵心童首局被罚12分赢球,清红定乾坤,小特出师不利

刘姚尧的文字城堡
2026-04-05 20:38:48
2026-04-06 04:27:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3306文章数 11129关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗官员提开放霍尔木兹海峡条件

头条要闻

伊朗官员提开放霍尔木兹海峡条件

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

旅游
游戏
本地
亲子
军事航空

旅游要闻

文明旅游|清明出游请注意!莫让这些不文明行为煞风景!

三天鼠标干坏两个,你这还是自走棋嘛?

本地新闻

跟着歌声游安徽,听古村回响

亲子要闻

小英自曝给女儿剪短发原因!怕头发抢营养长不高,想剃光头太真实

军事要闻

美飞行员获救细节:美伊发生激烈交火 至少4死1伤

无障碍浏览 进入关怀版