大家好,我是Ai学习的老章
Claude-Opus-4.6 蒸馏 Qwen3.5 我一直很关注:
![]()
现在 v2 来了,这次的升级重点不是"更准",而是"更快更省"——同样的准确率,思维链缩短了 24%,每个 Token 产出的正确答案多了 31.6%。
![]()
部署条件没变,Qwen3.5-27B 4bit 单张 4090 即可本地跑起
![]()
v2 到底改了啥?
先看核心数据:
指标
v1
v2
变化
HumanEval pass@1
96.95%
96.91%
基本持平
思维链长度
基准
缩短 ~24%
显著减少
每 Token 正确率
基准
+31.6%
大幅提升
HumanEval+
基准
-1.24%
微降
MMLU-Pro
基准
-7.2%
有所下降
简单说就是:代码能力几乎没掉,但思考效率提升了三成。
这意味着什么?同样一道编程题,v2 想的更少、答得更快,但正确率一样。对于跑本地模型的人来说,生成速度本来就是瓶颈,少生成 24% 的 Token 就等于快了 24%——还不用加任何硬件。
![]()
![]()
![]()
怎么做到的?
v2 的训练数据是关键。作者 Jackrong 用了14,000 条 Claude 4.6 Opus 风格的通用推理样本,注意是"通用推理"——数学题、逻辑推理、文字题,不是代码题。
这个设计思路很有意思:不针对代码刷分,而是让模型学会一种更高效的"思考脚手架"。结果在 HumanEval(代码测试)上照样拿了 96.91%,说明底层推理能力的提升是可以跨任务迁移的。
具体来说,v2 学到的推理模式长这样:
Let me analyze this request carefully:1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.
对比 v1 的长篇大论式思考,v2 更像一个有经验的工程师——先列大纲再下手,不会在简单问题上反复纠结。这就是 Claude Opus 的推理风格:结构化、有条理、不废话。
![]()
训练细节
技术栈和 v1 一脉相承:
基座模型:Qwen3.5-27B
训练框架:Unsloth + LoRA SFT
训练方式:Response-Only Training,只对 assistant 的思考部分做监督
数据量:~14,000 条筛选后的高质量推理轨迹
Base Model (Qwen3.5-27B)
│
▼
Qwen3.5-27B fine-tuned with Unsloth
│
▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n
"
)
│
▼
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
数据来源包括几个公开的 Claude 4.6 Opus 蒸馏数据集:
数据集
用途
Opus-4.6-Reasoning-3000x-filtered
Claude 4.6 Opus 推理轨迹
claude-opus-4.6-10000x
大规模通用推理迁移
claude-4.5-opus-high-reasoning-250x
高强度结构化推理
Qwen3.5-reasoning-700x
补充多样性推理样本
![]()
代价是什么?
说完优点,也得说缺点。
v2 在 **MMLU-Pro 上掉了 7.2%**,也就是通用知识推理能力有所下降。Jackrong也很坦诚地说了,由于 SFT 数据主要是通用推理类,对长上下文理解和复杂多步推理场景可能不如原版 Qwen3.5。
我的理解是:这是一个典型的"专精 vs 通用"的权衡。如果你主要用来写代码、做逻辑推理、解数学题,v2 毫无疑问更好——又快又准。但如果你需要一个什么都能聊的通用模型,原版 Qwen3.5 或者 v1 可能更稳。
![]()
怎么跑?
跟之前一样,GGUF 格式直接用 LM Studio、llama.cpp、Ollama 这些工具跑就行。HuggingFace 上提供了多种量化版本:
模型地址:Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF
之前我用 4090 跑 v1 的 27B 能到 46 Token/s,v2 思维链短了 24%,等效推理速度还能再快不少。
总结
v2 的核心价值就一句话:用更少的 Token 办同样的事。
代码准确率不掉:HumanEval 96.91%
思维链缩短 24%:生成更快,成本更低
每 Token 正确率 +31.6%:推理效率质的飞跃
代价:通用知识推理(MMLU-Pro)下降 7.2%
对于本地部署场景,这种"推理效率优化"比单纯提升准确率更有实际价值——毕竟我们的瓶颈往往不是模型不够聪明,而是它想得太慢。
.5
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.