网易首页 > 网易号 > 正文 申请入驻

快慢思考不用二选一!华为开源7B模型自由切,精度不变思维链减半

0
分享至

来源:市场资讯

(来源:量子位)

国产自研开源模型,让模型不用在快思考和慢思考间二选一了!

华为最新发布openPangu-Embedded-7B-v1.1,参数只有7B,却身怀双重“思维引擎”

要知道,长期以来,大模型快思考与慢思考模式不可兼得,这成为业界的一大痛点。在当前大模型混战中,各家巨头都在寻求破局之道,但此前开源领域一直缺乏一款可自由切换快慢思维模式的模型。

要快,还是要慢?AI在面对不同难度的问题时也有“选择困难症”。


而现在,openPangu-Embedded-7B-v1.1,通过渐进式微调策略独特的快慢思考自适应模式,既支持手动切换“快思考”或“慢思考”模式,也能根据问题难度自动在两种思维模式间无缝转换。

简单问题它秒答如飞,复杂任务它深思熟虑,一举填补了开源大模型在这一能力上的空白,让效率与准确率实现双赢。

在通用、数学、代码等多个权威评测中,该模型精度相较于此前模型大幅提升,且引入模式自动切换并没有牺牲精度。在CMMLU等基准中,openPangu-Embedded-7B-v1.1保持精度的同时,平均思维链长度缩短近50%

模型现已在GitCode开源。

所以,openPangu-Embedded-7B-v1.1究竟是如何做到的?华为盘古团队在模型训练策略上又有哪些创新?

众所周知,大模型往往需要海量训练才能具备强大的推理能力。然而,openPangu团队并未采取一味“填鸭式”的训练方式,而是采用了一种渐进式微调(SFT,Iterative Distillation)策略,模拟人类逐步进阶的学习过程

通过精心设计的迭代训练,让模型在每一步都处于“适度挑战”的学习区间,能力稳步提升。


具体来说,团队将渐进式微调划分为三个循序渐进的阶段,每一步都让模型获得针对性的提升:

第一步:合理选题,保持适度挑战

在每一轮训练迭代中,模型会根据自身当前能力对候选训练样本进行难度评分,优先挑选难度适中、不偏易也不偏难的题目来训练。这样确保模型始终在与能力相匹配的挑战中学习,既不会因过于简单停滞不前,也不会因过难而无法收获,步步为营拓展能力边界。

第二步:归纳总结,稳固已有知识

完成一轮训练后,产生的多个模型版本(不同检查点)不会简单取舍,而是通过参数增量融合(inter-iteration merging)合并成统一的模型。这一步相当于将新学到的知识与原有能力进行“汇总融合”,让模型的认知更加稳固,避免遗忘过去学到的本领。

第三步:持续提升,扩展能力边界

随着上述循环不断进行,模型积累的知识与技能越来越丰富,自身能力水涨船高,能够胜任更复杂的数据训练。这时,它进入了更高水平的“拉伸区”,可以挑战此前无法解答的难题。模型能力的提升又反过来推动下一轮更高难度的数据选择,形成一个不断进化的良性循环。

通过这样的渐进式训练方式,openPangu-Embedded-7B-v1.1不再是被动接受知识的“填鸭式”学习者,而是化身为一个能够持续进化的学习者。实验结果表明,这一策略让模型的推理过程更加稳定,泛化表现更加强劲。

相比之前开源的openPangu-Embedded-7B-v1,此次开源的openPangu-Embedded-7B-v1.1模型最大的亮点,就是引入了独特的快慢思考自适应模式,使得模型可以自动根据任务难度选择使用快思考还是慢思考进行解答。

相比4月先行披露的技术报告,团队的快慢思考切换训练方案进行了大幅升级,不但从方案上演进为了数据质量驱动的学习策略,快慢思考切换的范围也从数学任务扩展到了一般任务


第一阶段:教会模型区分快慢。

在这个“低难度课程”阶段,研究团队首先通过数据构造,让模型明确什么是“快思考”、什么是“慢思考”。

他们精心构建了一个混合训练数据集:在用户提问(Prompt)中附加特殊的标识符,直接告诉模型该用快思考还是慢思考来回答。通过在这个带有明确指示信号的数据上训练,模型学会将特定输入模式与对应的思维方式、回答风格建立关联。

可以说,这一步犹如给模型装上“手动变速箱”,明确划定了两种思考模式的界限,是一堂扎实的“热身课”,确保模型具备基本的快慢思维切换意识。

第二阶段:自主学会切换。

当模型已经掌握了显式控制的本领后,就进入更具挑战性的“进阶课程”。这一阶段不再提供外部快/慢提示,而是要求模型根据问题本身自行判断何时该快、何时该慢。

从简单样本过渡到复杂样本,团队设计了一套数据质量驱动的自优化训练策略:先用第一阶段训练好的模型作为“教练”,为同一问题生成多样化的解答链路,然后从中挑选质量最高的解答,再以这些优质解答来有选择地微调模型。

通过这种“从优录取”的训练方式,模型逐渐学会了从复杂问题中自主推断最优思考路径,无需明确指令就能自动在快/慢模式间切换。可以说,这一步为模型装上了智能“自动变速箱”——它告别了对外部指令的依赖,实现了内在驱动的决策。这一阶段的训练难度显著高于第一阶段,因为模型需要领悟更深层的隐含逻辑,而不再是简单遵循提示符号。

经过两个阶段环环相扣的“课程学习”,openPangu-Embedded-7B-v1.1完成了从外部信号驱动的显式切换到内部能力驱动的隐式切换的蜕变,大幅提升了模型在复杂推理任务中的灵活性与自主性。

最终,经过这一套训练流程,新模型成功解锁了快慢思考模式的双模式切换——既支持用户手动指定思考模式,也能在无需人为干预下自动选择最合适的推理方式。

如此复杂的训练设计,最终效果如何?openPangu-Embedded-7B-v1.1在多个权威评测上交出了令人欣喜的答卷。

首先是精度的大幅提升。相较前代模型v1版本,新模型在通用、数学、代码等各类数据集上全面超越了自己过去的成绩。其中在最棘手的数学难题数据集(如AIME挑战)上,v1.1版本取得了远超v1的领先表现


更难得的是,在采用自适应快慢思考模式下,新模型在复杂任务上的准确率依然保持与纯“慢思考”情况下几乎相同的水准,即引入自动切换并没有牺牲精度。

其次在响应效率上,成果同样令人眼前一亮。对于简单问题,openPangu-Embedded-7B-v1.1能够自动切换为快思考模式,大幅缩短不必要的冗长推理过程

在某些基准测试中(例如中文综合知识测试集CMMLU),新模型在保持精度基本不变的前提下,将平均输出的思维链长度减少了近50%!也就是说,同一道简单题,它给出的解释步骤几乎缩短了一半,直接带来响应效率的翻倍提升。

与此同时,对于诸如AIME、LiveCodeBench这类复杂度极高的难题,模型依然会老老实实“慢思考”、给出详尽的逐步推理,从而确保精度与只用慢思考模型相当。简单题不啰嗦、难题不放弃,这种智能切换让模型在速度和精度之间取得了很好的平衡。


值得惊喜的是,openPangu系列近期不仅升级了7B模型,还推出了一款专为边缘AI部署优化的轻量级模型openPangu-Embedded-1B

顾名思义,它只有十亿参数,但却通过多项技术加持,实现了“小体量也有大能量”。

在软硬件协同设计方面,openPangu-Embedded-1B针对华为昇腾端侧AI硬件进行了架构优化,充分利用芯片特性,大幅降低推理延迟、提升资源利用率。

与此同时,华为团队采用多阶段训练策略(包括从零开始的预训练、多样化数据的课程式微调、离线同策略知识蒸馏以及多源奖励的强化学习等),全面挖掘模型潜力,显著增强了模型在各类任务上的表现。

得益于以上创新,这款仅10亿参数的小模型取得了性能与效率的高度协同,在多个权威评测中成绩亮眼。

据公开数据显示,openPangu-Embedded-1B创下了国内1B级模型的新标杆,其整体平均成绩不仅全面领先其他同规模模型,甚至追平了更大参数模型Qwen3-1.7B的水平

这充分体现了出色的参数级性能比:用更小的模型实现了媲美大模型的效果,为国产自研大模型在资源受限场景下的探索提供了新的方向。


综上,华为 openPangu-Embedded-7B-v1.1 的发布为当前热度较高的大模型领域带来了不一样的思路。作为参数规模为 7B 的轻量级模型,它通过渐进式微调和双阶段训练方法,实现了快慢思考模式的自由切换,在效率与精度之间找到了较好的平衡点。

无论是面向边缘部署需求的小模型,还是追求复杂推理能力的通用模型,盘古系列的持续演进都展现出国产大模型的创新活力。

未来,这一具备“快慢思考”特性的模型,有望在更多实际应用场景中发挥价值。

项目已在GitCode开源:https://gitcode.com/ascend-tribe/openpangu-embedded-7b-v1.1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方账号批评反美斗士造黄谣,牢A要凉了吗?

官方账号批评反美斗士造黄谣,牢A要凉了吗?

历史总在押韵
2026-02-01 23:20:24
广西在建大桥讨薪冲突:保安施工方对峙升级,刑责争议引二审悬念

广西在建大桥讨薪冲突:保安施工方对峙升级,刑责争议引二审悬念

娱乐帝皇丸
2026-02-01 20:10:31
卡里克治下曼联本赛季2次英超2-0领先,仅比阿莫林治下少1次

卡里克治下曼联本赛季2次英超2-0领先,仅比阿莫林治下少1次

懂球帝
2026-02-01 23:45:10
订单已排到2027年底!“电力心脏”,全球爆单

订单已排到2027年底!“电力心脏”,全球爆单

中国能源网
2026-02-01 13:40:04
曼联新帅神了:豪取3连胜,超越切尔西利物浦,升到第4名

曼联新帅神了:豪取3连胜,超越切尔西利物浦,升到第4名

足球狗说
2026-02-02 00:01:22
前香港知名艳星在国外想做洗碗工都没人请,最终选择回流香港

前香港知名艳星在国外想做洗碗工都没人请,最终选择回流香港

调侃国际观点
2026-02-01 17:39:25
中国最高龄产妇盛海琳:丈夫已离世,女儿才15岁,我争取活到104

中国最高龄产妇盛海琳:丈夫已离世,女儿才15岁,我争取活到104

林雁飞
2026-01-10 13:46:21
就在今天!2月1日凌晨,男篮传来高诗岩、刘颜诚、郭艾伦新消息!

就在今天!2月1日凌晨,男篮传来高诗岩、刘颜诚、郭艾伦新消息!

皮皮观天下
2026-02-01 03:04:05
广州电鸡治理吵翻全城!一边整治乱象一边通勤刚需,该怎么平衡?

广州电鸡治理吵翻全城!一边整治乱象一边通勤刚需,该怎么平衡?

牛锅巴小钒
2026-02-01 19:39:01
中大型MPV已上市,14.98万起售!航空座椅带腿托,外观挺气派

中大型MPV已上市,14.98万起售!航空座椅带腿托,外观挺气派

米粒说车唯一呀
2026-01-31 18:00:05
70岁后存款达到这个数就够了,没必要太多,儿女孝与不孝无所谓!

70岁后存款达到这个数就够了,没必要太多,儿女孝与不孝无所谓!

花小猫的美食日常
2026-01-20 13:54:06
刚果(金)矿难逾200人死亡

刚果(金)矿难逾200人死亡

参考消息
2026-02-01 10:53:43
爸妈!真的不要再往马桶里倒水了!

爸妈!真的不要再往马桶里倒水了!

果壳
2026-01-31 12:15:41
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
被兄弟"做局"夺走300亿公司,坐牢10年的赌徒CEO出来了

被兄弟"做局"夺走300亿公司,坐牢10年的赌徒CEO出来了

帅真商业
2025-12-16 21:08:37
徐杰受伤,广东13分惨败;接下来对阵上海可能遭遇三连败

徐杰受伤,广东13分惨败;接下来对阵上海可能遭遇三连败

孤影来客
2026-02-02 01:35:33
中国警告日本政府,一旦战争爆发,日本将会有4个方面的下场

中国警告日本政府,一旦战争爆发,日本将会有4个方面的下场

兴史兴谈
2026-01-13 01:18:53
1.45亿欧买了个“寂寞”!16场仅3球又重伤,足坛最大水货诞生?

1.45亿欧买了个“寂寞”!16场仅3球又重伤,足坛最大水货诞生?

天下足球资讯
2025-12-23 11:15:08
刘强东的办公室曝光,信息量很大!

刘强东的办公室曝光,信息量很大!

仕道
2026-01-04 16:43:02
中年夫妻还有必要接吻吗?网友分享真实感受:不爱,真亲不下嘴

中年夫妻还有必要接吻吗?网友分享真实感受:不爱,真亲不下嘴

另子维爱读史
2026-01-31 23:07:29
2026-02-02 02:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2059493文章数 5313关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
家居
本地
旅游
教育

“多巴胺风”又又又火了!这样穿时髦又减龄

家居要闻

蓝调空舍 自由与个性

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

社评:欢迎更多外国朋友来中国过春节

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

无障碍浏览 进入关怀版