720亿参数,不靠堆料也能赢?这次,华为开源大模型玩明白了
6月30日,华为出招了。一口气放出两款自研大模型:720亿参数的稀疏模型盘古Pro MoE,以及70亿参数的“快思慢想”结构模型盘古Embedded 7B。
不仅模型开源,连基于昇腾NPU的推理优化代码都一并公开,整得非常彻底。
不少人第一反应是:这是不是又一波“国产替代”的声音?但认真看完这些技术细节后,恐怕你会意识到,这次的重点,不是简单追量,而是华为在架构设计和算力调度上的“破局”。
盘古Pro MoE这个名字你可能还不熟,但它的底层技术真的不简单。
这不是单纯的“多专家模型”(MoE)那一套,而是华为自研的分组混合专家架构MoGE。
说人话就是:训练时智能分配任务、推理时均衡调用专家模块,不浪费算力还跑得快,特别适合像昇腾这种并行能力强但要求精细调度的NPU平台。
你没看错,盘古Pro MoE的训练用了4000颗昇腾芯片,在13万亿tokens级别的高质量语料上跑通,还分成通用、推理、退火三个阶段“按部就班”训练。
这种精细打磨后,推理速度达到单卡1528 tokens/s,不但超了自己上一代,还直接压过了GLM-Z1-32B、Qwen3-32B这些当下最热门的模型。
这意味着什么?
在大模型圈,性能不是光堆参数就行的,背后的调度逻辑、优化算法、硬件适配才是决定能否落地的关键。华为这次明确释放了一个信号:盘古Pro MoE不光能跑,还能快、省电、适配广。
而另一个主角——盘古Embedded 7B,则走的是“轻巧实用”路线。
70亿参数的体积在大模型里不算大,但它采用了一个很有意思的“快慢思考”架构,轻量时走快速响应通道,遇到复杂问题再触发深度推理,这种类似人脑思维的机制,理论上能在兼顾效率的同时,保住准确率。
而华为搞这个“快慢双脑”也不是靠玄学。它背后用了强化学习、模型合并、奖励机制三段式训练流程,还真不是简简单单蒸馏就完事。这种方式,在多个权威测评中,实际跑赢了Qwen3-8B和GLM4-9B这类更大模型,足以证明它的设计不是噱头。
你可能会问:这些东西离普通人有啥用?我的看法是,这种级别的技术开源,不只是交个“作业”,而是在传递一个生态信号。华为要把昇腾NPU打造成真正意义上的国产AI底座,而不是依赖海外框架和芯片的“拼装生态”。
换句话说,过去大家说“开源”有点像姿态,但华为这次是连底层推理系统都开了,是真的要“请进来,用起来”。你想基于盘古二次开发模型、部署本地方案、打造自有大脑?现在它给你开门了。
当然,这一切仍然不能代表华为就此领先了整个AI生态。盘古Pro MoE再强,它面对的依旧是多语言、多任务、多平台的复杂环境,昇腾NPU再猛,软件生态也还在完善。
但你不得不承认,像这样真正从硬件到模型端“打通一条链”的国产方案,确实越来越稀有了。
这次盘古大模型的开源不只是一次技术展示,更像一次深水区的试探。参数不是最惊人的,但在模型架构和推理效率上,华为走了一条值得长期观察的路径。
未来几年,大模型一定会越来越重视“算力效率”而不是“参数恐惧症”。在这场博弈中,华为交出的答卷,不一定是最抢眼的,但绝对是最有力的。
如果你对这波盘古大模型怎么看?你觉得未来模型的参数数量还重要吗?欢迎在评论区聊聊,我们一块拆解这场国产大模型的博弈。
参考文章:720亿参数!华为首个开源大模型发布,用4000颗昇腾训练的-智东西
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.