网易首页 > 网易号 > 正文 申请入驻

清微智能联合众智 FlagOS:国产可重构芯片首次实现DeepSeek-V4 DAY0 开箱即用

0
分享至

2026 年 4 月 24 日,DeepSeek 开源全新 V4 系列大模型(Pro 1.6T / Flash 284B)。清微智能与众智 FlagOS 社区紧密合作,在国产可重构计算架构芯片 上第一时间完成 DeepSeek-V4 全系列模型的 DAY0 适配与推理部署。

据悉,FlagOS 社区本次共完成了 9 种 AI 芯片 的统一适配,包括:清微智能(可重构架构)、海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯、英伟达。这意味着,DeepSeek-V4 不再局限于少数高端硬件,通过统一开源系统软件栈 FlagOS,能在多种 AI 芯片上快速迁移、稳定运行。对于开发者、芯片厂商和产业用户而言,这不仅是一次模型适配,更是多元 AI 算力走向可用、易用、好用的重要一步。

特别值得一提的是:这是国产可重构芯片首次成功运行千亿参数大模型(1.6T & 284B),并实现 DAY0 适配。清微智能的可重构计算架构凭借高灵活度、高能效的优势,结合 FlagOS 的深度优化,为业界提供了“模型 + 芯片 + 系统软件”全栈国产化的一条可行路径。

DeepSeek-V4 系列2款模型均支持百万 Token 上下文,架构上引入混合注意力机制(CSA + HCA),在百万 Token 场景下 Pro 相比 V3.2 仅需 27% 推理 FLOPs 和 10% KV 缓存;采用流形约束超连接(mHC)增强跨层信号传播,并使用 Muon 优化器提升训练收敛和稳定性。两个模型均在 32T+ Token 上预训练,后训练采用两阶段范式:先通过 SFT + GRPO 强化学习培养领域专家能力,再经在线策略蒸馏统一融合。Pro-Max(最大推理模式)在代码基准达到顶尖水平,在推理和 Agent 任务上大幅缩小与领先闭源模型的差距;Flash-Max 在给予更多推理预算时可接近 Pro 级推理性能,但受限于参数规模,在纯知识类任务和复杂 Agent 工作流上略有差距。

性能参考如下官方评测结果


围绕 DeepSeek-V4 系列模型的多芯适配,此次 FlagOS 系统软件技术栈突破了三大关键技术:基于 FlagGems 全量替换 DeepSeek 原版算子,实现算子层多芯片统一适配;为 o-group 采用独立张量并行策略解锁更多低显存场景;完成 “FP4+FP8混合精度” 的原生权重到 FP8/BF16 的精度路径转换。当下,国内大规模部署的 AI 芯片,大都不支持 FP4 。英伟达也只在 Blackwell 及之后的高端芯片才支持 FP4。三项关键技术突破让 DeepSeek-V4 能在当前各种厂商的主流 AI 芯片上稳定运行,不再受限于支持 FP4 和大显存的少数高端 AI 加速卡。

Part.01

多芯版 DeepSeek V4 的获取与部署

FlagOS 技术栈为用户提供了“开箱即用”的多芯版 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。依托 FlagOS 的统一算子库 FlagGems、统一编译器 FlagTree 和训推框架 FlagScale,海光、沐曦、华为、摩尔线程(FP8)、昆仑芯、平头哥、天数、英伟达(FP8)、清微等9款芯片已经完成 DeepSeek-V4 系列模型的跨芯适配及验证。

用户在多芯片上部署 DeepSeek-V4 时,通常会先遇到几大挑战:算子缺失或不匹配,分布式部署多卡多节点配置复杂,模型格式与精度适配复杂。DeepSeek-V4 的原始权重多为量化格式(如 FP8),而各芯片对低精度数据类型的支持方式不一,权重转换和适配过程繁琐且容易出错。为解决上述性能与部署难题,FlagOS 提供了专门的适配仓库。

一键启用高性能算子库:通过设置环境变量 USE_FLAGGEMS=1,可自动切换至 FlagGems 为 DeepSeek-V4 深度优化的算子实现,无需手动逐算子替换,大幅提升多款芯片上的开箱可用性。

算法优化多卡通信:当模型并行数(MP)大于配置组数(o_groups)时,通过设置 USE_OGROUPS_COMM=1,自动启用分组投影独立通信组功能,精准解决 o_groups 张量切分数量限制。该仓库还提供了单机8卡、双机16卡的完整运行脚本(run_mp8.sh、run_node_0.sh 等),开箱即用。

自动化权重转换工具:内置纯 PyTorch 实现的 convert_weight.py 脚本,能够直接将 FP8/FP4 量化权重可靠地反量化为 BF16 格式,解决权重迁移到各种国产芯片上的兼容性问题。

量化加速功能:为 MoE 专家引入 INT8 逐通道对称量化,支持 W8A8 推理,能够进一步降低机器资源需求,提升性能与效率,并同时提供对应的量化配置和参数转换脚本方便用户使用。


方式一:FlagOS 安装部署



使用 DeepSeek-V4-FlagOS 代码仓库进行部署


单机(8卡):可使用如下命令,或者直接运行bash run_mp8.sh

exportUSE_FLAGGEMS=1#开启加速torchrunnproc-per-node8generate.py max-new-tokens64ckpt-path /path/to/model_bf16_mp8 config config_from_bf16.json input-file prompt.txt

双机(16卡)

可使用如下命令,或者直接在Node 0上运行bash run_node_0.sh

exportNCCL_SOCKET_IFNAME=eth0exportNCCL_IB_DISABLE=1exportUSE_FLAGGEMS=1exportUSE_OGROUPS_COMM=1torchrunnnodes=2nproc_per_node=8node_rank=0master_addr= master_port=29500generate.py ckpt-path /path/to/model_bf16_mp16 config config_from_bf16.json input-file prompt.txt max-new-tokens64

对于 Node 1 情况,可使用如下命令,或者直接在 Node 1上运行 bash run_node_1.sh

exportNCCL_SOCKET_IFNAME=eth0exportNCCL_IB_DISABLE=1exportUSE_FLAGGEMS=1exportUSE_OGROUPS_COMM=1torchrunnnodes=2nproc_per_node=8node_rank=1master_addr= master_port=29500generate.py ckpt-path /path/to/model_bf16_mp16 config config_from_bf16.json input-file prompt.txt max-new-tokens64

方式二:直接下载模型镜像

用户可以直接拉取在 FlagRelease 上发布的迁移后的模型文件、代码和镜像。以下是迁移适配后的几种 AI 芯片的模型版本,开箱即用、无需迁移。



Part.02

三大技术突破,让 DeepSeek 实现“多芯极速适配”

突破一:FlagGems 提供支持多元芯片的全算子替换方案,解决跨芯适配首要难题

在对 DeepSeek V4 系列模型的多芯适配过程中,FlagGems 实现了推理链路中全部算子的替代。这意味着什么?

彻底脱离 CUDA 算子依赖:DeepSeek V4 的 MoE 专家调度、Attention 计算、RMSNorm、TopK 路由等全部核心计算模块,均由 FlagGems 基于 Triton/Triton-TLE语言重新实现,不调用任何 cuDNN/cuBLAS 等 NVIDIA 私有库。

无需芯片厂商逐一适配:传统模式下,每款新模型上线,芯片厂商需要投入工程团队做算子适配。现在通过 FlagGems + FlagTree 编译器的组合,新模型的算子可以直接编译到多款芯片后端,芯片厂商不需要做任何额外工作。

新算子即时可用:DeepSeek V4 模型引入的新计算模式(如 o-group 相关的分组路由机制),FlagGems 已经实现了对应的新算子,并通过 FlagTree 编译器统一编译到所有支持的芯片后端。

FlagGems 作为全球最大的 Triton 单一算子库,已拥有超过400 个大模型常用算子,并已正式进入 PyTorch 基金会生态合作项目。在 40 个主流模型上,推理任务算子覆盖度达到 90%~100%,完整支持 DeepSeek V4 的全部计算需求。

突破二:为o-group采用独立并行策略,解除张量并行最多单机8卡限制

DeepSeek V4 为了进一步降低计算开销采用了分组输出投影技术(Grouped Output Projection),配置为o_group=8,这导致在传统的张量并行时候,最多切8份。而当前一些主流国产芯片的单卡显存为 32GB 或 64GB,尤其在BF16格式情况下,需要张量并行大于8份才能放的下。为了解除这个限制,FlagOS 专门针对 o_groups 进行了单独张量并行策略设计和实现,确保 o_goups 切分不超过 8 份的前提下,能够让模型其他部分还采用经典的张量并行策略,并且实现超过 8 份的切分。通过不同的张量并行策略组合,能够实现多于 8 台设备的张量并行运行。

FlagOS 对 o_group 张量并行的技术改动集中在以下方面。

独立的并行策略:独立于已有的张量并行通信组之外,为 o-group 单独构建所需要的张量并行通信组,确保其他模型结构张量并行切分超过 8 的情况下,o-group 的张量并行在 8 以内。

参数转换调整:对 o_group 相关的参数,也进行了对应单独的张量并行切分处理,以确保在新的独立张量并行策略下,也能够被正确加载。

覆盖面扩展:这一优化能够将 DeepSeek V4 在单独采用张量并行策略下,将可运行芯片范围从“仅限单机 80GB以上显存的个别高端卡” 扩展到“多机64GB/32GB的更多主流国产芯片”,例如海光、沐曦、天数智芯等厂商的主力产品线。

突破三:从“FP4+FP8混合精度” 到 BF16的精度转换,打通主流芯片的计算路径

DeepSeek V4 模型发布时,首次采用 FP4+FP8混合精度,该精度只有在 Blackwell 及之后的英伟达最新硬件上才有支持,但当前所有国内非英伟达 AI 芯片都未能支持,只有摩尔线程原生支持了 FP8,其余依然以 BF16 为主。

FlagOS 完成了从 FP4 到 BF16 的完整精度转换。

权重反量化:将 FP4 量化权重转换为 BF16 格式。这不是简单的类型转换,而是需要根据 DeepSeek 的量化方案进行逆量化计算,确保数值精度。

计算路径重建:FP4 和 BF16 在底层计算上有本质差,FP4 的动态范围更窄,累加精度、溢出处理策略均不同。FlagOS 对推理链路中的 GEMM、Attention、MoE 路由等关键计算节点逐一适配了 BF16 路径。

精度对齐验证:经过标准评测集验证,BF16 版本与 FP4 原生版本在核心能力指标上保持对齐,确保精度转换不引入业务层面的效果损失。

本次,FlagOS推出了FP8和BF16两种适配版本,让 DeepSeek V4 不局限在最新 NVIDIA 卡上,也能部署在 FP8 及 BF16 生态的其他芯片上。

Part.03

FlagGems开源新算子全面支持 DeepSeek-V4 系列模型

本次新发布的 DeepSeek-V4 模型共有大约 67 个算子,FlagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5个新算子,实现了对 DeepSeek-V4 的全面支持,也为跨芯适配打下重要基础。


为了支持更多 AI 芯片的使用,FlagOS 对 DeepSeek-V4 模型中使用的新算子使用 Triton 语言进行重新实现,基于 FlagTree 统一编译器,性能全部超过原生性能。(以下数据是针对DeepSeek-V4-Flash的测试)


C++ Wrapper 技术是 FlagOS 社区专门为提升基于 Triton 语言的算子内核调用效率而打造的技术。目前已经支持了该技术的芯片包括华为昇腾、寒武纪、摩尔线程、平头哥真武、及英伟达等。使用了 C++ Wrapper 技术,在普通的 Transformers 框架下,可以显著提升使用了 Triton 算子的模型的端到端效率,实现跨芯普适、和高效推理的双重目标。通过端到端效果评测(NV H20,DeepSeek-V4-Flash FP8),「C++ Wrapper + Triton」 比 TileLang 快 12.24%,比 Python Wrapper 版快 40.39%。

配置

FlagGems算子(C++ Wrapper + Triton)

TileLang 算子(DeepSeek原版)

Python Wrapper+ Triton算子

端到端吞吐(tokens/s)

70.7

Part.04

开发者极致体验:“发布即多芯”+ “极简部署”

1、核心能力与原版本对齐

经 GPQA_Diamond、AIME等权威评测集验证,FlagOS 适配后的 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,在语言理解、复杂推理、代码生成、数学计算等核心能力上,与 CUDA 原版本对齐,可放心应用于金融、教育、政企服务、代码开发等场景,无需担心适配导致业务效果折损。

DeepSeek-V4-Pro 1.6T 万亿参数模型已经在摩尔线程、海光、沐曦、华为昇腾四款国产芯片完成了基于FlagOS技术栈的适配,并通过了初验。考虑到国产芯片当前的精度支持和显存大小,我们推出了int8的适配版本,更方便用户的实际部署使用。


2、极简部署:开箱即用,底层优化无感知

FlagOS 将核心算子库、编译器等技术组件前置内置到 DeepSeek-V4代码框架中,开发者加载模型时,底层优化代码自动生效,无需手动添加任何 FlagOS 初始化代码。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,标准化 Docker 镜像 + 一键加速命令,解决了开发者最头疼的环境配置、效果对齐、性能优化等问题。

Part.05

FlagOS 2.0 技术底座:从大模型到智能体时代的全栈升级

DeepSeek-V4 系列模型的三重突破,依托的是 FlagOS 2.0 统一多芯片系统软件栈的全链路能力。从算子层、编译层、框架层到工具层,全链路为大模型跨芯适配提供技术支撑,将原本数周的适配周期缩短至数天,真正实现极速落地。


1、高性能算子库 FlagGems:核心算子深度适配,释放硬件算力

FlagGems 作为 FlagOS 核心的高性能通用大模型算子库,基于 Triton 语言实现,针对 DeepSeek-V4推理链路的核心算子进行了深度适配与优化,包括 MoE 专家调度、Attention 计算、RMSNorm 等关键计算模块,同时原生支持 NVIDIA、摩尔线程、沐曦、清微智能、天数等接近 20 家 AI 芯片。

2、统一 AI 编译器 FlagTree:一次编写,多芯编译

FlagTree 是 FlagOS 面向多 AI 芯片后端的统一编译器,基于 Triton 深度定制,可将 DeepSeek-V4的核心算子编译为英伟达、摩尔线程等十多种不同 AI 芯片后端可识别的指令,彻底解决不同芯片编译器生态割裂的问题,大幅降低算子跨芯片适配的开发成本。

3、模型跨芯迁移发布工具 FlagRelease:半自动实现模型跨芯迁移与版本发布

依托 FlagOS 全栈技术能力,FlagRelease 已完成 DeepSeek-V4在多种芯片上的模型迁移、精度对齐与版本发布,覆盖 HuggingFace、魔搭等开源社区平台。开发者可直接下载使用,无需自行迁移。截至本文发布,FlagRelease 已发布覆盖 10+ 家芯片厂商、12+ 款硬件、70+ 个开源模型实例的跨芯适配版本。

4、统一多芯片接入插件 vLLM-plugin-FL:无缝兼容原生使用习惯

vLLM-plugin-FL 是 FlagOS 为 vLLM 推理服务框架打造的专属插件,基于 FlagOS 统一多芯片后端开发,在完全不改变 vLLM 原生接口与用户使用习惯的前提下,实现多芯片推理部署。目前 vLLM-plugin-FL 已经支持了清微、摩尔线程、海光、沐曦、平头哥真武、天数智芯、昆仑芯、华为、英伟达等多家芯片。

Part.06

开源共建:FlagOS 持续做开发者的“跨芯适配后盾”

当下,"异构算力协同、大模型普惠落地"已成为全球开源开发者社区的核心热点,打破硬件生态隔离、让大模型在不同算力平台高效低成本运行,是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因,始终以开发者为中心,通过全栈开源的统一系统软件栈,把复杂的"M×N"硬件适配问题降维为"M+N",做每一位开发者最可靠的跨芯适配后盾。

全栈开源无保留,把技术主动权交给开发者

目前,FlagOS 已形成完整的开源技术体系,所有核心组件均已开源在 GitHub,同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践,开发者可自由获取、深度定制:

四大核心技术库: FlagGems 通用大模型算子库、FlagTree 统一 AI 编译器、FlagScale 训练推理并行框架、FlagCX 统一通信库,覆盖算子开发、编译优化、并行计算、跨芯片通信全链路;

三大开源工具平台: FlagRelease 大模型自动迁移发版平台、KernelGen 算子自动生成工具、FlagPerf 多芯片评测工具,提供从模型适配、性能评测到工程落地的一站式工具链;

全场景扩展生态: vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增强组件,以及 FlagOS-Robo 具身智能工具包,覆盖大模型训练、推理、应用全场景。

多路径参与共建,全层级开发者均可入局

我们为不同技术方向、不同经验层级的开发者,设计了低门槛、多路径的共建方式,无论你是 AI 开发新手,还是深耕系统软件的资深专家,都能在 FlagOS 社区找到自己的位置。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
稀土战争其实早就打完了——一份从 1985 到 2026 的完整账本,告诉你 AI 时代真正的胜负手是什么

稀土战争其实早就打完了——一份从 1985 到 2026 的完整账本,告诉你 AI 时代真正的胜负手是什么

六子吃凉粉
2026-05-06 18:14:18
你的身材,暴露了你的阶层

你的身材,暴露了你的阶层

洞见
2026-05-07 09:17:54
又一个“爱国大V”人设翻车!靠爱国捞金千万,私下悄悄办移民!

又一个“爱国大V”人设翻车!靠爱国捞金千万,私下悄悄办移民!

麦杰逊
2026-05-07 13:13:17
4-0横扫!埃梅里神了:率队成功翻盘,挺进决赛,目标直指冠军

4-0横扫!埃梅里神了:率队成功翻盘,挺进决赛,目标直指冠军

足球狗说
2026-05-08 04:57:35
一名中国人在芭提雅被活活打死 据说,打人的,也是一群中国人...(5月7日)

一名中国人在芭提雅被活活打死 据说,打人的,也是一群中国人...(5月7日)

曼谷陈大叔
2026-05-07 22:18:38
科贝:巴尔韦德&楚阿梅尼将停赛3-20场,甚至可能直接被开除

科贝:巴尔韦德&楚阿梅尼将停赛3-20场,甚至可能直接被开除

懂球帝
2026-05-08 01:09:39
湖南一28岁干部受邀钓鱼溺亡,家属称其手机里有大量领导违纪证据,死后才知他欠银行37万元,多名领导长期赌博,并带领其参与

湖南一28岁干部受邀钓鱼溺亡,家属称其手机里有大量领导违纪证据,死后才知他欠银行37万元,多名领导长期赌博,并带领其参与

极目新闻
2026-05-07 21:48:08
突发!美军发动“定点打击”,伊朗多地被炸,伊方:攻击3艘美国军舰,造成“重大损失”!特朗普:这只是轻轻敲打,停火还在持续

突发!美军发动“定点打击”,伊朗多地被炸,伊方:攻击3艘美国军舰,造成“重大损失”!特朗普:这只是轻轻敲打,停火还在持续

每日经济新闻
2026-05-08 07:34:08
一场4-0!让英超保级又生变数:热刺有2对手要争六,全输或降级

一场4-0!让英超保级又生变数:热刺有2对手要争六,全输或降级

体育知多少
2026-05-08 09:00:37
巴尔韦德:楚阿梅尼没有打我,是我不小心撞到了桌子

巴尔韦德:楚阿梅尼没有打我,是我不小心撞到了桌子

懂球帝
2026-05-08 04:25:06
黑龙江两名11岁女孩已遇害:网传被先奸后杀,凶手身份被曝光

黑龙江两名11岁女孩已遇害:网传被先奸后杀,凶手身份被曝光

魔都姐姐杂谈
2026-05-07 15:17:15
毁三观!老大爷数次猥亵小米汽车事件疯传!车身布满J斑残留

毁三观!老大爷数次猥亵小米汽车事件疯传!车身布满J斑残留

魔都囡
2026-05-08 09:57:03
央视拒付天价转播费仅1天!炸出一堆牛鬼蛇神,中国球迷有话要说

央视拒付天价转播费仅1天!炸出一堆牛鬼蛇神,中国球迷有话要说

另子维爱读史
2026-05-07 21:10:15
不能失忆!人民日报平安校园:海参崴的街头,中国孩子在为谁欢呼

不能失忆!人民日报平安校园:海参崴的街头,中国孩子在为谁欢呼

瑜说还休
2026-05-07 17:45:15
接班满两个月,伊朗最高领袖穆杰塔巴至今仍未露面,连预先录制的视频或音频也没有,伊朗驻俄大使称其或于8月12日现身与普京会晤

接班满两个月,伊朗最高领袖穆杰塔巴至今仍未露面,连预先录制的视频或音频也没有,伊朗驻俄大使称其或于8月12日现身与普京会晤

极目新闻
2026-05-08 10:16:28
鲁比奥一句话,令岛内上下震动,大陆已做好准备,郑丽文打算拼了

鲁比奥一句话,令岛内上下震动,大陆已做好准备,郑丽文打算拼了

头条爆料007
2026-05-07 15:59:18
江苏生态环境厅工作组赴徐州调查,多部门连夜转运黑臭水体

江苏生态环境厅工作组赴徐州调查,多部门连夜转运黑臭水体

上观新闻
2026-05-08 06:34:12
比核弹更致命?伊朗海底7条光缆,扼住全球经济命脉

比核弹更致命?伊朗海底7条光缆,扼住全球经济命脉

网易新闻出品
2026-05-07 19:33:27
伊朗外长太聪明了:不求中国给飞机大炮,只求中国一件事!

伊朗外长太聪明了:不求中国给飞机大炮,只求中国一件事!

安安说
2026-05-07 11:09:34
突发!王暖暖深夜被送往医院抢救,护士反复喊其名字,疑原因曝光

突发!王暖暖深夜被送往医院抢救,护士反复喊其名字,疑原因曝光

裕丰娱间说
2026-05-08 07:14:12
2026-05-08 11:20:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 546317关注度
往期回顾 全部

科技要闻

追赶星舰:中国商业火箭离SpaceX有多远?

头条要闻

媒体:特朗普党内同盟访华 当着王毅的面感谢中国

头条要闻

媒体:特朗普党内同盟访华 当着王毅的面感谢中国

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

黄子佼获缓刑4年,无需入狱服刑

财经要闻

一觉醒来,美伊又打起来了

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

家居
艺术
本地
数码
公开课

家居要闻

破茧成蝶 土味精装房爆改

艺术要闻

21 岁徐悲鸿画的 “天价仙女”,被网友骂 “生无可恋”

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

Satechi推出USB4 v2 80Gbps移动硬盘盒DotDisk

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版