网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek开始频繁更新:Tile Kernels、DeepEP V2

0
分享至



机器之心编辑部

就在刚刚,DeepSeek 的 GitHub 开始了频繁更新,上线开源了一个新的代码库Tile Kernels,同时并对 DeepEP 代码库进行了更新,上线了DeepEP V2。距离上次 DeepSeek 悄悄更新 Mega MoE、FP4 Indexer 还不到一周。

Tile Kernels



链接:https://github.com/deepseek-ai/TileKernels

据介绍,Tile Kernels 是为 LLM 操作优化的 GPU kernels,是用 TileLang 构建的。而 TileLang 是一种用于在 Python 中表达高性能 GPU kernels 的领域特定语言,具备易迁移、敏捷开发和自动优化等特性。

Tile Kernels 的性能非常强悍,正如 DeepSeek 写的那样:「本项目中的大多数 kernels 在计算强度和内存带宽方面都已接近硬件性能上限。其中部分已经在内部训练和推理场景中投入使用。不过,它们尚不代表最佳实践,我们也在持续改进代码质量和文档。」

代码库的介绍信息不多,然而字里行间「剧透」了 DeepSeek 下一代模型底层的架构创新路线。

下面是 Tile Kernels 的一些具体特性:

  • 门控机制:用于 MoE 路由的 Top-k 专家选择与打分
  • MoE 路由:Token 到专家的映射,融合的扩展 / 归约以及权重归一化
  • 量化(Quantization):支持 per-token、per-block、per-channel 的 FP8/FP4/E5M6 转换,并融合 SwiGLU + quantization 操作
  • 转置:批量转置操作
  • Engram:Engram gating kernels,融合 RMSNorm、前向 / 反向传播以及权重梯度归约
  • Manifold HyperConnection:超连接 kernels,包含 Sinkhorn 归一化以及 mix 的拆分与应用
  • Modeling:高层 torch.autograd.Function 封装,将底层 kernels 组合为可训练层(engram gate、mHC pipeline)

EPv2:更快的 EP、并支持 Engram/PP/CP



EPv2 地址:https://github.com/deepseek-ai/DeepEP/pull/605

在今天更早的时候,DeepSeek 还发布了最新版本的EPv2,实现了更快的专家并行(EP),并支持 Engram / 流水线并行(PP)、上下文并行(CP)。

随着硬件、网络和模型架构的演进,DeepSeek 此前的 DeepEP V1 积累了过多的历史包袱和性能问题。

本次更新对专家并行(Expert Parallelism)进行了彻底重构 —— 与 V1 相比,仅需几分之一的 SM 资源即可实现极致性能,同时支持更大规模的 Scale-up(单机扩展)和 Scale-out(跨机扩展)。

此外,DeepSeek 还在本次更新中推出了实验性的 0 SM 系列方案,包括 0 SM Engram、0 SM 流水线并行(PP)以及 0 SM 上下文并行(CP)的 All-gather 算子。此外,后端已从 NVSHMEM 切换为更加轻量化的 NCCL Gin 后端。

下面是 DeepEP V2 版本的一些新特性:

  • 全时即时编译 (Fully JIT)
  • NCCL Gin 后端:
  • 仅包含头文件(Header-only),极致轻量。
  • 能够复用现有的 NCCL 通信器。
  • EPv2:
  • 将高吞吐与低延迟 API 统一为单一接口,并采用全新的 GEMM 布局。
  • 支持更大规模的扩展领域(最高支持 EP2048)。
  • 引入分析化的 SM 和 QP 计数计算 —— 无需再进行自动调优(Auto-tuning)。
  • 持续支持混合模式(Hybrid)与直接模式(Direct)。
  • 针对类 V3 的旧版训练任务,SM 占用从 24 个降至 4-6 个,同时保持同等甚至更优的性能。
  • 0 SM Engram(配合 RDMA)
  • 0 SM PP(配合 RDMA)
  • 0 SM CP(配合 Copy Engine)

性能表现

遵循 DeepSeek-V3 的配置,在新版本下,在每批次 8K token、7168 隐层维度、Top-8 专家、FP8 分发以及 BF16 结合的设置下进行了测试,结果如下:



说明:结果显示的是逻辑带宽。例如在 EP 8 x 2 的情况下,90 GB/s 的带宽实际上包含了本地显卡(local rank)间的流量。

与 V1 相比,V2 实现了高达 1.3 倍的峰值性能,同时节省了多达 4 倍的 SM 资源占用。

最后,劝一下 DeepSeek,赶快发 V4 吧,都等急了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球最毒的10大垃圾食物榜单,泡面没上榜,“真凶”很多人每天吃

全球最毒的10大垃圾食物榜单,泡面没上榜,“真凶”很多人每天吃

小谈食刻美食
2026-04-23 07:54:50
谷雨后,不建议买5种蔬菜,口感不好,还没营养,菜贩自己都不吃

谷雨后,不建议买5种蔬菜,口感不好,还没营养,菜贩自己都不吃

阿龙美食记
2026-04-22 18:39:10
揪心!女生受邀赴泰过泼水节,被转卖缅甸电诈园,20万元赎金付完仍被困……

揪心!女生受邀赴泰过泼水节,被转卖缅甸电诈园,20万元赎金付完仍被困……

新民周刊
2026-04-23 18:53:58
决胜盘吞蛋!金花一姐王欣瑜爆冷遭逆转,无缘马德里站32强

决胜盘吞蛋!金花一姐王欣瑜爆冷遭逆转,无缘马德里站32强

全景体育V
2026-04-23 20:36:46
中美金融战,意外的帮中国解决了,房地产这个尾大不掉的问题

中美金融战,意外的帮中国解决了,房地产这个尾大不掉的问题

混沌录
2026-04-23 17:00:12
辽宁美女“宝姐”去世,年仅40岁,长得很漂亮,一月前还好好的

辽宁美女“宝姐”去世,年仅40岁,长得很漂亮,一月前还好好的

180视角
2026-04-23 07:57:38
5月1日起全面严查!在职退休无一例外,这5类人好日子到头了

5月1日起全面严查!在职退休无一例外,这5类人好日子到头了

细说职场
2026-04-23 10:38:58
最新公布:韩国两战机“空中碰撞”,原因竟是飞行员拍照记录自己“最后一次飞行”

最新公布:韩国两战机“空中碰撞”,原因竟是飞行员拍照记录自己“最后一次飞行”

环球时报国际
2026-04-23 20:42:17
快讯!欧盟全票通过对乌克兰900亿欧元贷款!

快讯!欧盟全票通过对乌克兰900亿欧元贷款!

达文西看世界
2026-04-23 12:57:09
“最强地级市”迎来新市长

“最强地级市”迎来新市长

观察者网
2026-04-23 15:59:12
曝中国枪迷赴英看阿森纳比赛被捕!坐了9年牢 狱警拿1-5来羞辱他

曝中国枪迷赴英看阿森纳比赛被捕!坐了9年牢 狱警拿1-5来羞辱他

风过乡
2026-04-23 17:16:10
被轰9连鞭 23岁斯佳辉面如死灰:3-10不敌伊朗选手 3年前遭11连鞭

被轰9连鞭 23岁斯佳辉面如死灰:3-10不敌伊朗选手 3年前遭11连鞭

风过乡
2026-04-23 21:54:22
特朗普“狂怒”灭掉了伊朗军队?美国官员悄悄说:不,并没有!

特朗普“狂怒”灭掉了伊朗军队?美国官员悄悄说:不,并没有!

国是直通车
2026-04-23 20:07:07
都在问,海军宣传片里的“新兵何剑”,暗示中国第四艘航母吗?

都在问,海军宣传片里的“新兵何剑”,暗示中国第四艘航母吗?

枢密院十号
2026-04-23 18:31:15
王会民,非法收受他人财物,数额特别巨大

王会民,非法收受他人财物,数额特别巨大

新京报
2026-04-23 10:21:20
纠偏“吞并论”:战略协同是阿维塔高端化最强“助推器”

纠偏“吞并论”:战略协同是阿维塔高端化最强“助推器”

AutoBusiness
2026-04-23 15:25:05
比卡扎菲还狂!以色列代表在联合国公然挑衅中俄,彻底捅破天

比卡扎菲还狂!以色列代表在联合国公然挑衅中俄,彻底捅破天

书纪文谭
2026-04-23 19:06:49
伊朗处决米尔贾法里

伊朗处决米尔贾法里

新京报政事儿
2026-04-22 08:20:10
比亚迪在马来西亚的东盟首个整车基地已全面停工,项目陷入僵局

比亚迪在马来西亚的东盟首个整车基地已全面停工,项目陷入僵局

流苏晚晴
2026-04-22 19:05:45
意大利或递补世界杯?罗体:FIFA可能直接指定,也可能安排附加赛

意大利或递补世界杯?罗体:FIFA可能直接指定,也可能安排附加赛

懂球帝
2026-04-23 18:35:08
2026-04-24 01:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12839文章数 142635关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

房产
教育
手机
亲子
公开课

房产要闻

三亚安居房,突然官宣!

教育要闻

家长让老师给发电子版试卷,却被老师指责派头大,到底谁的问题?

手机要闻

vivo X500 Pro Max被曝光:2nm工艺+5GHz,2K直屏九月发!

亲子要闻

新华读报|打乒乓球有助提高儿童注意力

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版