网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek开始频繁更新:Tile Kernels、DeepEP V2

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心编辑部

就在刚刚,DeepSeek 的 GitHub 开始了频繁更新,上线开源了一个新的代码库 Tile Kernels,同时并对 DeepEP 代码库进行了更新,上线了 DeepEP V2。距离上次 DeepSeek 悄悄更新 Mega MoE、FP4 Indexer 还不到一周。

Tile Kernels


链接:https://github.com/deepseek-ai/TileKernels

据介绍,Tile Kernels 是为 LLM 操作优化的 GPU kernels,是用 TileLang 构建的。而 TileLang 是一种用于在 Python 中表达高性能 GPU kernels 的领域特定语言,具备易迁移、敏捷开发和自动优化等特性。

Tile Kernels 的性能非常强悍,正如 DeepSeek 写的那样:「本项目中的大多数 kernels 在计算强度和内存带宽方面都已接近硬件性能上限。其中部分已经在内部训练和推理场景中投入使用。不过,它们尚不代表最佳实践,我们也在持续改进代码质量和文档。」

代码库的介绍信息不多,然而字里行间「剧透」了 DeepSeek 下一代模型底层的架构创新路线。

下面是 Tile Kernels 的一些具体特性:

  • 门控机制:用于 MoE 路由的 Top-k 专家选择与打分

  • MoE 路由:Token 到专家的映射,融合的扩展 / 归约以及权重归一化

  • 量化(Quantization):支持 per-token、per-block、per-channel 的 FP8/FP4/E5M6 转换,并融合 SwiGLU + quantization 操作

  • 转置:批量转置操作

  • Engram:Engram gating kernels,融合 RMSNorm、前向 / 反向传播以及权重梯度归约

  • Manifold HyperConnection:超连接 kernels,包含 Sinkhorn 归一化以及 mix 的拆分与应用

  • Modeling:高层 torch.autograd.Function 封装,将底层 kernels 组合为可训练层(engram gate、mHC pipeline)

EPv2:更快的 EP、并支持 Engram/PP/CP


EPv2 地址:https://github.com/deepseek-ai/DeepEP/pull/605

在今天更早的时候,DeepSeek 还发布了最新版本的 EPv2,实现了更快的专家并行(EP),并支持 Engram / 流水线并行(PP)、上下文并行(CP)。

随着硬件、网络和模型架构的演进,DeepSeek 此前的 DeepEP V1 积累了过多的历史包袱和性能问题。

本次更新对专家并行(Expert Parallelism)进行了彻底重构 —— 与 V1 相比,仅需几分之一的 SM 资源即可实现极致性能,同时支持更大规模的 Scale-up(单机扩展)和 Scale-out(跨机扩展)。

此外,DeepSeek 还在本次更新中推出了实验性的 0 SM 系列方案,包括 0 SM Engram、0 SM 流水线并行(PP)以及 0 SM 上下文并行(CP)的 All-gather 算子。此外,后端已从 NVSHMEM 切换为更加轻量化的 NCCL Gin 后端。

下面是 DeepEP V2 版本的一些新特性:

  • 全时即时编译 (Fully JIT)

  • NCCL Gin 后端:

    • 仅包含头文件(Header-only),极致轻量。

    • 能够复用现有的 NCCL 通信器。

    EPv2:

    • 将高吞吐与低延迟 API 统一为单一接口,并采用全新的 GEMM 布局。

    • 支持更大规模的扩展领域(最高支持 EP2048)。

    • 引入分析化的 SM 和 QP 计数计算 —— 无需再进行自动调优(Auto-tuning)。

    • 持续支持混合模式(Hybrid)与直接模式(Direct)。

    • 针对类 V3 的旧版训练任务,SM 占用从 24 个降至 4-6 个,同时保持同等甚至更优的性能。

    0 SM Engram(配合 RDMA)

    0 SM PP(配合 RDMA)

    0 SM CP(配合 Copy Engine)

    性能表现

    遵循 DeepSeek-V3 的配置,在新版本下,在每批次 8K token、7168 隐层维度、Top-8 专家、FP8 分发以及 BF16 结合的设置下进行了测试,结果如下:


    说明:结果显示的是逻辑带宽。例如在 EP 8 x 2 的情况下,90 GB/s 的带宽实际上包含了本地显卡(local rank)间的流量。

    与 V1 相比,V2 实现了高达 1.3 倍的峰值性能,同时节省了多达 4 倍的 SM 资源占用。

    最后,劝一下 DeepSeek,赶快发 V4 吧,都等急了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么脑梗逐年增多?提醒:与肥肉无关,有一样东西要少碰

为什么脑梗逐年增多?提醒:与肥肉无关,有一样东西要少碰

芹姐说生活
2026-04-19 08:33:41
许世友携枪赴京悼念毛主席,遭机长拒飞,他质问是谁下的命令?

许世友携枪赴京悼念毛主席,遭机长拒飞,他质问是谁下的命令?

舆图看世界
2026-04-05 12:35:06
网传孙吉被前妻实名举报:骗婚、出轨、海外拥有巨额不明资产

网传孙吉被前妻实名举报:骗婚、出轨、海外拥有巨额不明资产

懂球帝
2026-04-22 12:46:51
申京:0-2落后并没有感到沮丧,去年1-3落后我们也追到了抢七

申京:0-2落后并没有感到沮丧,去年1-3落后我们也追到了抢七

懂球帝
2026-04-24 13:09:17
曾凡博:去年腰一断,整个身体的劲就泄了 现在身体并没有完全好

曾凡博:去年腰一断,整个身体的劲就泄了 现在身体并没有完全好

狼叔评论
2026-04-24 17:04:05
向太一语道破内情,张兰为何不愿赠房产,马筱梅的泪水太揪心

向太一语道破内情,张兰为何不愿赠房产,马筱梅的泪水太揪心

乐悠悠娱乐
2026-04-24 11:01:30
24小时内3艘货轮遇袭,新加坡外长:若中美开战,美伊只能算彩排

24小时内3艘货轮遇袭,新加坡外长:若中美开战,美伊只能算彩排

标体
2026-04-23 17:19:48
俄副外长:俄方获邀以最高级别参加美国G20峰会

俄副外长:俄方获邀以最高级别参加美国G20峰会

财联社
2026-04-23 11:20:05
即将封闭!广州这一路段将停止使用

即将封闭!广州这一路段将停止使用

广州交通电台
2026-04-24 13:16:33
宋祖儿曾分享减肥经历,长期坚持每日一餐,10个月完全不摄入米饭等主食

宋祖儿曾分享减肥经历,长期坚持每日一餐,10个月完全不摄入米饭等主食

情感大头说说
2026-04-24 12:08:00
5月1日物业新规正式执行!六大行为全面禁止,业主终于熬出头了!

5月1日物业新规正式执行!六大行为全面禁止,业主终于熬出头了!

复转这些年
2026-04-24 19:45:38
张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

木子爱娱乐大号
2026-01-07 21:47:13
歼-10CE赴伊朗,巴铁将领当总统面点名中国

歼-10CE赴伊朗,巴铁将领当总统面点名中国

走过海棠
2026-04-23 18:50:04
鸿蒙智行发布会现车辆滞留争议 官方呼吁勿过度解读

鸿蒙智行发布会现车辆滞留争议 官方呼吁勿过度解读

新浪财经
2026-04-23 22:09:12
暴增7919.37%!301500,一季度盈利超去年全年

暴增7919.37%!301500,一季度盈利超去年全年

证券时报e公司
2026-04-24 20:06:43
1949年,倘若蒋介石听从建议退守越南,而不是台湾,如今会是啥样

1949年,倘若蒋介石听从建议退守越南,而不是台湾,如今会是啥样

闻香阁
2026-04-23 18:56:33
通风管里藏了10小时!他盗走约150万元黄金,结果当晚就被抓

通风管里藏了10小时!他盗走约150万元黄金,结果当晚就被抓

极目新闻
2026-04-21 20:59:58
123国同时发出逮捕令,中国为何选择此刻在安理会“算总账”?

123国同时发出逮捕令,中国为何选择此刻在安理会“算总账”?

王姐懒人家常菜
2026-04-24 18:46:27
“雌激素旺盛!莱昂诺尔公主姐妹脂肪集中在大腿臀部,不像少女身材

“雌激素旺盛!莱昂诺尔公主姐妹脂肪集中在大腿臀部,不像少女身材

小鱼爱鱼乐
2026-04-22 15:56:58
就在今天,韦德用16年创造的季后赛纪录,被哈登打破了

就在今天,韦德用16年创造的季后赛纪录,被哈登打破了

大西体育
2026-04-24 19:17:25
2026-04-24 22:20:50
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3002220文章数 6911关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

航班提前起飞10分钟 大学生把海航告了

头条要闻

航班提前起飞10分钟 大学生把海航告了

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

游戏
本地
数码
房产
公开课

《暗黑破坏神4》3.0版本将推出地图叠加功能

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

数码要闻

净水器排名前十强盘点:这些热卖品牌霸榜,什么牌子好一目了然

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版