网易首页 > 网易号 > 正文 申请入驻

闪电快讯|开源周第二天,DeepSeek公开MoE架构并行思路

0
分享至

记者|董温淑

编辑|高宇雷

2月25日上午,DeepSeek放出了其开源周中的第二个技术成果“DeepEP”。

掀起全球大模型浪潮的OpenAI曾在2024年举办过的开源周(OpenSourceWeek)活动做法,而DeepSeek自蛇年春节爆火后,也采取了类似做法。

2月21日,DeepSeek在其官方X账号宣布,计划在接下来一周中举办开源周活动,陆续开源5个代码库。

2月24日,针对NVIDIA Hopper GPU开发的MLA(Multi-head Latent Attention,多头潜在注意力)高效解码内核 “FlashMLA”在开源周中打了头阵。

简而言之,FlashMLA是DeepSeek专门针对NVIDIA Hopper系列高端加速卡(H800)所做的深度优化;而25日最新亮相的DeepEP,是一款专为混合专家模型(MoE)训练推理过程中采用专家并行策略(Expert Parallel ,EP)所设计的通信库。

MoE架构的核心思想是将一个复杂的问题分解、分类成多个更小、更易于管理的子问题,并由不同的专家网络分别处理,不同的专家网络所擅长处理的问题不同,以此节省计算成本,最终再将所有专家的输出结果汇总。这也是GPT-4等模型采用的设计方法。然而,MoE架构中核心的专家并行、不同专家网络之间同步参数等步骤,则会引来更高的通信成本。

EP策略本质上即是把MoE架构下的各个“专家”子模型部署到不同的GPU或计算节点上,让它们可以独立地运算、进行前向和反向传播。

根据公开信息,本次开源的DeepEP可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。

同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。

相较其他竞品,DeepSeek-V3和R1模型的一大特点是在保证性能的前提下训练成本极低。

按每 GPU 小时 2 美元的价格计算,DeepSeek-V3 的整体训练成本约为 557.6 万美元。而Claude 3.5 Sonnet训练成本在数千万美元,GPT-4 的训练成本则大约为7800 万美元。

本次DeepSeek开源的两大代码库,都体现了其节省训练成本的独特思路。接下来,还有三项技术成果等待公布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
雷军彻底疯狂,小米拿下4000亿

雷军彻底疯狂,小米拿下4000亿

新浪财经
2026-03-25 23:42:55
梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

兴趣知识
2026-03-25 12:32:27
比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

娱乐圈的笔娱君
2026-03-26 17:21:17
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

鹤羽说个事
2026-03-25 21:56:09
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
马斯克最新回复来了

马斯克最新回复来了

新浪财经
2026-03-26 19:29:33
江苏省盐城市政协原副主席潘道津接受审查调查

江苏省盐城市政协原副主席潘道津接受审查调查

界面新闻
2026-03-26 19:12:28
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

共工之锚
2026-03-22 00:48:09
A股:大盘精准跌到3889.08点,不出意外的话,接下来行情这么走!

A股:大盘精准跌到3889.08点,不出意外的话,接下来行情这么走!

夜深爱杂谈
2026-03-26 20:11:02
巨石强森壮汉穿假体演半神,这半遮半掩的曲线,谁能顶得住?

巨石强森壮汉穿假体演半神,这半遮半掩的曲线,谁能顶得住?

娱乐领航家
2026-03-26 20:00:03
信张维迎还是信张维为?这是一个时代之问

信张维迎还是信张维为?这是一个时代之问

壹家言
2026-03-24 22:54:33
30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

快科技
2026-03-26 17:01:50
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
准绝杀!可惜了,陈国豪!

准绝杀!可惜了,陈国豪!

左右为篮
2026-03-26 21:57:01
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
2026-03-26 22:44:49
电厂 incentive-icons
电厂
探索科技公司的未知,为你充电
2047文章数 1056关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
房产
教育
游戏
公开课

艺术要闻

哪一座桥不是风景?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

骂人没有杀伤力?那不是白忙活吗?

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版