网易首页 > 网易号 > 正文 申请入驻

回顾DeepSeek“开源周”:越是开源,越能扩大生态

0
分享至

界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

2月最后一天,DeepSeek开源周正式收官。连续五天,这家公司刷新自己在大模型开源生态中的技术地位。

五天一共对应五个开源代码库,分别是FlashMLA,DeepEP,DeepGEMM,DualPipe和EPLB对应的优化并行策略,以及推进器3FS和轻量化数据处理工具Smallpond。在Github,这些项目累计获得星星数量接近2.8万颗。

首日的FlashMLA最为重磅。DeepSeek对其核心介绍是,这是一款面向Hopper GPU(英伟达第九代GPU架构)的高效MLA解码内核(MLA decoding kernel ),并针对可变长度序列的服务场景进行了优化。

MLA——Multi-Head Latent Attention(多头潜在注意力机制)是DeepSeek在V2时期的重要创新,也是降本的关键。FlashMLA则是针对MLA在解码阶段的注意力加速器。

用户输入的自然语言数据序列往往长短不一,如果只按照传统注意力机制会造成算力资源浪费。FlashMLA可以针对不同token长度动态调配计算资源。总体上来说,这还是DeepSeek就H800持续压榨其硬件性能利用效率——这也是DeepSeek素来最擅长的能力之一。

次日的DeepEP核心目的仍在于拉升GPU效能。这是一个专为专家混合(MoE)和专家并行(EP)量身定制的通信库。

简单而言,它通过建立一个全对全的中间系统,高效协同专家模型之间的通信,实现高吞吐量和低延迟的兼顾,并且支持FP8等低精度操作以降低计算资源消耗,最终大幅提升了大模型的训练和推理效率。

第三天的DeepGEMM来自DeepSeek-V3,是一个可用于FP8精度的通用矩阵乘法(GEMM)加速库。

通用矩阵乘法是大模型提高训练效率的重要一环,但往往还是会造成巨大的计算量。DeepGEMM的目的是在降低消耗、提升速度的同时,还能保持计算的准确度。它先是利用FP8这一低精度但快速的方式完成计算,再利用英伟达的CUDA核心对其进行精加工。

事实上,英伟达基于CUDA架构打造的CUTLASS也是用于加速这类计算,但更适用于通用且强性能的矩阵加速库。而DeepGEMM不仅在性能上可以与专家调优的库相当,而且更加轻量化,仅用300行代码就实现,且安装时无需编译,通过轻量级JIT模块就可在运行时编译所有内核。

第四天是由DualPipe和EPLB构成的优化并行策略。

DualPipe是一种双向并行算法,简单而言,它以“双向”的调度方式,在参数翻倍的情况下,大幅减少了流水线并行过程中,因为不同“工序”进程快慢而产生浪费效率的“气泡”,也就是计算和通信阶段的等待时间。

EPLB是一种“专家并行负载均衡器”,可对MoE架构中的高负载专家复制为“冗余专家”,以分担同类任务计算量,并利用“启发式分配算法”,将高负载专家分配到低负载显卡上,以优化GPU之间的负载均衡。它还会尽量将需要高度协同的专家放置在同一节点上,以提高通信效率。

最后一天是3FS(Fire-Flyer File System)以及数据处理框架Smallpond。

3FS是一个可实现高速数据访问,提高AI模型训练和推理效率的分布式文件系统。它相当于利用SSD(用于数据存储与加载、实现快速数据交换等)以及RDMA(支持分布式训练通信和高性能网络架构等)建立一个共享存储层,使模型对于资源调取和数据传输,都更为极速、自动化且高吞吐。

在此基础上,Smallpond可以进一步优化3FS的数据管理能力,能够处理PB级别(1PB 数据量大约可以存储20万部5GB大小的高清电影)的数据。

需要指出的是,DeepSeek开源周的所有内容,几乎都是“开箱即用”,团队均提供了相对完整细致的操作指南。

一名AI大模型行业人士对界面新闻记者表示,这五项开源内容的重要意义相当,都是针对训练效率的优化细节。不过他指出,DeepEP可能相对突出,因为对MoE的提升尤为明显。

另一名关注大模型行业技术进展的投资人同样表示,这些内容均可以视为DeepSeek在AI Infra层的优异表现。

他认为,针对AI Infra的优化措施其实存在于任何一家AI大模型公司,而DeepSeek之所以选择开源,除了可以诉诸其技术理想外,一个核心目的还是在于让业界能够更好部署和使用其开源模型,建立其更大的开源生态。“从战略上来说,这也是一个很明确的先后步骤。”

此外,对于DeepSeek开源周的动作,还有一种讨论声音是它看起来与英伟达的硬件生态绑定更深了。

但前述受访者认为这是一条合理路径。他指出,如果是针对国产硬件生态,DeepSeek还可以另起一套代码库来适配,两者不是非此即彼的关系。与此同时,当DeepSeek具备的是面向全球大模型的生态视野,针对英伟达GPU展示优化能力也是一种必要动作。

事实上,在DeepSeek选择开源这一周,海内外大模型发布动作频繁且热闹,其中包括腾讯新一代快思考模型混元Turbo S,阿里通义千问推理模型QwQ-Max预览版,以及Anthropic的Claude 3.7 Sonnet,和OpenAI万众瞩目的GPT-4.5。

出人意料的是,GPT-4.5并未激起巨大水花,甚至落下一众令人失望的评价。除了各方面基准测试超过4o,并在准确度和幻觉率上有了明显优化,GPT-4.5没有像从前新模型发布那样让人“震撼”的表现。

唯一的震撼或许在于定价。GPT-4.5每百万tokens输入为75美元,输出为150美元,价格分别达到了DeepSeek-V3的280倍及150倍。

OpenAI CEO Sam Altman在X平台上表示,GPT-4.5将是其最后一个非链式思维模型,未来发布的GPT-5将是一个包含o3在内的多种技术混合模型。这俨然让GPT-4.5的存在感降到更低。

回到DeepSeek的开源动作上,到目前为止,这家公司在绝大多数的算法和工程细节上都毫无保留。但它仍然将一些难以复制的核心能力牢牢掌握在自己手上,例如对于模型训练深层次的know how,以及训练数据方面的细节,这是达成DeepSeek式创新的核心秘密所在。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

界面新闻
2026-03-26 16:51:04
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

智东西
2026-03-26 20:49:23
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

毒舌NBA
2026-03-26 13:11:59
中国移动官宣!4月30日起全国统一执行,事关所有手机号

中国移动官宣!4月30日起全国统一执行,事关所有手机号

Thurman在昆明
2026-03-26 13:35:46
偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

TVB的四小花
2026-03-24 12:22:03
最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

魔都姐姐杂谈
2026-03-24 20:50:19
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

财联社
2026-03-26 18:29:05
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
恭喜!“CBA第一恶人”许钟豪,正式上任主教练,曾帮广厦夺冠

恭喜!“CBA第一恶人”许钟豪,正式上任主教练,曾帮广厦夺冠

吴朑爱游泳
2026-03-26 23:22:01
2026-03-27 00:43:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1044443文章数 1332043关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
手机
公开课
军事航空

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版