网易首页 > 网易号 > 正文 申请入驻

百度开源训练框架,国产芯片也能跑千亿模型了

0
分享至

4月24日,DeepSeek V4 虽迟但到。

1.6T 参数,MIT 协议全量开源,百万级上下文直接拉满。


鼓掌的除了整个科技圈,还有那些在前一天卖空 Minimax 和智谱股票的股民们。

但内行人更关注的是,DeepSeek V4 创新性地用了两套全新的底层设计:Engram 条件记忆模块和 mHC(流形约束超连接)。

核心目的只有一个:在保持模型效果的前提下,把训练和推理的成本打下来。

这说明了一件事:模型层面的创新,正在和基础设施层面的创新深度绑定。

一个月前,OpenAI 核心基础设施团队的大牛翁家翌说了一段话,在技术圈疯传:"现在的大模型竞争,拼的不是 Idea 多精妙,而是 AI Infra 的正确性与单位时间内的迭代次数。Idea 是廉价的,能被快速验证的 Idea 才值钱。"

这句话,百度智能云的百舸团队显然听进去了。

最近,他们开源了一个 AI 训练框架,直接把这场"速度战"的烈度往上抬了一个量级。

一个几百亿参数的模型,一张 GPU 卡装不下,得"切"成很多块,放到几十张甚至几千张卡上同时训练。

怎么切?模型有几百层,每层都要切,切错了就跑不起来。

怎么通信?几千张卡在训练,每张卡算完自己的部分,要和其他卡交换数据。交换慢了,整个训练就慢了。

怎么管理显存?模型参数、梯度、优化器状态,都要占显存。显存不够,训练就崩了。

怎么保证稳定?几千张卡跑几天几夜,中间某张卡出问题了,整个训练要重来吗?

这些问题,如果让每个工程师自己解决,那得累死。于是就有了"训练框架"。

它像一个智能管家——自动切分模型、优化通信、管理显存、保证容错。

有了这个"老师傅",工程师才能专注于模型创新,而不是被工程细节拖死。

把时间拉回两年前,那时大模型基本都是"纯文字",训练框架早就很成熟了,而且绑在 NVIDIA 一棵树上。

但到了现在,情况变了:文生图、图生文、视频理解、机器人控制……所有最性感的 AI 方向,都是多模态。

训练多模态模型,和训练纯文字大模型,完全不是一个概念。

多模态模型——视觉编码器(ViT)+ 语言模型(LLM)+ 投影层,三个模块参数量差了上百倍。传统框架只能给它们强制套用同一套并行策略——小的模块闲死,大的模块累死。

多模态数据差异巨大:单张图片约 256 token,20 分钟视频超 10 万 token。

Attention 的计算复杂度是序列长度的平方级,分到视频的那块 GPU,计算量是分到图片的上万倍。

国产芯片越来越多地进入大模型训练场景,但训练框架是深度绑定英伟达 GPU。换芯片?重写一遍,维护两套代码,成本极高。好不容易迁移完了,还发现性能对不上。

老框架们面对多模态,就像中年人面对 996,力不从心。

百度智能云百舸团队给出的答案,是一个全模态训练框架——覆盖纯文字(LLM)、视觉语言(VLM)、机器人控制(VLA),甚至文生图(Diffusion)场景。

但说人话就是:他们把上面那三个坑,一个一个填了。

传统框架"一刀切"的并行策略,对视觉编码器和语言模型都不友好。

新框架的做法是:把这两者解耦,各自独立配置最优的并行方案。

这相当于什么?以前是三个人挤一张桌子吃饭,小个子够不着,大个子伸不开腿。现在是各坐各的桌椅,各用各的餐具,谁也不耽误谁。

传统框架的"大锅饭"思路,不只耽误效率,还浪费成本。

新框架引入了一套自动负载均衡机制:计算量大的样本(比如长视频),少分配一些;计算量小的样本(比如单张图片),多分配一些。目标是让每块 GPU 拿到的计算量尽量相当。

这就像一个聪明的项目经理,给能力强的人多分配任务,让团队整体效率最高。

解释一下这个 90%+ 是什么概念——千卡规模下,很多框架的扩展效率掉到 60-70% 就已经算不错了。90%+ 意味着几乎线性扩展,每一分算力都花在了刀刃上。

针对芯片绑定的问题,新框架做了一个叫 XPU_Plugin 的硬件接入层——底层硬件差异被这层插件吃掉。同一份训练代码,只改一个环境变量,就能在 GPU 和昆仑芯之间无缝切换。想"两条腿走路"的公司,不需要维护两套代码库了。

这甚至意味着,NVIDIA 的生态壁垒,被拆掉了一层。

新框架还解决了一个更刁钻的问题:MoE 模型的通信瓶颈。

MoE 有大量"专家"分散在不同 GPU 上,训练要频繁跨 GPU 通信,长序列时通信成百上千次,速度被拖死。业界常规做法是让计算和通信"重叠"——GPU 算当前数据时,同时传输下一批,通信时间"藏"在计算里。但提前存下一批数据,显存会爆炸,长序列时这块显存可能比模型本身还大。

所以 MoE 训练要么显存爆炸,要么通信慢。

新框架的解法是一套组合拳。DeepSeek v3.2 用了稀疏注意力技术,只计算重要关系,忽略不重要的,大幅降低计算量。新框架对此做了深度优化:算子融合、索引优化、KV 布局优化、序列拼接。

另一个痛点是新模型接入。传统框架的模型定义和分布式策略深度耦合,每来一个新模型,得深入底层改代码,周期以周计。新框架把两者解耦,模型定义完全独立,接入周期缩短到小时级。

翁家翌那句话的含金量还在上升:能被快速验证的 Idea 才值钱。框架把工程门槛打下来,验证速度才能上去。

从更宏观的视角看,这件事的意义不止于技术层面。

训练框架是 AI 基础设施的核心组件,之前基本是海外巨头的天下。百度这次开源,意味着国产 AI 基础设施又多了一块关键拼图。

对于想做大模型的公司来说,多了一个不绑定单一芯片的选择。对于国产芯片来说,多了一个能被真正用起来的软件生态。

模型创新 + 基础设施创新,两条腿走路的范式,正在变成现实。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“寻天”商标注册!小米欲成立汽车独立子品牌?官方未作回应

“寻天”商标注册!小米欲成立汽车独立子品牌?官方未作回应

每日经济新闻
2026-05-09 19:47:07
白打一轮!英超升级迎来大变革,四队零进球,全部都在“演戏”?

白打一轮!英超升级迎来大变革,四队零进球,全部都在“演戏”?

嗨皮看球
2026-05-10 00:35:15
套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

魔都姐姐杂谈
2026-05-09 20:58:28
状态正佳,多库首次连场英超破门,曼城生涯首次连续3场进球

状态正佳,多库首次连场英超破门,曼城生涯首次连续3场进球

懂球帝
2026-05-10 02:05:27
4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

风过乡
2026-05-09 17:29:03
产品为基,技术为擎,用户为本:红旗高质量发展三重奏

产品为基,技术为擎,用户为本:红旗高质量发展三重奏

大众侃车
2026-05-09 17:54:52
15.98万,真的疯了

15.98万,真的疯了

放毒
2026-05-09 18:53:10
热搜上引众怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

热搜上引众怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

小椰子专栏
2026-05-09 13:25:28
外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

闪电新闻
2026-05-09 09:31:06
5月9日阅兵的俄罗斯,走向垃圾时间

5月9日阅兵的俄罗斯,走向垃圾时间

黔有虎
2026-05-09 16:22:09
人民日报发声:机关事业单位的隐性收入,正在消失

人民日报发声:机关事业单位的隐性收入,正在消失

细说职场
2026-05-09 12:16:27
申花球迷意难平!不止因为2-2憾平铜梁龙,更多在于以下这五点!

申花球迷意难平!不止因为2-2憾平铜梁龙,更多在于以下这五点!

田先生篮球
2026-05-09 22:11:34
台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

风向观察
2026-05-09 13:29:53
果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

精彩启程
2026-05-09 23:51:47
阿斯:阿韦洛亚开了上任以来最艰难的发布会,他一度眼含泪水

阿斯:阿韦洛亚开了上任以来最艰难的发布会,他一度眼含泪水

懂球帝
2026-05-09 21:38:55
病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

混沌录
2026-05-09 14:54:10
特斯拉车主苦等多年,这个HUD终于把导航放回眼前

特斯拉车主苦等多年,这个HUD终于把导航放回眼前

闪存猎手
2026-05-09 01:01:43
抓了那么多贪官,钱呢?跟我们有关系吗?

抓了那么多贪官,钱呢?跟我们有关系吗?

细说职场
2026-05-08 22:15:45
昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

天天热点见闻
2026-05-09 18:41:26
击败罗马尼亚,中国队晋级世乒赛女团决赛,将与日本队争冠

击败罗马尼亚,中国队晋级世乒赛女团决赛,将与日本队争冠

澎湃新闻
2026-05-09 20:58:27
2026-05-10 02:39:00
报错免疫体
报错免疫体
一名在需求评审和数据异常中反复横跳的产品运营。
2455文章数 24关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
教育
数码
健康
公开课

艺术要闻

深圳终究失去“中国第一高楼”,华润接手地块!

教育要闻

天津女教师怼家长!完整录音曝光,老师很嚣张,饭碗恐不保了

数码要闻

有鸿蒙·更美的——全球首台鸿蒙智选美的智能空调上市

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版