网易首页 > 网易号 > 正文 申请入驻

DeepSeek掀桌后,大模型厂商应该关注什么?

0
分享至

文 | 利昂先生

4月24日,DeepSeek V4 虽迟但到。

1.6T 参数,MIT 协议全量开源,百万级上下文直接拉满。

鼓掌的除了整个科技圈,还有那些在前一天卖空Minimax和智谱股票的股民们。

但内行人更关注的是,DeepSeek V4创新性地用了两套全新的底层设计:Engram 条件记忆模块和mHC(流形约束超连接)。

核心目的只有一个:在保持模型效果的前提下,把训练和推理的成本打下来。

这说明了一件事:模型层面的创新,正在和基础设施层面的创新深度绑定。

一个月前,OpenAI 核心基础设施团队的大牛翁家翌说了一段话,在技术圈疯传:

“现在的大模型竞争,拼的不是 Idea 多精妙,而是 AI Infra 的正确性与单位时间内的迭代次数。Idea 是廉价的,能被快速验证的 Idea 才值钱。”

这句话,百度智能云的百舸团队显然听进去了。

最近,他们开源了一个AI训练框架,直接把这场"速度战"的烈度往上抬了一个量级。

它叫 “LoongForge”。

//一个科普:训练框架是个啥?

大模型训练,不是写几行代码就能跑的。

一个几百亿参数的模型,一张GPU卡装不下,得“切”成很多块,放到几十张甚至几千张卡上同时训练。

这就带来一堆问题:

怎么切?模型有几百层,每层都要切,切错了就跑不起来。

怎么通信?几千张卡在训练,每张卡算完自己的部分,要和其他卡交换数据。交换慢了,整个训练就慢了。

怎么管理显存?模型参数、梯度、优化器状态,都要占显存。显存不够,训练就崩了。

怎么保证稳定?几千张卡跑几天几夜,中间某张卡出问题了,整个训练要重来吗?

这些问题,如果让每个工程师自己解决,那得累死。于是就有了“训练框架”。

它像一个智能管家——自动切分模型、优化通信、管理显存、保证容错。

有了这个“老师傅”,工程师才能专注于模型创新,而不是被工程细节拖死。

多模态时代,老框架有心无力

把时间拉回两年前,那时大模型基本都是“纯文字”,训练框架早就很成熟了,而且绑在NVIDIA一棵树上。

但到了现在,情况变了:文生图、图生文、视频理解、机器人控制……所有最性感的 AI 方向,都是多模态。

训练多模态模型,和训练纯文字大模型,完全不是一个概念。

多模态模型——视觉编码器(ViT)+ 语言模型(LLM)+ 投影层,三个模块参数量差了上百倍。传统框架只能给它们强制套用同一套并行策略——小的模块闲死,大的模块累死。

坑二:数据不均匀,GPU 互相等

多模态数据差异巨大:单张图片 ~256 token,20分钟视频 ~100000+ token。

Attention 的计算复杂度是序列长度的平方级,分到视频的那块 GPU,计算量是分到图片的上万倍。

其他GPU,全在(摸鱼)等它。

国产芯片越来越多地进入大模型训练场景,但训练框架是深度绑定英伟达 GPU 。换芯片?重写一遍,维护两套代码,成本极高。好不容易迁移完了,还发现性能对不上。

老框架们面对多模态,就像中年人面对996,力不从心。

//LoongForge如何填坑(略长,但通俗易懂)

百度智能云百舸团队给出的答案,就是“LoongForge”。

从技术上说,LoongForge 是一个全模态训练框架——覆盖纯文字(LLM)、视觉语言(VLM)、机器人控制(VLA),甚至文生图(Diffusion)场景。

但说人话就是:他们把上面那三个坑,一个一个填了。

一、让每个模块都拥有最优策略

传统框架“一刀切”的并行策略,对视觉编码器和语言模型都不友好。

LoongForge的做法是:把这两者解耦,各自独立配置最优的并行方案。

这相当于什么?以前是三个人挤一张桌子吃饭,小个子够不着,大个子伸不开腿。现在是各坐各的桌椅,各用各的餐具,谁也不耽误谁。

实测效果:

二、智能化分配任务,让摸鱼的 GPU动起来

传统框架的“大锅饭”思路,不只耽误效率,还浪费成本。

LoongForge 引入了一套自动负载均衡机制:计算量大的样本(比如长视频),少分配一些;计算量小的样本(比如单张图片),多分配一些。目标是让每块 GPU 拿到的计算量尽量相当。

这就像一个聪明的项目经理,给能力强的人多分配任务,让团队整体效率最高。

这对提升大规模集群的扩展效率极为重要。

实测效果:

解释一下这个 90%+ 是什么概念——千卡规模下,很多框架的扩展效率掉到 60-70% 就已经算不错了。90%+ 意味着几乎线性扩展,每一分算力都花在了刀刃上。


LoongForge的解法是做了一个叫 XPU_Plugin 的硬件接入层——底层硬件的差异,被这层插件吃掉了。

同一份训练代码,只改一个环境变量,就能在 GPU 和昆仑芯之间无缝切换。它意味着,那些想"两条腿走路"的公司,不需要维护两套代码库了。

当然,这事的意义也不只是"省事"。

它甚至意味着——NVIDIA的生态壁垒,被拆掉了一层。

当然,LoongForge 做的还不止这些——

比如:

因为MoE 有大量“专家”分散在不同GPU 上,所以训练要频繁跨 GPU 通信,长序列时通信成百上千次,速度被拖死。

业界的做法是让计算和通信“重叠”,GPU算当前数据时,同时传输下一批数据,通信时间就“藏”在计算里。

但因为要提前存下一批数据,显存爆炸。长序列时,这块显存可能比模型本身还大。

所以,MoE 模型训练要么显存爆炸,要么通信慢。

LoongForge搞了一套组合拳——

实测效果:

再比如:

DeepSeek v3.2用了一种叫稀疏注意力的新技术。只计算重要的关系,忽略不重要的关系,大幅降低计算量。

但这个技术实现起来很复杂,优化起来更难。

LoongForge对DeepSeek V3.2的稀疏注意力架构做了深度优化:算子融合(小操作合并成大操作)、索引优化(加速数据访问)、KV 布局优化(减少显存占用)、序列拼接(多小任务打包提高效率)。

实测效果:

这不是调个参数,是重写计算内核。

又比如:

因为传统框架的模型定义和分布式策略深度耦合,每来一个新模型,就得深入底层代码改一遍,接入训练框架,往往需要数周时间

LoongForge 通过一套标准化的三层抽象,加上 YAML 配置文件驱动,把新模型接入的工作量,从数周压缩到了数天。

这个速度,放在行业里,很能说明问题。

以具身智能为例。

具身智能需要的 VLA(Vision-Language-Action)模型——把视觉、语言、动作三个模态统一在一个模型里训练,对训练框架的显存管理和通信效率要求极其苛刻,比普通多模态模型更折磨人。

很多做具身智能的团队,都被卡在这里——模型设计好了,但训练跑不动,或者跑太慢。

而 LoongForge 在这个场景下的表现,相当亮眼——

PI0.5(代表性 VLA 模型),相比社区框架,训练速度提升了 49%。

这个数字意味着:同样训一个机器人控制模型,别人花 20 天,你花 10 天。

“首发”和“跟风”,区别立现。

//模型拼到底,拼的是什么?

一个更深层次的问题,现在大模型竞争这么激烈,大家都在拼什么?

以前大家只关心模型效果好不好、参数多不多、榜单排名高不高。现在越来越多的人开始意识到:算力才是真正拉开差距的地方。

为什么这么说?

先看历史:

2007年,CUDA出现了。一个工具,改变了一个时代。

2017年,PyTorch出现了。一个框架,加速了一个行业。

再看现在:

多模态时代来了。同样花 1 个亿买芯片:用老框架的团队,每天能跑 2 个实验;用 LoongForge 的团队,每天能跑 4-6 个实验。

一个月下来,就是 60 个实验 vs 180 个实验的差距。这个差距,积累三个月,就是代差。

翁家翌的话再品一遍:

LoongForge做的,就是让“快速验证 Idea”这件事,变得更容易、更便宜。

现在,百度智能云把 LoongForge 以 Apache 2.0 协议完全开源了。这意味着,商用没问题,改也没问题,拿来养自己的模型也没问题。

他们为什么敢开源?

一种可能是:这套东西他们已经在内部跑了很久,足够自信,拿出来示人,顺便吸引开发者围绕昆仑芯构建生态

这个逻辑,和当年英伟达用 CUDA 锁定开发者生态,本质上是一样的。先有好的训练框架,再有繁荣的硬件生态,最后形成护城河。

现在,这条路上多了一个中国玩家。

LoongForge 能不能跑出来,还得看社区反馈和后续迭代。

但至少,方向是对的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
牌匾被小朋友涂鸦 镇政府回应:暂时不会更换。“人民”二字不仅写在牌匾,更刻在了心底!

牌匾被小朋友涂鸦 镇政府回应:暂时不会更换。“人民”二字不仅写在牌匾,更刻在了心底!

闪电新闻
2026-05-08 22:27:49
MoE路由拥有「记忆」:RMS-MoE用检索记忆协同实现更高效专家调度

MoE路由拥有「记忆」:RMS-MoE用检索记忆协同实现更高效专家调度

机器之心Pro
2026-05-09 09:37:42
病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

混沌录
2026-05-09 14:54:10
昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

天天热点见闻
2026-05-09 18:41:26
广东绝杀奇兵多神奇:张皓嘉压哨三分绝杀 一场超前4场得分总和

广东绝杀奇兵多神奇:张皓嘉压哨三分绝杀 一场超前4场得分总和

醉卧浮生
2026-05-09 21:57:39
滴滴司机讲述东北萧条:一家三口一年挣两三万,很多老人翻垃圾桶

滴滴司机讲述东北萧条:一家三口一年挣两三万,很多老人翻垃圾桶

互联网大观
2026-05-09 13:07:25
深圳富士康涌入很多印度人,老员工一眼看穿来意:根本不是来打工

深圳富士康涌入很多印度人,老员工一眼看穿来意:根本不是来打工

捣蛋窝
2026-05-09 15:37:17
冠军稳了?蓉城创纪录8连胜!终结对苦主4场不胜 11轮后11分领跑

冠军稳了?蓉城创纪录8连胜!终结对苦主4场不胜 11轮后11分领跑

我爱英超
2026-05-09 22:01:08
4天内3名夜班工作人员突发心梗、脑梗,年龄均在70岁前后,大连一物业:目前3人都在养病,将改进值班排班方式

4天内3名夜班工作人员突发心梗、脑梗,年龄均在70岁前后,大连一物业:目前3人都在养病,将改进值班排班方式

都市快报橙柿互动
2026-05-09 22:12:28
解放前特务用很小的电台就能向台湾发报,可如今为什么没法做到?

解放前特务用很小的电台就能向台湾发报,可如今为什么没法做到?

宅家伍菇凉
2026-05-09 09:41:53
性能有传承,油电有远见:一汽奥迪在变革时代交出稳健答卷

性能有传承,油电有远见:一汽奥迪在变革时代交出稳健答卷

汽车投诉网
2026-05-06 17:55:53
乡镇女大学生晒“低审美”穿搭,网友眼前一黑:求求你都扔了吧!

乡镇女大学生晒“低审美”穿搭,网友眼前一黑:求求你都扔了吧!

妍妍教育日记
2026-05-09 10:34:34
女子火车上怒怼吸烟区,喊话全列禁烟却被网友嘲讽 ,12306回应

女子火车上怒怼吸烟区,喊话全列禁烟却被网友嘲讽 ,12306回应

寒士之言本尊
2026-05-08 23:19:49
3-0爆冷世界第五仰天怒吼!18岁天才闪耀 雷洋:法国队有冠军相

3-0爆冷世界第五仰天怒吼!18岁天才闪耀 雷洋:法国队有冠军相

颜小白的篮球梦
2026-05-09 09:29:53
深圳6岁男童吃生菜包烤肉后,全身出现大片青斑、血肿

深圳6岁男童吃生菜包烤肉后,全身出现大片青斑、血肿

听心堂
2026-05-09 18:11:29
5月9日阅兵的俄罗斯,走向垃圾时间

5月9日阅兵的俄罗斯,走向垃圾时间

黔有虎
2026-05-09 16:22:09
山东29岁美女王冰冰去世,确诊前月经不调,未婚未育办1个人婚礼

山东29岁美女王冰冰去世,确诊前月经不调,未婚未育办1个人婚礼

180视角
2026-05-09 07:54:07
“这环境,咋敢生孩子?”女孩因充电器被碰掉绝食,穷人家的公主

“这环境,咋敢生孩子?”女孩因充电器被碰掉绝食,穷人家的公主

妍妍教育日记
2026-05-09 13:31:49
女子190元买榴莲“仅退款”被拘,往返1600公里讨公道的河南商家最新发声:买家才20多岁,她父母想协商和解,我要求依法处理,并公开道歉

女子190元买榴莲“仅退款”被拘,往返1600公里讨公道的河南商家最新发声:买家才20多岁,她父母想协商和解,我要求依法处理,并公开道歉

大风新闻
2026-05-09 10:00:07
抓了那么多贪官,钱呢?跟我们有关系吗?

抓了那么多贪官,钱呢?跟我们有关系吗?

细说职场
2026-05-08 22:15:45
2026-05-09 23:11:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
133346文章数 862150关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

毛焦尔当选匈牙利总理 此前曾表示有意访问北京

头条要闻

毛焦尔当选匈牙利总理 此前曾表示有意访问北京

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

手机
旅游
游戏
本地
公开课

手机要闻

华为鸿蒙7暂定6月发布!撞车苹果WWDC,这波你站谁?

旅游要闻

南非著名旅游区花园大道遭遇近30年来最严重洪灾

LPL第二赛段:滔搏太想进步了!TES横扫WE,保持第二名的位置

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版