网易首页 > 网易号 > 正文 申请入驻

算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本

0
分享至

智东西
作者 徐豫
编辑 漠影一、当前的模型训练普遍吃掉了超5成算力二、从五大维度释放万卡集群的GPU算力结语:突破3个核心技术,为十万卡集群做准备

智东西9月13日消息,百度系统架构师、百度智能云AI计算部负责人王雁鹏向媒体解读了大模型时代的算力成本。为了有效降低AI万卡集群的算力开支,他提出搭载RDMA网络、自动并行策略、保证训练稳定性、动态分配算力、多芯异构混训,共五个方面的解决方案。

过去互联网时代,服务器每台数万元,各大厂商光是采购成本就要花费几个亿。高昂的支出促使互联网大厂自研服务器,百度也是其中一员,该公司自2011年起涉足计算基础设施建设。

然而,伴随深度学习的发展,GPU集群来到万卡规模,大模型时代的算力成本已经远高于人力成本。王雁鹏称,当下浪费仅仅1%的算力,也是很大的一笔花销,算力之贵也体现出计算基础设施的重要性。

近期,不少业内人士认为,“兼容CUDA是AI芯片的决胜点”,但王雁鹏并不认可这个观点。他解释道,不少模型兼容CUDA后,只留住了1/3的性能,失去了原有的竞争力。英伟达是基于CUDA构建了一个加速库生态,王雁鹏则认为,其中生态库的壁垒才是真正的难点。

来到AI大模型时代,算力的复杂性已从硬件转移到了软件上,这也导致各大AI开发者利用算力的难度指数级上升。据百度系统架构师、百度智能云AI计算部负责人王雁鹏了解,现阶段的模型训练普遍浪费了超5成的算力。

最初的CPU通用计算时代,硬件和软件之间高度协同,假设CPU的性能提升了一倍,那么使用该CPU的软件,其性能也会相应地翻一番。

后续来到GPU数值加速计算时代,芯片架构更简单,以专注于提供最大的算力。开发者们通常利用GPU突出的算力优势,构建一系列复杂的加速库和框架,有针对性地适配不同应用场景。

目前,我们已处于AI大集群超算时代。单一的芯片已经不足以独立解决问题,因此需要大规模的芯片协同解决一个问题,GPU集群规模甚至达到10万卡。

在王雁鹏看来,上述计算范式的变迁决定了计算体系机构的技术发展,而这种结构上的变化,又催生了云计算的技术和产品格局。“云计算可以看作一种售卖AI基础设施的形式”,他说道。

打个比方,现在可能只有一块GPU,但其算力分给了100个人用;或者说一个训练任务被切分到十万张卡里运算,这背后需要充足的存储资源来支撑。

▲有效算力的5大参考指标

如何在大模型时代发挥出AI大集群的有效算力,王彦鹏给出了一个计算模型训练过程中有效算力的公式,即有效算力相当于能耗有效率(PUE)、单卡算力有效率(MFU)、并行扩展有效率、有效训练时间、资源利用这5项数据的乘积。

为了解决大模型时代算力利用率低的难点,王彦鹏从有效算力公式中的五大方面入手,提出了5个有助于释放算力潜能的GPU设计理念。

1、为万卡AI场景设计的RDMA网络适配AI集群

传统的IB网络是为HPC设计的,并不适用于AI集群。这主要是因为两者的设计理念优先级存在冲突,HPC是延迟优先,AI则是吞吐优先。

据王彦鹏透露,百度长期基于RDMA网络构建万卡级别以上的AI集群,以减少内存带宽瓶颈。从数据结果来看,应用RDMA网络后AI集群的带宽有效率从60%提升至95%,模型性能则增强了5%到10%。

2、自动并行策略是AI集群最重要的演进范式

百度的自动并行策略搜索有两个核心策略。

一方面,百度采取了“边计算边通信”的方式,节省数据搬运所花费的时间,减少算力和能源损耗。

另一方面,显存优化的切分策略将运算中断所浪费的时间,控制在几分钟内。

▲百度通过RDMA网络支撑AI万卡集群的训练

得益于此,百度旗下的模型性能不仅能达到开源模型的130%,也比人工调优的模型效果好。

3、保证稳定不间断的任务运行是一个系统工程

王彦鹏多次强调了稳定性在AI训练中起到的重要作用。AI训练的计算任务是同步进行的,如果中途出现故障,万卡的故障定位是一个非常困难且不可控的事情。

同时,考虑到万卡规模的AI集群中断频率较高,通常是牵一发而动全身。王彦鹏提出,“无效训练时间=故障次数*故障恢复时间+写检查点的时间”。因此,一旦某个点位出现故障,其影响可能被扩大了十万倍。

▲可以通过3个公式综合判断AI集群的训练效率

据王彦鹏介绍,百度通过Hang检测、慢节点检测、秒级捕捉检查点、分钟级任务恢复等方式,来定位和修复出现故障的单张芯片。目前,百度文心一言大模型的有效训练时长比例超99%。

4、训练一体提升资源利用率

目前,主流模型训练存在以下4个劣势。

首先在线推理或计算任务当中,系统在峰值负载时的性能是平均负载时的3倍。这意味着系统在设计时预留了较多的算力以应对峰值。但AI集群的波峰和波谷其实较为明显,这也造成非峰值时资源的大量浪费,后续在设计上还可以进一步优化。

其次,大量微调模型存在冷热分布不均的情况。此外,其实有很多计算任务可以通过离线推理实现,但仍占用了一定的算力资源。最后,从单卡计算转向万卡计算时代,训练任务分布广、数量大。

对于上述问题,王雁鹏认为,总的来说是要实现算力流量和资源的动态分配,以便跑通不同规模的层级。百度的百舸异构计算平台(AIHC)运用单机多推理实力混合布局、弹性层级队列、训练任务弹性伸缩机制三种模式后,公司内部和客户的资源利用率都从50%提升到了90%。

5、多芯混训是解决算力卡脖子的关键技术

据王雁鹏介绍,目前市面上的芯片规格、版本、存量和算力水平都参差不齐。他提出,可以用一套兼容的框架将各式各样的芯片组合起来,形成一个强大的算力集群。

有共同的“大脑”后,AI开发者可以通过该集群统一调动所有芯片的算力,从而提高效率、节省开支。

百度在异构并行切分策略下,搭建了跨芯沟通库,并采用了Accelerator抽象设计方法,从而实现千卡性能损失仅3%,以及万卡性能损失仅5%。

不过,王雁鹏也谈道,多芯的异构混训虽然理论上可行,但实际推广起来,还有诸多技术难点亟待解决。

目前,美国AI大模型独角兽OpenAI和xAI的模型训练规模已卷到10万卡级别,百度也将加入这场围绕AI集群算力的竞争,算力应用场景则聚焦于大语言模型和自动驾驶技术。

王雁鹏向媒体透露,后续百度将持续在3个核心技术上寻求芯片设计架构的突破。

首先是实现更高效的拓扑和拥塞控制,该公司希望将无阻塞RDMA域扩大10倍。

除此之外,百度计划将跨地域的RDMA网络范围扩大至方圆30km内。

王雁鹏称,现阶段行业内的万卡集群平均4个小时会中断1次,如果扩展到10万卡集群,可能20分钟左右就会出现一次中断。目前,百度旗下模型的训练故障恢复时长介于10到20分钟之间,未来致力于达到分钟级别。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中纪委怒批:公务员也是人,正常生活不应问责处理!

中纪委怒批:公务员也是人,正常生活不应问责处理!

细说职场
2026-06-24 10:55:30
岳修虎履新国家发改委副主任,此前在公安部任职

岳修虎履新国家发改委副主任,此前在公安部任职

澎湃新闻
2026-06-26 19:16:27
金价还在跌,5个月大跌30%!投资金条柜台被挤爆,10克20克金条不到3小时卖光!建行公告:这类业务即将关闭

金价还在跌,5个月大跌30%!投资金条柜台被挤爆,10克20克金条不到3小时卖光!建行公告:这类业务即将关闭

每日经济新闻
2026-06-26 15:42:15
交易已达成,NBA选秀结束后,雷霆将以赛亚·乔交易至活塞队

交易已达成,NBA选秀结束后,雷霆将以赛亚·乔交易至活塞队

好火子
2026-06-26 23:50:21
山东一男生高考前立誓刷新学校历史,查分成功如愿,老师还称他琴棋书画样样精通

山东一男生高考前立誓刷新学校历史,查分成功如愿,老师还称他琴棋书画样样精通

极目新闻
2026-06-26 18:07:39
最牛美女处长,1000天和男上司开房410次,临时工晋升财务副处长

最牛美女处长,1000天和男上司开房410次,临时工晋升财务副处长

三石记
2026-06-26 07:16:19
山姆确认,尚未调价!全国多地门店iPad及Mac遭疯抢,网友:比618还是贵了

山姆确认,尚未调价!全国多地门店iPad及Mac遭疯抢,网友:比618还是贵了

都市快报橙柿互动
2026-06-26 22:35:20
毕业即失业!这12个专业要避坑,毕业很难找工作,家长欲哭无泪!

毕业即失业!这12个专业要避坑,毕业很难找工作,家长欲哭无泪!

教育导向分享
2026-06-26 21:10:30
从狂赚到大亏15亿卢布!吉利长安在俄罗斯一年从天堂摔地狱

从狂赚到大亏15亿卢布!吉利长安在俄罗斯一年从天堂摔地狱

老马拉车莫少装
2026-05-11 14:18:27
美联储,加息突变!

美联储,加息突变!

中国经济网
2026-06-26 09:39:13
佛得角门将战靴产自中国莆田,代工厂负责人:世界杯前国外客户下的紧急订单,海外售价约1500至1700元人民币,暂未在国内销售

佛得角门将战靴产自中国莆田,代工厂负责人:世界杯前国外客户下的紧急订单,海外售价约1500至1700元人民币,暂未在国内销售

大象新闻
2026-06-25 17:57:03
联信检测回应网传甲酰胺相关检测报告:正式报告并未发出,属于无效报告

联信检测回应网传甲酰胺相关检测报告:正式报告并未发出,属于无效报告

界面新闻
2026-06-26 09:45:31
英国插手台岛第2天,中国在联合国发声:中国支持阿根廷对马岛主权

英国插手台岛第2天,中国在联合国发声:中国支持阿根廷对马岛主权

阿龙聊军事
2026-06-26 13:46:39
73岁大爷为43岁妻子做阴茎假体手术,网友破防了:这才是真爱

73岁大爷为43岁妻子做阴茎假体手术,网友破防了:这才是真爱

魔都姐姐杂谈
2026-04-02 18:52:46
男子因汗多味大被健身房退卡,还送他其他店月卡;男子:我是“严肃的健身爱好者”,出汗后都会清理;健身房:很浓很浓的味道

男子因汗多味大被健身房退卡,还送他其他店月卡;男子:我是“严肃的健身爱好者”,出汗后都会清理;健身房:很浓很浓的味道

洪观新闻
2026-06-25 16:14:01
16级还不够!米克拉憋大招,路径突然往西拐,明晚才是最狠时时刻

16级还不够!米克拉憋大招,路径突然往西拐,明晚才是最狠时时刻

梦史
2026-06-26 15:39:29
俄罗斯测试计划用来对抗攻击无人机的飞机

俄罗斯测试计划用来对抗攻击无人机的飞机

桂系007
2026-06-26 23:59:24
CCTV5直播!2026美国大满贯国乒参赛名单、赛程以及央视直播表

CCTV5直播!2026美国大满贯国乒参赛名单、赛程以及央视直播表

好乒乓
2026-06-26 15:01:56
没想到,这部12年前的剧,口碑也翻车了!

没想到,这部12年前的剧,口碑也翻车了!

剧芒芒
2026-06-24 18:09:23
美国务院发言人被质问:美国能禁中国产品,中国为何不能禁美国?

美国务院发言人被质问:美国能禁中国产品,中国为何不能禁美国?

天气观察站
2026-06-26 20:04:46
2026-06-27 00:40:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12139文章数 117112关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

时尚
旅游
家居
健康
游戏

推广中奖名单-更新至2026年6月2日推广

旅游要闻

“童话“童话云和”遇见“梦里隋唐”文旅推广活动走进洛邑古城

家居要闻

绿意盎然 自然之境

“无糖汤圆”是否隐藏着健康陷阱?

黄牛掏空退休金买了500份《GTA6》!自信一定会血赚

无障碍浏览 进入关怀版