网易首页 > 网易号 > 正文 申请入驻

最大限度地“压榨”GPU性能

0
分享至

加速人工智能项目的默认方法是增加GPU集群的大小。然而,在GPU日益短缺的情况下,成本越来越高。许多人工智能公司“将其筹集的总资本的80%以上用于计算资源”,这无可厚非。GPU是人工智能基础设施的基石,应该为其分配尽可能多的预算。然而,在这些高昂的成本中,还有其他提高GPU性能的方法应该考虑,而且越来越必要。

扩展GPU集群远非易事,尤其是在生成式人工智能暴力扩张导致GPU短缺的情况下。NVIDIA A100 GPU是首批受到影响的GPU之一,而且它们现在非常稀缺,一些版本的交付周期长达一年。这些供应链挑战迫使许多人考虑将更高端的H100作为替代品,但很明显会付出更高的价格。对于那些投资于自己的基础设施,为其行业创造下一个伟大的生成式人工智能解决方案的创业者来说,需要从现有GPU中榨取每一滴效率。

让我们来看看企业如何通过提议修改网络和存储的人工智能基础设施设计,从其计算投资中获得更多。

数据问题

一个有用的方法是考虑现有计算基础设施的低效率,以及如何缓解这些资源的最佳利用率。最大限度地提高GPU利用率是一个挑战,因为数据传输速度往往太慢,无法让GPU保持忙碌。一些用户的GPU利用率低至20%,这显然是不可接受的。这是人工智能团队开始寻找最大化利用人工智能投资的好地方。

GPU是人工智能的引擎。正如汽车发动机需要汽油才能运行一样,GPU也依靠数据运行。限制数据流会限制GPU性能。如果GPU的工作效率只有50%,那么人工智能团队的生产力就会降低,一个项目需要两倍的时间才能完成,投资回报率也会减半。基础设施设计必须确保GPU能够以最高效率运行,并提供预期的计算性能。

值得注意的是,DGX A100和H100服务器都具有高达30 TB的内部存储容量。然而,考虑到平均模型大小约为150 TB,这种容量对于绝大多数深度学习模型来说是不可行的。因此,需要额外的外部数据存储器来保持GPU提供数据。

存储性能

AI存储由服务器、NVMe SSD和存储软件组成,通常封装在一个简单的设备中。正如GPU被优化为与数十万个内核并行处理大量数据一样,存储也需要高性能。人工智能中存储的基本要求是——存储整个数据集——能够以线速(网络允许的最快速度)将数据传输到GPU,以使GPU饱和并保持其高效运行。任何不足都是对这种非常昂贵和有价值的GPU资源的利用不足。

以能够跟上全速运行的10或15台GPU服务器集群的速度交付数据,将有助于优化GPU资源,并在整个环境中提高性能,尽可能充分利用预算,从整个基础设施中获得最大收益。

事实上,挑战在于,没有针对AI进行优化的存储供应商需要许多客户端计算节点来从存储中提取全部性能。如果从一个GPU服务器开始,则反过来需要许多存储节点才能达到该性能才能为单个GPU服务器供应。

不要相信所有的基准结果;当同时使用多个GPU服务器时,很容易获得较大的带宽,但AI受益于存储,无论何时需要,它都会将所有性能提供给单个GPU节点。坚持使用能够提供所需超高性能的存储,但它可以在单个存储节点中实现这一点,并且能够将此性能提供给单个GPU节点。这可能会缩小市场范围,但在开始人工智能项目之旅时,它是优先事项之一。

网络带宽

越来越强大的计算能力推动了对其他人工智能基础设施的需求不断增加。带宽要求已经达到了新的高度,能够管理每秒从存储设备通过网络发送并由GPU处理的大量数据。存储设备中的网络适配器(NIC)连接到网络中的交换机,这些交换机连接到GPU服务器内部的适配器。NIC可以在正确配置的情况下将存储直接连接到1或2个GPU服务器中的NIC,不会出现瓶颈,确保带宽足够高,可以将最大数据负载从存储传递到GPU,使其在持续的时间内保持饱和,这是关键,在许多情况下,未能做到这一点是我们看到GPU利用率较低的原因。

GPU编排

一旦基础设施到位,GPU编排和分配工具将极大地帮助团队更高效地汇集和分配资源,了解GPU的使用情况,提供更高级别的资源控制,减少瓶颈并提高利用率。只有在底层基础设施允许数据首先正确流动的情况下,这些工具才能按预期完成所有这些工作。

在人工智能中,数据是输入,因此用于企业关键任务应用程序(如库存控制数据库服务器、电子邮件服务器、备份服务器)的传统企业闪存的许多伟大功能与人工智能根本不相关。这些解决方案是使用传统协议构建的,虽然它们已被重新用于人工智能,这些传统基础显然限制了它们在GPU和AI工作负载方面的性能,推高了价格,并将资金浪费在过于昂贵和不必要的功能上。

在当前全球GPU短缺的情况下,再加上人工智能行业的蓬勃发展,找到最大限度提高GPU性能的方法变得前所未有的重要——尤其是在短期内。随着深度学习项目的蓬勃发展,这些是降低成本和提高产出的几个关键方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
触碰国家安全红线!9.38吨镓锗走私流入日本,涉案人员全部重罚

触碰国家安全红线!9.38吨镓锗走私流入日本,涉案人员全部重罚

云上乌托邦
2026-07-01 17:42:41
央视发声!如果不出意外的话,7月开始后,社会上或将出现3大变化

央视发声!如果不出意外的话,7月开始后,社会上或将出现3大变化

陈博世财经
2026-07-01 14:05:05
37岁女子吃左氧氟沙星治尿路感染,2个月后走了,医生:2个忠告

37岁女子吃左氧氟沙星治尿路感染,2个月后走了,医生:2个忠告

健康之光
2026-07-01 09:02:18
曝湖人正在猛追库明加!若裁掉范德比尔特 可腾出约700万空间报价

曝湖人正在猛追库明加!若裁掉范德比尔特 可腾出约700万空间报价

罗说NBA
2026-07-02 12:34:14
西安身家千万老总坠亡!头部运动品牌代理,曾购几十辆奔驰奖员工

西安身家千万老总坠亡!头部运动品牌代理,曾购几十辆奔驰奖员工

火山詩话
2026-07-02 05:52:19
今起坐飞机有变化!退改阶梯收费、行李尺寸统一,短途餐食改零食

今起坐飞机有变化!退改阶梯收费、行李尺寸统一,短途餐食改零食

原广工业
2026-07-02 04:17:45
印度裔抱团、代码被锁死、公司停摆,张江事件的致命教训!

印度裔抱团、代码被锁死、公司停摆,张江事件的致命教训!

A活着
2026-07-01 17:03:00
群演发视频吐槽王姓明星:骂助理,找替身,1米8的身高上不去马

群演发视频吐槽王姓明星:骂助理,找替身,1米8的身高上不去马

白面书誏
2026-06-30 13:37:37
一场大雪下了10亿年,连赤道都冻结成冰,冰河时代有多可怕?

一场大雪下了10亿年,连赤道都冻结成冰,冰河时代有多可怕?

观察宇宙
2026-07-02 20:02:02
现场上座率超99%!2026世界杯改写历史,48队赛制成最大商业胜利

现场上座率超99%!2026世界杯改写历史,48队赛制成最大商业胜利

热血体育社
2026-07-02 00:47:42
娱乐圈婆媳关系天花板,秦海璐用行动诠释什么是担当

娱乐圈婆媳关系天花板,秦海璐用行动诠释什么是担当

专扭杨过那条好胳膊
2026-07-02 15:30:15
紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

扬子晚报
2026-07-01 22:55:08
Netflix的王牌美剧,又杀回来了

Netflix的王牌美剧,又杀回来了

来看美剧
2026-07-02 20:01:30
60岁公公奸杀24岁儿媳:你长得越看越漂亮,能不能给我搞一下?

60岁公公奸杀24岁儿媳:你长得越看越漂亮,能不能给我搞一下?

生活魔术专家
2026-07-02 20:57:25
扎克伯格一个骚操作,直接把AI存储市场搞崩了!网友:小扎想回血,市场大出血

扎克伯格一个骚操作,直接把AI存储市场搞崩了!网友:小扎想回血,市场大出血

大白聊IT
2026-07-02 17:34:58
潘石屹再次预判楼市!如果没看错,未来3年楼市或出“三大”变化

潘石屹再次预判楼市!如果没看错,未来3年楼市或出“三大”变化

巢客HOME
2026-06-30 04:30:03
A-级操作!哈里斯的加盟,能给马刺带来什么?

A-级操作!哈里斯的加盟,能给马刺带来什么?

篮球实录
2026-07-02 18:04:41
楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

千秋文化
2026-06-27 19:40:09
​迈阿密静候梅西登场, 阿根廷球迷已占领佛罗里达

​迈阿密静候梅西登场, 阿根廷球迷已占领佛罗里达

足球推文C
2026-07-02 09:39:22
巴恩斯带一家度假,二婚妻子身材好,转型做老板,儿子跟前队友过

巴恩斯带一家度假,二婚妻子身材好,转型做老板,儿子跟前队友过

大西体育
2026-07-02 21:57:26
2026-07-02 23:39:00
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1777文章数 512关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

房产
亲子
健康
本地
艺术

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

亲子要闻

从新生儿到学龄期全覆盖:儿童被子成长型选型的策略与实用方法

这4类消化病患者 吃粘食管住嘴

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

艺术要闻

一念天堂,一念地狱:你的心是什么样,世界就什么样

无障碍浏览 进入关怀版