网易首页 > 网易号 > 正文 申请入驻

AMD推出ROCm 7软件平台追赶英伟达CUDA性能优势

0
分享至


AMD在今年春季推出MI355X芯片,在性能方面缩小了与英伟达Blackwell加速器的差距。现在该公司需要克服英伟达CUDA软件的优势,让开发者更容易获得这种性能提升。

本周发布的AMD ROCm 7.0软件平台朝着这个方向迈出了重要一步,承诺在推理和训练性能方面实现重大改进,不仅让最新芯片受益,其较老的MI300系列产品也能获得提升。所谓的CUDA护城河可能正在变窄。

ROCm是一套软件库和开发工具套件,包括HIP框架,为开发者提供低级编程接口,用于在GPU上运行高性能计算(HPC)和AI工作负载。这个软件栈在很多方面类似于CUDA运行时,但针对的是AMD GPU而非英伟达。

自2023年推出首款真正针对AI优化的图形加速器MI300X以来,AMD通过其ROCm运行时扩展了对新数据类型的支持,改善了与流行运行时和框架的兼容性,并引入了硬件特定的优化。

ROCm 7可以说是AMD迄今为止最大的更新。与ROCm 6相比,AMD表示客户可以期待MI300X的推理性能提升约3.5倍。同时,公司称已成功将模型训练中实现的有效浮点性能提升了3倍。

AMD声称,这些软件增强功能的结合,使其最新最强的GPU MI355X在运行SGLang中的DeepSeek R1推理工作负载时,比英伟达B200有1.3倍的优势。如往常一样,所有厂商的性能声明都应谨慎对待。

虽然MI350X和MI355X在浮点性能方面与B200大致相当,分别实现9.2和10 petaFLOPS的密集FP4性能,而英伟达为9 petaFLOPs,但AMD产品拥有多出108 GB的HBM3e内存。

AMD MI355X的主要竞争对手实际上是英伟达的B300,后者配备288 GB HBM3e内存,实现14 petaFLOPS的密集FP4性能,这在理论上可能在推理工作负载中给它带来优势。

谈到FP4支持,MI350系列是AMD首代为OCP微缩放数据类型提供硬件加速的GPU,我们在上个月OpenAI gpt-oss发布时详细了解过这项技术。

这些更小的格式对推理和训练性能有重大影响,可提升吞吐量并将内存需求减少2到4倍。ROCm 7.0.0扩展了对这些低精度数据类型的更广泛支持,AMD表示其Quark量化框架现已准备好投入生产使用。

这是一个重大改进,相比之下,为MI300提供FP8支持就滞后了将近一年时间。

除了数据类型,ROCm 7.0.0还引入了AMD的AI张量引擎(AITER),它具有专门调优的算子,旨在实现最大的生成式AI性能。

对于推理,AMD表示AITER可以将MLA解码操作提升17倍,MHA预填充操作提升14倍。当应用于DeepSeek R1等模型时,这家GPU厂商称AITER可以将吞吐量提升超过2倍。

更重要的是,AITER和MXFP4数据类型已经被合并到流行的推理服务引擎中,如vLLM和SGLang。AMD告诉我们,启用该功能就像安装依赖项和设置适当的环境变量一样简单。

其他改进包括支持最新的Ubuntu 24.04.3 LTS版本以及Rocky Linux 9和KVM直通,供那些想要为虚拟机添加GPU加速的用户使用。

ROCm 7还添加了对PyTorch 2.7和2.9、TensorFlow 2.19.1以及JAX 0.6的原生支持。

最后,对于在生产环境中部署大量Instinct加速器的用户,AMD推出了一对新的仪表板,旨在让管理大型GPU集群变得更容易。AMD的资源管理器提供关于集群性能和利用率的详细遥测数据,以及访问控制和设置项目配额的能力,这样一个团队就不会占用所有的计算资源。

除了资源管理器,AMD还推出了AI工作台,旨在简化训练或微调流行基础模型的过程。

ROCm 7.0现可从AMD支持网站下载,也可在Docker Hub上获得预构建的容器镜像。

Q&A

Q1:ROCm 7相比之前版本有什么重大提升?

A:ROCm 7是AMD迄今最大的更新,与ROCm 6相比,MI300X的推理性能提升约3.5倍,模型训练中的有效浮点性能提升3倍。新版本还引入了AI张量引擎AITER,支持OCP微缩放数据类型,并改善了与主流框架的兼容性。

Q2:AMD MI355X与英伟达B200性能对比如何?

A:AMD声称通过软件增强,MI355X在运行DeepSeek R1推理工作负载时比英伟达B200有1.3倍优势。在浮点性能方面,MI355X实现10 petaFLOPS密集FP4性能,而B200为9 petaFLOPs,但AMD产品拥有更多HBM3e内存。

Q3:如何获取和使用ROCm 7?

A:ROCm 7.0现可从AMD支持网站免费下载,也可在Docker Hub上获得预构建的容器镜像。对于AITER等新功能,启用过程很简单,只需安装依赖项和设置适当的环境变量即可,已经集成到vLLM和SGLang等流行推理引擎中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外交部长宣布解除互联网封锁,前王储呼吁推翻伊斯兰共和国

伊朗外交部长宣布解除互联网封锁,前王储呼吁推翻伊斯兰共和国

一种观点
2026-01-12 19:24:55
闹大了!金华一工厂老板十多岁儿子对工人吆五喝六,终于集体走人

闹大了!金华一工厂老板十多岁儿子对工人吆五喝六,终于集体走人

火山诗话
2026-01-12 05:54:05
澳网官宣:周杰伦参加“一球制胜”赛 若夺冠将捐出百万奖金

澳网官宣:周杰伦参加“一球制胜”赛 若夺冠将捐出百万奖金

醉卧浮生
2026-01-12 15:57:06
买菠菜,要分清“圆叶”和“尖叶”,买错口感差,没营养

买菠菜,要分清“圆叶”和“尖叶”,买错口感差,没营养

简食记工作号
2026-01-09 00:14:46
廉洁四川发布:两人涉嫌严重违纪违法

廉洁四川发布:两人涉嫌严重违纪违法

微甘孜
2026-01-12 20:45:17
开拓者弃用杨瀚森,球队五连胜被终结,明显的赢球密码为何不用?

开拓者弃用杨瀚森,球队五连胜被终结,明显的赢球密码为何不用?

爱体育
2026-01-12 23:07:21
拿600万,全场0分连出手都没欲望,球迷:这是混工龄等养老保险了

拿600万,全场0分连出手都没欲望,球迷:这是混工龄等养老保险了

弄月公子
2026-01-12 21:58:58
合川文旅发力了!集结十八家餐馆提供刨猪汤,呆呆家是真撑不住了

合川文旅发力了!集结十八家餐馆提供刨猪汤,呆呆家是真撑不住了

八斗小先生
2026-01-12 17:11:15
果然,能打败阴谋的就是阳谋。用魔法打败魔法,把水搅浑屡试不爽

果然,能打败阴谋的就是阳谋。用魔法打败魔法,把水搅浑屡试不爽

另子维爱读史
2026-01-09 22:01:00
善恶终有报!“销声匿迹”的宋祖英,已经走上了另一条康庄大道

善恶终有报!“销声匿迹”的宋祖英,已经走上了另一条康庄大道

芳芳历史烩
2025-09-09 16:56:18
金球奖这一夜,国际女星个个风情万种,但都被一位中国女星艳压了

金球奖这一夜,国际女星个个风情万种,但都被一位中国女星艳压了

八卦南风
2026-01-12 16:25:50
抖音商城羽绒服品牌销售额TOP10大排行

抖音商城羽绒服品牌销售额TOP10大排行

让生活充满温暖
2026-01-12 10:14:56
13岁女孩冰窟救男童 中央政法委通报表扬

13岁女孩冰窟救男童 中央政法委通报表扬

环球网资讯
2026-01-12 17:27:23
真正把北匈奴打到欧洲的,其实并非卫青和霍去病,而是另一个狠人

真正把北匈奴打到欧洲的,其实并非卫青和霍去病,而是另一个狠人

铭记历史呀
2026-01-12 16:34:48
闫学晶儿子道歉:“娘的错,儿子担!感谢大家的监督批评!我们错了”

闫学晶儿子道歉:“娘的错,儿子担!感谢大家的监督批评!我们错了”

极目新闻
2026-01-12 13:54:18
午间突发利好,固态电池量产!这9个龙头又集体涨停了

午间突发利好,固态电池量产!这9个龙头又集体涨停了

鹏哥投研
2026-01-12 15:57:47
陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

阿器谈史
2025-12-26 15:26:05
合川杀猪宴仅2天,恶心事接连发生!多人砸场子,坑惨当地文旅

合川杀猪宴仅2天,恶心事接连发生!多人砸场子,坑惨当地文旅

北纬的咖啡豆
2026-01-12 11:30:22
皇马2-3,揪出1.8亿混子巨星!粘球拖沓9次丢球,想拿金球成空谈

皇马2-3,揪出1.8亿混子巨星!粘球拖沓9次丢球,想拿金球成空谈

阿泰希特
2026-01-12 10:11:11
明天重点关注这些板块!

明天重点关注这些板块!

风风顺
2026-01-12 03:25:02
2026-01-12 23:59:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15399文章数 49684关注度
往期回顾 全部

数码要闻

大疆Osmo Pocket 4悄悄上线又秒撤,三月见?

头条要闻

外媒问王毅调整索马里行程是否出于安全考虑 中方回应

头条要闻

外媒问王毅调整索马里行程是否出于安全考虑 中方回应

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

健康
本地
数码
房产
公开课

血常规3项异常,是身体警报!

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

数码要闻

2025年全球PC出货量近2.8亿台 笔记本超2.2亿台

房产要闻

重磅调规!417亩商改住+教育地块!海口西海岸又要爆发!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版