华为 Ascend 950 VS Nvidia H200 与 AMD MI300：谁才是AI领域的王者？|内存|amd|gpu|cuda|nvidia

华为 Ascend 950 VS Nvidia H200 与 AMD MI300：谁才是AI领域的王者？

分享至

近年来，AI 训练和推理计算的需求促使芯片制造商积极创新——内存带宽、数据格式、互连和总计算输出的效率，如今与原始 FLOPS 同样重要。

各家公司都瞄准了生成式 AI 训练和高性能计算等高要求场景，在这些场景下，AI 工具越来越依赖快速加速器来处理海量数据。

不同品牌以各自的计算平台特性应对这一挑战——我们希望帮助大家理解这些差异，并澄清 Ascend 950 系列、H200 和 MI300 Instinct 的比较。

华为 Ascend 950、Nvidia H200 和 AMD MI300 Instinct 比较

类别

华为 Ascend 950DT

NVIDIA H200

AMD Radeon Instinct MI300

芯片系列/名称

Ascend 950 系列

H200 (GH100, Hopper)

Radeon Instinct MI300 (Aqua Vanjaram)

架构

华为专有 AI 加速器

Hopper GPU 架构

CDNA 3.0

工艺/制造厂

尚未公开确认

5 纳米 (台积电)

晶体管

未公开

80 亿

1530 亿

芯片尺寸

未公开

814 mm²

1017 mm²

优化

解码阶段的推理和模型训练

通用人工智能和高性能计算的加速

人工智能和高性能计算的加速

支持的格式有

FP8, MXFP8, MXFP4, HiF8

FP16, FP32, FP64（通过 Tensor/CUDA 核心实现）

FP16, FP32, FP64

最高性能

1 PFLOPS（FP8、MXFP8、HiF8），2 PFLOPS（MXFP4）

FP16：241.3 TFLOPS，FP32：60.3 TFLOPS，FP64：30.2 TFLOPS

FP16：383 TFLOPS，FP32/FP64：47.87 TFLOPS

向量处理

SIMD + SIMT 混合，128 字节内存访问粒度

使用 CUDA 和 Tensor 核心的 SIMT

SIMT + 矩阵/张量核心

内存类型

HiZQ 2.0 专有的 HBM（用于解码和训练的变体）

HBM3e

HBM3

内存容量为

144 GB

141 GB

128 GB

内存带宽

4 TB/s（每秒）

4.89 TB/s（每秒）

6.55 TB/s（每秒）

内存总线宽度

未提供

6144位

8192位

L2缓存

未提供

50 MB

未提供

互连带宽

2 TB/s

未提供

形态因素

卡，SuperPoD（服务器）

PCIe 5.0 x16（仅限服务器/HPC）

PCIe 5.0 x16（计算卡）

基础时钟/提升时钟

未提供

1365 / 1785 MHz

1000 / 1700 MHz

核心数/着色器数

未指定

CUDA: 16,896, Tensor: 528 (第4代)

14,080着色器，220计算单元，880张量核心

功率 (TDP)

未指定

600 W

总线接口

未指定

PCIe 5.0 x16

输出

无输出 (服务器使用)

无输出 (仅适用于服务器/HPC)

无输出 (计算卡片)

目标场景

大规模训练与解码推理 (LLMs，生成型AI)

AI 训练，HPC，数据中心

AI/HPC 计算加速

发布与可用性

2026 年第四季度

2024 年 11 月 18 日

2023 年 1 月 4 日

架构和设计方法

华为的 Ascend 950 系列是一种专有的 AI 加速器架构，针对推理的解码阶段以及模型训练进行了优化，而非传统的GPU。

其设计融合了 SIMD 和 SIMT 处理风格，具有 128 字节的内存访问粒度，旨在兼顾吞吐量和灵活性。

Nvidia的H200基于Hopper GPU架构，集成了16,896个CUDA核心和528个第四代Tensor核心。

它采用单芯片的GH100 GPU，使用5纳米的TSMC工艺制造，确保与Nvidia的软件栈和广泛的生态系统兼容。

AMD的MI300 Instinct使用Aqua Vanjaram GPU，基于CDNA 3.0架构，采用芯片级MCM设计，配备220个计算单元和880个矩阵核心。

这种设计提供了巨大的晶体管预算，并专注于高性能计算。

Ascend 950在使用FP8、MXFP8或HiF8数据格式时，峰值性能为1 petaflop，而使用MXFP4时可翻倍至2 petaflops。

这突显了华为对新兴低精度格式的重视，旨在提高推理过程的效率，同时不牺牲准确性。

Nvidia的H200在FP16下提供241.3 teraflops，在FP32下提供60.3 teraflops，而AMD的MI300在FP16下提供383 teraflops，FP32和FP64工作负载下接近48 teraflops。

MI300在FP64与FP32的平价，强调了其在科学计算中的适用性，双精度在此至关重要，而Nvidia则更侧重于AI的混合精度加速。

内存架构对大型语言模型的训练影响很大。

华为将Ascend 950配备144GB的HiZQ 2.0专有HBM，提供4TB/s的带宽和2TB/s的互连速度。

Nvidia为H200配备了141GB的HBM3e内存和4.89TB/s的带宽，略微领先于原始吞吐量。

AMD的MI300以128GB的HBM3脱颖而出，配备更宽的8192位总线和领先的6.55TB/s内存带宽。

在大规模模型训练或内存密集型仿真中，AMD在带宽上的优势可以转化为更快的数据移动，尽管其总内存容量不及华为。

H200和MI300的热设计功耗均为600W，适合无视频输出的PCIe 5.0 x16服务器配置，突显了它们的数据中心导向。

华为尚未披露官方的TDP数据，但提供了两种卡格式和集成的SuperPoD服务器，暗示其在AI基础设施解决方案中的部署灵活性。

其2TB/s的互连带宽可能是多芯片扩展在数据中心环境中的一个重要因素，尽管关于芯片尺寸和晶体管数量的细节仍未公开。

Nvidia得益于成熟的NVLink和InfiniBand生态系统，而AMD的多芯片模块设计则旨在减少计算芯片之间的延迟。

华为显然将Ascend 950瞄准大规模训练和生成AI的解码阶段推理，这是Nvidia长期占据的市场。

其预计在2026年第四季度可用，这意味着Nvidia的H200（于2024年末发布）和AMD的MI300（自2023年初以来可用）已经占据了时间优势。

当Ascend 950硬件到达客户时，两个竞争对手可能已经对其平台进行了更新。

不过，华为对高效低精度格式的重视，以及与其网络硬件的紧密集成，可能会吸引那些寻求替代美国供应商的买家。

换句话说，这些加速器反映了不同品牌的理念差异。

AMD优先考虑内存带宽和双精度在HPC工作负载中的优势，而Nvidia则利用成熟的生态系统和软件支持来维持在AI训练中的主导地位。

华为则试图通过强劲的FP8级性能和高容量的专有内存来挑战这两者。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

华为 Ascend 950 VS Nvidia H200 与 AMD MI300：谁才是AI领域的王者？

架构和设计方法

Pebble推出Round 2手表：搭载彩色E-ink屏幕，无心率传感器设计

牛弹琴：伊朗面临40年来最严峻挑战 不是一个好兆头

牛弹琴：伊朗面临40年来最严峻挑战 不是一个好兆头

快船似乎又行了

田亮一家新年全家福！森碟变清纯少女

人工智能四问：投资泡沫出现了吗？

比亚迪销冠！特斯拉2025年交付量跌逾8%

方程豹全年销量超23.4万辆 同比暴增316.1%

态度原创

今天宝贝十周岁生日，我要让快乐永远把你包围！

上年纪的女人别乱买衣服！有这3件单品就够了，温暖体面一冬

即将过去的2025年，对重庆的影响竟然如此深远

无形有行 自然与灵感诗意

牛弹琴：伊朗面临40年来最严峻挑战不是一个好兆头

牛弹琴：伊朗面临40年来最严峻挑战不是一个好兆头

方程豹全年销量超23.4万辆同比暴增316.1%

无形有行自然与灵感诗意