网易首页 > 网易号 > 正文 申请入驻

这些芯片,干成了

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容编译自nextplatform,谢谢。

当超大规模计算设备和云计算构建者规模较小、Arm 集体未能冲击数据中心且 AMD 尚未走上复兴之路时,英特尔控制着新计算引擎进入数据中心的节奏。

本周,英特尔首席执行官帕特·基辛格被罢免,亚马逊网络服务公司在拉斯维加斯举办了年度 re:Invent 大会,有 60,000 人亲临现场,400,000 人在线参会,由此可以看出,谁在超大规模和云计算提供商的技术推广速度上占据主导地位,这一点非常明显。

他们还能控制何时不推出新技术,因为他们不必像其他芯片设计公司那样有新产品可以出售。他们不像英特尔、AMD 和 Nvidia 那样向 ODM 和 OEM 销售计算引擎,而是创建虚拟化实用程序并直接向客户出售原始容量的访问权限。从很多方面来看,这是一个更加顺畅和容易的业务。

如果您昨晚深夜聆听了 AWS 公用计算高级副总裁 Peter DeSantis 的开幕主题演讲,以及今天 AWS 首席执行官 Matt Garman 和母公司亚马逊首席执行官 Andy Jassy 的主题演讲,那么您可能和我们一样,正在等待有关未来计算引擎的一些公告,例如 Graviton5 服务器 CPU、Inferentia3 AI 推理加速器或 Trainium3 AI 训练加速器。

可惜的是,除了 Garman 的一张幻灯片展示了 Trainium3 采用 3 纳米工艺蚀刻而成(大概是来自台湾半导体制造公司)之外,其性能是 Trainium2 的两倍,并且每瓦性能比 Trainium2 高出 40%,并没有关于未来 AWS 将推出自主研发硅片的谈论。

Garman 补充说,Trainium3“将于明年晚些时候推出”,这可能意味着它将在 2025 年 re:Invent 大会上推出。早在 6 月,就有传言称 AWS 高管证实 Trainium3 将突破 1,000 瓦,这丝毫不会让我们感到惊讶。Nvidia 的顶级“Blackwell”B200 GPU 的峰值功率为 1,200 瓦。

这仍然比我家里其他人使用的吹风机的瓦数要低,而且四十多年来我都不需要吹风机了。所以我们还没有感到惊慌失措。但它也有十几个白炽灯泡,这是一个奇怪的想法,特别是如果你从来没有等到它们冷却足够长的时间再把它们拿出来,而我们通常没有这样做。

我们有点惊讶,上个月的 SC24 超级计算会议上,我们还没有看到针对 HPC 应用的 Graviton4E 深度分类,这将与 AWS在 2021 年 11 月对普通 Graviton3和2022 年 11 月对增强型 Graviton3E所做的一样。Graviton4 可以说是市场上最好的基于 Arm 的服务器 CPU 之一,当然也是最适合任何人使用的 CPU,它于 2023 年 11 月问世,并于今年 9 月进行了内存提升。

AWS 对其 CPU、AI 加速器和 DPU 的年度发布节奏几乎没有任何压力,如果你仔细查看 Nvidia 和 AMD 的 GPU 路线图,就会发现它们的核心产品仍然每两年发布一次,第二年会针对第一年发布的 GPU 进行内存升级或性能调整。

AWS 的硅片开发节奏看起来是两年,中间会有一些波动。Graviton1 实际上是增强版的“Nitro”DPU 卡,它不算数。正如 DeSantis 在 2018 年推出 Graviton1 时的主题演讲中所说,Graviton1 是“向市场发出的信号”,旨在测试客户终于准备好在数据中心使用 Arm CPU 的想法。2019 年,随着 Graviton2 的推出,AWS 采用了台积电的现代 7 纳米工艺,并使用 Arm Ltd 的“Ares”N1 内核创建了一款 64 核设备,该设备可以完成有用的工作,而且与在 AWS 云上运行的英特尔和 AMD 的 X86 CPU 相比,性价比高出 40%。

两年后,Graviton3 问世,它采用了 Arm 功能更强大的“Zeus”V1 内核,尽管“只有”64 个内核,但可以突然承担更大的任务。两年后,Graviton4 问世,我们认为它缩小到了 4 纳米 TSMC 工艺,将 96 个“Demeter”V2 内核塞进插槽,与十几个 DDR5 内存控制器搭配使用,内存带宽为 537.6 GB/秒。与 Graviton3 相比,Graviton4 的单核性能提高了 30%,内核数量增加了 50%,一般来说,性能提高了 2 倍,根据我们在此处的定价分析,性价比提高了 13% 到 15%。在实际基准测试中,Graviton4 有时可提供 40% 以上的性能

坦率地说,AWS 必须花两年时间才能从处理器设计中收回这笔巨额投资。因此,在本周的 re:Invent 2024 大会上期待任何有关 Graviton5 的消息是不合理的——如果不是贪婪的话。不过,DeSantis、Garman 或 Jassy 还是可以透露一些消息的。

AWS 的高层确实在主题演讲中提供了一些有关 Graviton 的有趣统计数据。AWS 计算和网络服务副总裁 Dave Brown 展示了这张非常有趣的图表,它在一定程度上解释了为什么英特尔最近几个季度的财务状况如此糟糕:

粗略地说,AWS 四项核心服务(Redshift Serverless 和 Aurora 数据库、Kafka 的托管流和 ElastiCache 搜索)下约一半的处理都在 Graviton 实例上运行。在刚刚过去的 Prime Day 购物活动中,亚马逊租用了超过 250,000 台 Graviton 处理器来支持该操作。

“最近,我们达到了一个重要的里程碑,”布朗继续说道。“在过去两年中,我们数据中心中超过 50% 的 CPU 容量都来自 AWS Graviton。想想看。Graviton 处理器的数量比所有其他类型的处理器加起来还要多。”

这正是微软多年前所说的想要做的事情,也正是我们所期望的。从长远来看,X86 是一个具有传统价格的传统平台。就像之前的大型机和 RISC/Unix 一样。RISC-V 最终可能会对 Arm 架构产生这种影响。(我们会看到,但具有开源和可组合块且有专家监督的开源 ISA 似乎是一条道路。看看 Linux 如何征服操作系统并将 Windows Server 变成传统平台。)

Garman 表示,这让我们大致了解了 AWS 内部 Graviton 服务器群的规模:“Graviton 正在疯狂增长。让我们来看一下背景。2019 年,整个 AWS 的业务价值为 350 亿美元。如今,AWS 集群中运行的 Graviton 数量与 2019 年所有计算量一样多。这是相当令人印象深刻的增长。”

我们很想知道 2019 年服务器机群的规模以及现在的规模。我们认为可以诚实估计的是,Graviton 服务器机群的增长速度比 AWS 本身更快,而且可能差距很大。这对英特尔的伤害比对 AMD 的伤害要大得多,因为多年来 AMD 的 X86 服务器 CPU 一直比英特尔更好。

Trainium将给AMD和Nvidia带来一些压力

Garman 之所以会谈论 Trainium3,唯一的原因是 AI 训练(以及日益增长的推理)对高性能计算的需求增长速度远远超过任何人能够提供的计算引擎。随着 Nvidia 加大其“Blackwell”B100 和 B200 GPU 的投入,以及 AMD 明年扩大其“Antares”MI300 系列的规模,如果 AWS 希望客户能够放心地将他们的 AI 工作负载移植到 Trainium,它就不能表现出不致力于加速其 AI 芯片的决心。因此,才有了 Trainium3 的传闻。

也就是说,我们确实希望 AWS 能在明年 11 月或 12 月 re:Invent 大会召开之前对 Trainium3 发表一些其他评论,因为其他所有公司(谷歌和微软是最重要的公司)都将在 2025 年对其自主研发的 AI 加速器发表一些评论。

与 Graviton 系列一样,我们认为 Trainium 系列从现在开始也将以两年为周期推出。这些设备价格昂贵,AWS 必须将 Trainium 开发成本分摊到尽可能多的设备上,才能实现财务目标——就像 Graviton CPU 一样。与 Gravitons 一样,我们认为 AWS 一半的 AI 训练和推理能力将在其自主研发的 Annapurna Labs 芯片上实现的一天并不遥远。从长远来看,这对 Nvidia 和 AMD 来说意味着麻烦。尤其是如果谷歌、微软、腾讯、百度和阿里巴巴都做同样的事情的话。

AWS 不会傻到试图在 GPU 加速器市场与 Nvidia 竞争,但就像谷歌的 TPU、SambaNova 的 RDU、Groq 的 GroqChip 以及 Graphcore 的 IPU 一样,这家云计算构建者绝对认为它可以构建一个收缩阵列来进行差异化的 AI 训练和推理,并为云客户增加价值——并且与仅仅购买 Nvidia GPU 并完成它相比,它可能会有更好的利润率或至少更多的控制权。

正如我们上面指出的那样,AWS 高管并没有对 Trainium3 发表太多评论,但他们对 Trainium2 在 UltraServer pod 中的 Trn2 实例中可用感到非常兴奋。

早在 2023 年 12 月,去年的 re:Invent 大会之后,我们就详细介绍了 Trainium2 及其前身 Trainium1 以及用于 AI 推理的配套 Inferentia1 和 Inferentia2 加速器的架构。(您可以在此处阅读。)本周,AWS 进一步介绍了使用 Trainium2 加速器的系统的架构,并展示了它为基于它们扩展和扩展其 AI 集群而构建的网络硬件。

那么,让我们做一些展示和讲述。

以下是 DeSantis 展示 Trainium2 卡的情况:

正如我们去年指出的那样,Trainium2 似乎有两个芯片在单个封装上互连,可能使用 NeuronLink 芯片到芯片互连,该互连基于用于将 Trainium1 和 Trainium2 芯片相互连接的结构互连,以便在其共享的 HBM 内存之间一致地共享工作。

Trainium2 服务器有一个头节点,该节点带有一对主机处理器(大概是 Graviton4,但 DeSantis 没有说),并与三个 Nitro DPU 相连,如下所示:

下面是计算节点的顶视图,前端有四个 Nitro,后端有两个 Trainium2,采用无线设计以加快部署速度:

两个交换机托架、一个主机托架和八个计算托架组成了 Trainium2 服务器,该服务器使用 2 TB/秒的 NeuronLink 电缆将 16 个 Tranium2 芯片互连成 2D 环面配置,每个设备上的 96 GB HBM3 主内存与所有其他设备共享。每台 Trainium2 服务器都有 1.5 TB 的 HBM3 内存,总内存带宽为 46 TB/秒(即每张 Trainium2 卡略低于 3 TB/秒)。此节点在密集 FP8 数据上的性能为 20.8 千万亿次浮点运算,在稀疏 FP8 数据上的性能为 83.3 千万亿次浮点运算。(AWS 在稀疏数据上的压缩率为 4:1,而 Nvidia 的“Hopper”和“Blackwell”GPU 的压缩率为 2:1,Cerebras Systems 晶圆级引擎的压缩率为 10:1。)

其中四台服务器互连,形成 Trainium2 UltraServer,该服务器在 64 个 AI 加速器上拥有 6 TB 的总 HBM3 内存容量,总内存带宽为 184 TB/秒。该服务器具有 12.8 Tb/秒的以太网带宽,可使用 EFAv3 适配器进行互连。UltraServer 服务器在密集 FP8 数据上的运算速度为 83.2 千万亿次,在稀疏 FP8 数据上的运算速度为 332.8 千万亿次。

以下是 DeSantis 展示 Trn2 UltraServer 实例背后的硬件:

机架顶部埋着许多电线,后面有一对交换机,它们组成了 3.2 Tb/秒 EFAv3 以太网网络的端点,该网络将多个 Tranium2 服务器相互连接以创建 UltraServer pod,并将 pod 相互连接并与外界连接:

不要以为这就是网络的全部。如果你想运行大规模基础模型,你需要的加速器远不止 64 个。为了将拥有数十万个加速器的机器连接在一起,进行英雄训练,AWS 设计了一种网络结构(可能基于以太网),称为 10p10u,其目标是在整个网络的延迟低于 10 微秒的情况下,提供每秒数十 PB 的带宽。

10p10u 网络结构机架的外观如下:

上面的配线架中的布线非常复杂,因此 AWS 发明了一种光纤主干电缆,其管理的电线数量压缩了 16:1,因为它将数百个光纤连接放在一根粗管中。这使得配线架更简单,如下所示:

右侧的接线架使用的是光纤主干电缆,而且更加整洁,体积也更小。需要管理的连接和线路越少,错误就越少,这对于快速构建 AI 基础设施至关重要。

据我们所知,这个 10u10p 网络不仅专门用于 AI 工作负载,而且 AI 工作负载显然正在推动其采用。DeSantis 展示了与 AWS 创建的旧以太网(可能速度较慢)相比,它的发展速度有多快。请看一看:

假设这是累积链接数,这是唯一有意义的计算,较旧的 Euclid 网络结构(大概是 100 Gb/秒)在四年内逐渐增加到近 150 万个端口。名为 One Fabric 的网络与 10u10p 网络在 2022 年中期推出的时间大致相同,我们假设其中一个使用 400 Gb/秒以太网,而 10u10p 几乎肯定基于 800 Gb/秒以太网。但这些都是猜测。One Fabric 有大约 100 万个链接,而 10u10p 看起来有大约 330 万个链接。

总而言之,Garmin 表示,与 AWS 云上基于 GPU 的实例相比,Trn2 实例的性价比将提高 30% 到 40%。我们以前在哪里听说过这些数字?哦,对了……Graviton 在 AWS 云上比 X86 具有性价比优势。

当然,AWS 可以随心所欲地扩大外部计算引擎和其自主研发引擎之间的差距。如果它希望 Trainium 在不久的将来成为其 AI 训练队伍的一半,那么这可能是保持正确差距的正确方法。

最后一件事。作为主题演讲的一部分,DeSantis 和 Garman 都谈到了 AWS 正在构建的代号为 Project Ranier 的超级集群,以便 AI 模型合作伙伴 Anthropic(亚马逊迄今已向其投入 80 亿美元)拥有用于训练其下一代 Claude 4 基础模型的机器。Garman 表示,Project Ranier 将拥有“数十万”个 Trainium2 芯片,其性能将是 Claude 3 模型所用机器的 5 倍。

https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3966期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美经济学家萨克斯:全世界应阻止美以侵略伊朗,否则危及全球经济|中国发展高层论坛

美经济学家萨克斯:全世界应阻止美以侵略伊朗,否则危及全球经济|中国发展高层论坛

界面新闻
2026-03-23 11:10:51
牛!乌克兰英雄在地下掩体里坚持作战了471天

牛!乌克兰英雄在地下掩体里坚持作战了471天

老马拉车莫少装
2026-03-21 00:10:44
美驻日大使:如果中国不按美国的意愿行事,就让十四亿人陷入饥荒

美驻日大使:如果中国不按美国的意愿行事,就让十四亿人陷入饥荒

荆楚寰宇文枢
2025-09-28 21:58:22
智能麻将桌杀到:传统麻将馆真的要被“取代”了?

智能麻将桌杀到:传统麻将馆真的要被“取代”了?

生活新鲜市
2026-03-20 06:28:56
花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

观察鉴娱
2026-01-27 09:36:51
中东大和解基本完了!

中东大和解基本完了!

种花岛
2026-03-20 09:57:55
大家有没有莫名不喜欢一类长相?网友:面相这个东西,还真有学问

大家有没有莫名不喜欢一类长相?网友:面相这个东西,还真有学问

另子维爱读史
2026-03-20 21:45:48
咋想的?宫鲁鸣动刀!女篮首位离队球员出炉,功勋老将被顶替!

咋想的?宫鲁鸣动刀!女篮首位离队球员出炉,功勋老将被顶替!

杰丝聊古今
2026-03-23 14:53:58
场均至少打10铁!塔图姆用恢复伤病回应 布朗曝队内会议达成一致

场均至少打10铁!塔图姆用恢复伤病回应 布朗曝队内会议达成一致

颜小白的篮球梦
2026-03-23 12:41:46
男子蹭饭260顿后续!坚持硬刚比亚迪,更多恶心事曝光,家人遭殃

男子蹭饭260顿后续!坚持硬刚比亚迪,更多恶心事曝光,家人遭殃

青橘罐头
2026-03-21 07:25:22
今年4月注定充满惊喜的3个生肖,好运连连,身边总有贵人!

今年4月注定充满惊喜的3个生肖,好运连连,身边总有贵人!

毅谈生肖
2026-03-23 10:56:04
实探杭州“假装上班公司”:包月有“全勤奖”,老板称不愿客户变成真上班,拒绝做违法违规的事

实探杭州“假装上班公司”:包月有“全勤奖”,老板称不愿客户变成真上班,拒绝做违法违规的事

极目新闻
2026-03-22 22:55:43
年内涨幅快归零!黄金暴跌,水贝商家:问价的人多,买的人少

年内涨幅快归零!黄金暴跌,水贝商家:问价的人多,买的人少

界面新闻
2026-03-23 14:07:57
特朗普接班人生变?美国或出现第一个被中方制裁的总统

特朗普接班人生变?美国或出现第一个被中方制裁的总统

甜柠聊史
2026-03-23 14:22:13
800万粉丝挖机小何,挖机被收回,真相太现实

800万粉丝挖机小何,挖机被收回,真相太现实

东方不败然多多
2026-03-23 01:53:27
3月22日,财政部发布重要消息,强调4个字,养老金调整敲定了吗?

3月22日,财政部发布重要消息,强调4个字,养老金调整敲定了吗?

有范又有料
2026-03-22 15:51:20
离婚6年后,高圣远转身回美国,找了个年轻貌美富婆,周迅仍单身

离婚6年后,高圣远转身回美国,找了个年轻貌美富婆,周迅仍单身

麦芽是个小趴菜
2026-03-23 14:38:25
1945年,王光美大学期间留下一张照片,那年她24岁,妥妥一大美女

1945年,王光美大学期间留下一张照片,那年她24岁,妥妥一大美女

历史龙元阁
2026-03-22 12:45:10
上海德云社开业仅1天,恶心一幕出现,杨议的"老毛病"又犯了!

上海德云社开业仅1天,恶心一幕出现,杨议的"老毛病"又犯了!

共工之锚
2026-03-21 00:53:55
马杜罗被抓两个月后,国防部长换了,新上任的冈萨雷斯被制裁十年

马杜罗被抓两个月后,国防部长换了,新上任的冈萨雷斯被制裁十年

小影的娱乐
2026-03-23 14:21:38
2026-03-23 15:39:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13216文章数 34854关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

长在中国大陆的"日本人"怂恿台出兵 帮美护航霍尔木兹

头条要闻

长在中国大陆的"日本人"怂恿台出兵 帮美护航霍尔木兹

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

沪指险守3800点 全市场超百股跌停

汽车要闻

岚图汽车香江鸣锣 一场关于"国家队"的突围实验

态度原创

时尚
教育
艺术
旅游
公开课

“这条裙子”才是今年春天的顶流,怎么搭都好看

教育要闻

青春期孩子,总是愤怒,无原由的愤怒

艺术要闻

如此美妙的光影,安静而温暖,真令人折服!

旅游要闻

来德州,一起“趣”露营

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版