网易首页 > 网易号 > 正文 申请入驻

这颗芯片,还有机会吗?

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

来源 :内容 编译自 nextplatform 。

高性能计算历经近二十年,数百万人付出了巨大的努力,才得以在 GenAI 的帮助下走向主流。如今,我们生活在一个挤满加速器的 AI 服务器占据了全球系统支出的一半的世界。

没有任何法律规定加速器必须是 GPU,尽管 GPU 一直是首选加速器,因为 GPU 与 CPU 一样,都是通用处理器,专门设计用于支持各种工作负载,其中高吞吐量矢量处理以及 GenAI 和一些经过改变的传统 HPC 模拟、张量处理都受到高度重视。

除了 GPU 之外,还有其他东西可以加速 HPC 和 AI 应用程序,而 Pezy Computing KK(其名称本身就是peta、exa、zetta和yotta的缩写,就像是 HPC 和 AI 球迷的某种足球口号的一部分)花了十五年时间创建可以完成与 GPU 相同工作类型的数学加速器,但采用不同的架构,旨在将能源效率发挥到极致。对于一家由日本新能源和工业技术发展组织 (NEDO) 资助的公司来说,这正是您所期望的,该组织还资助了富士通设计的“Monaka”Arm 服务器 CPU的开发,该 CPU 将用于“FugakuNext”超级计算机。

令人惊奇的是,为什么 FugakuNext 没有至少将其部分计算能力来自 Pezy SC 加速器……也许在 2029 年左右安装 FugakuNext 时会这样。

Pezy Computing 硬件工程师 Naoya Hatta 展示了自 2012 年 4 月推出 Pezy-1 芯片以来,历经两年研发推出的最新数字运算加速器系列产品。以下是 Hatta 在 Hot Chips 2025 大会上展示的表格:


以下是扩展表,其中包含更多特征和我们的分析:


Pezy-1 芯片(未在 Hatta 的上表中显示)拥有 512 个用于计算和图像处理的 RISC 核心和两个小型 Arm 核心,全部采用台湾半导体制造公司的 40 纳米工艺蚀刻而成。其运行频率为 533 MHz,双精度额定值为 266 千兆次浮点运算(浮点格式),单精度额定值为 533 千兆次浮点运算。

2013 年,SC 系列(超级计算机的缩写)加速器首次亮相,并在 2014 年用于多台超级计算机,这些超级计算机进入了 Top500 和 Green500 超级计算机排行榜。在第一款 SC 变体中,RISC 核心被赋予了同时多线程的能力,每个核心有 8 个线程,这意味着它以 733 MHz 运行的 1,024 个核心可以为应用程序提供总共 8,192 个线程。这款芯片采用台积电 28 纳米工艺蚀刻,在 FP64 下可以驱动 750 千兆次浮点运算,在 FP32 精度下可以驱动 1.5 万亿次浮点运算。执行计算的 RISC 核心称为处理器元件或 PE,具有 2 KB 缓存 – 每个 PE 两个用于指令,一个用于数据,这些核心总共具有 2 MB 的 L2 指令缓存和 1 MB 的 L2 数据缓存。每个 PE 还具有一个 16 KB 的暂存器,整个芯片的内存总计为 16 MB。

在 Pezy-SC 设计中,PE 被组织成四个区块,称为“村庄”,四个“村庄”聚合成“城市”,这些城市共享二级数据和指令缓存;十六个城市(或 256 个 PE)聚合成“辖区”,每个辖区的中心共享 2 MB 三级缓存。Pezy-SC 拥有四个 DDR4 内存通道和两个 PCI-Express 3.0 x8 端口,峰值功耗为 100 瓦。

随着 2017 年上市的 Pezy-SC2 设计,L3 缓存在整个处理器组合中共享,大小达到 40 MB,显著提升了性能。此外,构成 PE 的 RISC 核心也添加了 FP16 半精度数学运算,组合中的 PE 数量增加了一倍,时钟速度提升了 36.4%,达到 1 GHz。这些因素的综合作用使 FP64 和 FP32 格式的浮点吞吐量提升了 5.5 倍。

2020 年,随着 Pezy-SC3 的推出,PE 数量再次翻倍,时钟速度提升了 20%,达到 1.2 GHz,芯片组还增加了 HBM2 显存,所有这些加起来将浮点吞吐量提升了 4.8 倍。2021 年,SC3 的精简版 SC3s 面世,它只有 512 个核心,可能是为了测试如何制造更小的、仅使用 HBM2 显存的芯片,并将它们组合起来,以降低基于 Pezy 浮点引擎的服务器节点的成本。(关于 SC3s 芯片的消息不多。)

Pezy-SC4s 于上周在 Hot Chips 上亮相,并将于明年在 ExaScaler 系统中上市,Pezy Computing 将采用台积电 5 纳米工艺,并将核心数量提升至 2,048 个,时钟速度提升至 1.5 GHz。

SC4s 芯片还将配备 96 GB HBM3 显存,带宽为 3.2 TB/秒。根据我们上面表格中的规格,这款芯片的面积将减少 29.3%,但单个设备将容纳 48 亿个逻辑门,比 Pezy-SC3 芯片提升 45.5%。主频也提升了 25%,但我们估计,主频和大幅提升的 64 MB 三级缓存将使 DRAM 功耗高达 600 瓦。这意味着功耗提升了 27.7%,而浮点吞吐量提升了 24.9%,这在我们看来似乎是公平的。SC4s 还增加了对 BF16 处理的支持,以及 SC3 和 SC3s 芯片支持的 FP64、FP32 和 FP16 处理。

Pezy Computing 的设计非常精巧,正如我们将在下面的图表中展示的那样,过去曾包含一些强大的 MIPS 内核,现在 SC4s 芯片中又加入了 RISC-V 内核,这意味着不再需要英特尔或 AMD 的主机 X86 处理器来运行 Linux 操作系统,从而运行主机软件并管理 PE 上的计算。这些加速器是独立的,就像日本旗舰 HPC 中心 RIKEN 实验室的 K 和 Fugaku 超级计算机中使用的 Sparc 和 Arm 处理器一样。

既然如此,我们先来看看 SC4 的芯片组合,然后再思考一下未来的 SC5 会是什么样子,以及日本为何要费心研发这些芯片。(理由很充分。)

Pezy 计算架构基于多指令多数据 (MIMD) 架构的变体,称为单程序多数据 (SPMD):


用通俗的话说,MIMD 是真正的并行编程,在确定并行性的性质方面具有最大的灵活性。SIMT(例如在 GPU 或共享内存池中的多个 GPU 中进行编程时使用的 SIMT)会组织线程以同步的方式对不同数据并行执行操作,从而提高效率,但降低了灵活性。

Pezy Computing 采用 SPMD 方法及其细粒度多线程技术,线程和数据由程序明确调度,因此无需使用分支预测器和乱序指令执行来提升并行性和计算效率。这意味着核心更简单,因此您可以将更多核心塞进一块硅片上。线程成对出现,当另一个线程因等待内存数据而停滞时,另一个线程可以接管处理,从而隐藏延迟。(但可以说,没有什么比拥有数万个核心的 GPU 更能做到这一点了。)

Pezy 架构同时支持细粒度和粗粒度多线程,每个 PE 有 8 个线程,并致力于在 PE 内部和跨 PE 的计算能力、内存容量和内存带宽之间实现更均衡的平衡。缓存层次结构是让这些 PE 保持繁忙的秘诀之一:


下面我们来看一下在Hot Chips上首次亮相的Pezy-SC4s芯片:


上图设计中的 2,048 个 PE 以黄色显示,它们可以承载 16,384 个线程。SC4s 芯片中的 PE 具有 4 KB 的 L1 指令缓存、4 KB 的 L1 数据缓存和 24 KB 的暂存器缓存,这比过去的设计要精简得多。PE 的组织方式如下:


与之前的 Pezy Computing 芯片一样,四个 PE 连接成一个“村落”,允许它们共享各自的暂存器缓存。一个城市由四个“村落”组成,共享 32 KB 的 L2 指令缓存和 64 KB 的 L2 数据缓存。十八个城市连接成一个“县”,但只有其中十六个城市被激活,以提高 5 纳米工艺的良率。八个“县”连接成一个“州”,共享 64 MB 的 L3 缓存。

为什么我们现在要讨论国家?因为我们认为,在台积电采用 3 纳米制程工艺后,Pezy-SC5s 芯片将在单个插槽中集成两个芯片组(或称国家)。(这么说来,一个插槽就等于一个国家了?)

这些 PE 及其缓存通过自定义交叉总线相互连接,该总线对于读取操作具有 12 TB/秒的总带宽,对于写入操作具有 6 TB/秒的总带宽。

无论如何,在芯片底部,小到几乎看不到矩形,是一个IP块,它包含四个“Rocket”开源RISC-V CPU核心,运行频率为1.5 GHz,可进行有序标量处理,并为每个SC4加速器运行Linux主机操作系统。RISC V核心旁边还有一个PCI-Express 5.0控制器,该控制器具有16个I/O通道,带宽为64 GB/秒。

看起来 X86 主机又回来了。原因可能是与 SC4 上嵌入的 RISC-V 内核相比,X86 平台上的 AI 和 HPC 软件更加普及。

这是 Pezy Computing 为 SC4s 加速器创建的当前系统板:


主机采用 AMD 的 64 核“Turin” Epyc 9555P 处理器,卡顶部配备 400 Gb/秒 NDR InfiniBand 控制器,底部配备四个 SC4 加速器,并通过 PCI-Express 通道(可能还会通过 PCI-Express 交换机)连接到主机。Pezy Computing 表示,他们计划构建一个包含 90 个此类节点的测试系统,总计 737,280 个 PE,峰值 FP64 性能可达 8.6 petaflops。

当然,Pezy Computing 必须创建自己的软件堆栈。它看起来如下:


这也是 Pezy 计算平台的 AI 堆栈:


多年来,我们一直认为运行 PyTorch 框架足以胜任许多 AI 工作,Pezy Computing 似乎也认同这一点。(我们当然对 Meta Platforms Llama 模型抱有更高的期望,但不如马克·扎克伯格和他的 AI 团队那么乐观……不过,现在还不能排除扎克伯格的潜力。)到目前为止,谷歌 Gemma3 和 Meta Llama3 模型已经移植到 SC4 上,阿里巴巴 Qwen2、Stable Diffusion 2 和 Hugging Face HuBert 也已移植到 SC4 上。

我们希望在明年 SC4 上市时,能够看到其更出色的实际性能。Hatta 在演示中表示,使用 GATK(基因组分析工具包)进行基因组分析时,四块 Pezy-SC3 芯片每个样本的运行时间为 33 分钟,而英伟达的八块“Hopper”H100 GPU 每个样本的运行时间为 37 分钟。这意味着每块 SC3 的性能是 H100 的 2.25 倍。SC4 的浮点运算能力比 SC3 高出约 25%,因此我们推测 SC4 在 GATK 上的性能大约是 H100 的 2.8 倍。目前尚不清楚 GATK 对 FP64 的依赖程度,但 H100 在 FP64 上的表现远超英伟达的“Blackwell”B100 和 B300 GPU。

高性能计算中心和 AI 模型构建者最终关心的是每瓦浮点运算能力 (Flops per watt)。如上表所示,Pezy Computing 在提升每瓦浮点运算能力方面取得了进展,但随着计算能力的不断提升,该公司似乎将努力控制这一指标的微弱增长。SC3 在 FP64 精度下实现了每瓦 41.9 千兆浮点运算能力,而 SC4 的每瓦浮点运算能力预计约为 41 千兆浮点运算能力。如果 SC5 的表现符合我们的预期——本质上是 SC4 的双 chiplet 版本,并添加了 FP8 计算能力——那么在 FP64 计算能力下,其每瓦浮点运算能力将达到约 45.8 千兆浮点运算能力。(将交叉开关互连扩展到两个 chiplet 并不难。)

Hopper H200 在 FP64 下的性能为每瓦 47.9 千兆浮点运算(33.5 万亿次浮点运算/700 瓦),而 Blackwell B200 的额定性能为每瓦 33.3 千兆浮点运算(40 万亿次浮点运算/1200 瓦)。Blackwell B300 的 FP64 性能严重不足,仅为每秒 1.25 万亿次浮点运算,功耗为 1400 瓦,即每瓦 0.89 千兆浮点运算。(B300 的主要目标应用是低精度 AI 推理。)

显然,Pezy 在高精度每瓦浮点运算能力方面可以与 Nvidia GPU 相媲美,并且能够为非 AI 工作负载提供更灵活的编程。诚然,GPU 中的张量核心在 FP64 和 FP32 精度下可以处理两倍的浮点运算,但在 AI 训练(FP8)和推理(FP4)方面则只能提供低得多的精度。

但日本政府可以通过资助该项目,将Pezy Computing作为一项保障,并保留其在数学加速器设计方面的技能。我们认为这正是Pezy-SC5及其后续产品问世的原因。因为你永远不知道什么时候会因为需求过高或出口受限而无法获得GPU。

我们完全清楚,2029 年即将投入日本理化学研究所的 FugakuNext 系统,其大部分浮点运算能力将来自未来的 Nvidia GPU。但我们仍然认为,现在有足够的时间和资金来安装多个 Pezy 加速器机架。何乐而不为呢?

https://www.nextplatform.com/2025/09/04/why-is-japan-still-investing-in-custom-floating-point-accelerators/

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4147期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1951年歼灭6万日军的名将被蒋介石秘密处决,因判决书上的一个字

1951年歼灭6万日军的名将被蒋介石秘密处决,因判决书上的一个字

宅家伍菇凉
2025-09-11 10:00:05
长江为何是“世界美酒河”?三个维度看五粮液的“美酒基因”

长江为何是“世界美酒河”?三个维度看五粮液的“美酒基因”

糖烟酒热点
2025-09-13 12:40:35
争议!30岁乌克兰名将多次公开阴阳中国,如今却来中国参加比赛

争议!30岁乌克兰名将多次公开阴阳中国,如今却来中国参加比赛

念洲
2025-09-13 12:42:08
螳螂捕蝉黄雀在后!释永信“倒台”一个多月后,最大的受益人出现

螳螂捕蝉黄雀在后!释永信“倒台”一个多月后,最大的受益人出现

聚合大娱
2025-09-13 16:07:41
西贝硬刚罗永浩,卫健委出手了!

西贝硬刚罗永浩,卫健委出手了!

梳子姐
2025-09-13 19:16:39
网传免签之后,杭州涌入了大量毛妹,价格只有本地的一半……

网传免签之后,杭州涌入了大量毛妹,价格只有本地的一半……

翻开历史和现实
2025-09-12 11:06:35
大瓜!疑表姐发文:于朦胧准备出国,聚餐3男1女愿给赔偿,曝更多内情

大瓜!疑表姐发文:于朦胧准备出国,聚餐3男1女愿给赔偿,曝更多内情

扒星人
2025-09-13 12:09:47
难怪一提到给农民涨养老金,就强烈反对,原来都是这些人从中使坏

难怪一提到给农民涨养老金,就强烈反对,原来都是这些人从中使坏

一针见娱
2025-09-13 23:25:04
算盘打得太好!罗永浩的这场纠纷,让于东来将人情世故展露无遗

算盘打得太好!罗永浩的这场纠纷,让于东来将人情世故展露无遗

时尚的弄潮
2025-09-13 13:51:28
巨星!“中超水货”3300万加盟欧洲豪门:上赛季刚拿金靴!

巨星!“中超水货”3300万加盟欧洲豪门:上赛季刚拿金靴!

邱泽云
2025-09-13 16:18:45
美联储“开闸”降息,华尔街坚信:美元“世纪大跌”还有下半场

美联储“开闸”降息,华尔街坚信:美元“世纪大跌”还有下半场

生活新鲜市
2025-09-13 12:33:50
2-2大冷门,英超前冠军遭联赛第22阻击,无缘3连胜,苏马雷乌龙球

2-2大冷门,英超前冠军遭联赛第22阻击,无缘3连胜,苏马雷乌龙球

凌空倒钩
2025-09-13 22:03:21
一夜没了8000亿!iPhone17杀死苹果

一夜没了8000亿!iPhone17杀死苹果

李东阳朋友圈
2025-09-11 14:08:10
“老罗,我们家没有预制菜”,宁波老字号餐饮店用大屏“喊话”罗永浩,品牌方:只是想宣传自家菜

“老罗,我们家没有预制菜”,宁波老字号餐饮店用大屏“喊话”罗永浩,品牌方:只是想宣传自家菜

极目新闻
2025-09-13 23:16:39
又美又强!中国20岁天才美少女的“开挂”人生:7金女王+保送复旦

又美又强!中国20岁天才美少女的“开挂”人生:7金女王+保送复旦

体坛小二哥
2025-09-13 23:56:42
“14岁女孩遭体罚,死前6封求救信被班主任拦截”案,最新进展

“14岁女孩遭体罚,死前6封求救信被班主任拦截”案,最新进展

澎湃新闻
2025-09-13 00:29:22
江西摸头男子已社会性死亡,正脸流出被群嘲,拱火同伴也没的跑!

江西摸头男子已社会性死亡,正脸流出被群嘲,拱火同伴也没的跑!

禾寒叙
2025-09-13 13:29:12
时隔19年,“出走王族”哈里王子回家见了父亲查尔斯三世,并为此“清空了全天的日程安排”,父子“一起喝了茶”

时隔19年,“出走王族”哈里王子回家见了父亲查尔斯三世,并为此“清空了全天的日程安排”,父子“一起喝了茶”

极目新闻
2025-09-12 09:07:44
特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

博览历史
2025-07-21 17:59:30
九旬老兵吹响冲锋号:战友们,归队!

九旬老兵吹响冲锋号:战友们,归队!

新华社
2025-09-13 14:11:02
2025-09-14 07:04:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
11734文章数 34647关注度
往期回顾 全部

科技要闻

京东淘宝iPhone17基础版十分钟被抢空

头条要闻

28岁女子被砸中身亡家属索赔200万 抛砖男已被执行死刑

头条要闻

28岁女子被砸中身亡家属索赔200万 抛砖男已被执行死刑

体育要闻

27年的等待结束?挪威最快下个月进世界杯

娱乐要闻

杨幂回复祝福区别对待祝绪丹引热议

财经要闻

西贝冤不冤

汽车要闻

欧阳明高:智能化只是中场 2030-2035年能源低碳化才是下半场

态度原创

房产
亲子
教育
数码
军事航空

房产要闻

「世界冠军×人居升阶」白鹅潭CLD封面,实力馥见人生新高度!

亲子要闻

幼儿园干饭No.1的崽:去学校不就是为了那口饭嘛

教育要闻

穷养儿,富养女?90后父母已经开始颠覆这个规则!

数码要闻

鹏辉能源新一代移动电源(充电宝)电池 Secu 系列上市

军事要闻

多国将承认巴勒斯坦国 支持"两国方案"

无障碍浏览 进入关怀版