网易首页 > 网易号 > 正文 申请入驻

这颗芯片,还有机会吗?

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

来源 :内容 编译自 nextplatform 。

高性能计算历经近二十年,数百万人付出了巨大的努力,才得以在 GenAI 的帮助下走向主流。如今,我们生活在一个挤满加速器的 AI 服务器占据了全球系统支出的一半的世界。

没有任何法律规定加速器必须是 GPU,尽管 GPU 一直是首选加速器,因为 GPU 与 CPU 一样,都是通用处理器,专门设计用于支持各种工作负载,其中高吞吐量矢量处理以及 GenAI 和一些经过改变的传统 HPC 模拟、张量处理都受到高度重视。

除了 GPU 之外,还有其他东西可以加速 HPC 和 AI 应用程序,而 Pezy Computing KK(其名称本身就是peta、exa、zetta和yotta的缩写,就像是 HPC 和 AI 球迷的某种足球口号的一部分)花了十五年时间创建可以完成与 GPU 相同工作类型的数学加速器,但采用不同的架构,旨在将能源效率发挥到极致。对于一家由日本新能源和工业技术发展组织 (NEDO) 资助的公司来说,这正是您所期望的,该组织还资助了富士通设计的“Monaka”Arm 服务器 CPU的开发,该 CPU 将用于“FugakuNext”超级计算机。

令人惊奇的是,为什么 FugakuNext 没有至少将其部分计算能力来自 Pezy SC 加速器……也许在 2029 年左右安装 FugakuNext 时会这样。

Pezy Computing 硬件工程师 Naoya Hatta 展示了自 2012 年 4 月推出 Pezy-1 芯片以来,历经两年研发推出的最新数字运算加速器系列产品。以下是 Hatta 在 Hot Chips 2025 大会上展示的表格:


以下是扩展表,其中包含更多特征和我们的分析:


Pezy-1 芯片(未在 Hatta 的上表中显示)拥有 512 个用于计算和图像处理的 RISC 核心和两个小型 Arm 核心,全部采用台湾半导体制造公司的 40 纳米工艺蚀刻而成。其运行频率为 533 MHz,双精度额定值为 266 千兆次浮点运算(浮点格式),单精度额定值为 533 千兆次浮点运算。

2013 年,SC 系列(超级计算机的缩写)加速器首次亮相,并在 2014 年用于多台超级计算机,这些超级计算机进入了 Top500 和 Green500 超级计算机排行榜。在第一款 SC 变体中,RISC 核心被赋予了同时多线程的能力,每个核心有 8 个线程,这意味着它以 733 MHz 运行的 1,024 个核心可以为应用程序提供总共 8,192 个线程。这款芯片采用台积电 28 纳米工艺蚀刻,在 FP64 下可以驱动 750 千兆次浮点运算,在 FP32 精度下可以驱动 1.5 万亿次浮点运算。执行计算的 RISC 核心称为处理器元件或 PE,具有 2 KB 缓存 – 每个 PE 两个用于指令,一个用于数据,这些核心总共具有 2 MB 的 L2 指令缓存和 1 MB 的 L2 数据缓存。每个 PE 还具有一个 16 KB 的暂存器,整个芯片的内存总计为 16 MB。

在 Pezy-SC 设计中,PE 被组织成四个区块,称为“村庄”,四个“村庄”聚合成“城市”,这些城市共享二级数据和指令缓存;十六个城市(或 256 个 PE)聚合成“辖区”,每个辖区的中心共享 2 MB 三级缓存。Pezy-SC 拥有四个 DDR4 内存通道和两个 PCI-Express 3.0 x8 端口,峰值功耗为 100 瓦。

随着 2017 年上市的 Pezy-SC2 设计,L3 缓存在整个处理器组合中共享,大小达到 40 MB,显著提升了性能。此外,构成 PE 的 RISC 核心也添加了 FP16 半精度数学运算,组合中的 PE 数量增加了一倍,时钟速度提升了 36.4%,达到 1 GHz。这些因素的综合作用使 FP64 和 FP32 格式的浮点吞吐量提升了 5.5 倍。

2020 年,随着 Pezy-SC3 的推出,PE 数量再次翻倍,时钟速度提升了 20%,达到 1.2 GHz,芯片组还增加了 HBM2 显存,所有这些加起来将浮点吞吐量提升了 4.8 倍。2021 年,SC3 的精简版 SC3s 面世,它只有 512 个核心,可能是为了测试如何制造更小的、仅使用 HBM2 显存的芯片,并将它们组合起来,以降低基于 Pezy 浮点引擎的服务器节点的成本。(关于 SC3s 芯片的消息不多。)

Pezy-SC4s 于上周在 Hot Chips 上亮相,并将于明年在 ExaScaler 系统中上市,Pezy Computing 将采用台积电 5 纳米工艺,并将核心数量提升至 2,048 个,时钟速度提升至 1.5 GHz。

SC4s 芯片还将配备 96 GB HBM3 显存,带宽为 3.2 TB/秒。根据我们上面表格中的规格,这款芯片的面积将减少 29.3%,但单个设备将容纳 48 亿个逻辑门,比 Pezy-SC3 芯片提升 45.5%。主频也提升了 25%,但我们估计,主频和大幅提升的 64 MB 三级缓存将使 DRAM 功耗高达 600 瓦。这意味着功耗提升了 27.7%,而浮点吞吐量提升了 24.9%,这在我们看来似乎是公平的。SC4s 还增加了对 BF16 处理的支持,以及 SC3 和 SC3s 芯片支持的 FP64、FP32 和 FP16 处理。

Pezy Computing 的设计非常精巧,正如我们将在下面的图表中展示的那样,过去曾包含一些强大的 MIPS 内核,现在 SC4s 芯片中又加入了 RISC-V 内核,这意味着不再需要英特尔或 AMD 的主机 X86 处理器来运行 Linux 操作系统,从而运行主机软件并管理 PE 上的计算。这些加速器是独立的,就像日本旗舰 HPC 中心 RIKEN 实验室的 K 和 Fugaku 超级计算机中使用的 Sparc 和 Arm 处理器一样。

既然如此,我们先来看看 SC4 的芯片组合,然后再思考一下未来的 SC5 会是什么样子,以及日本为何要费心研发这些芯片。(理由很充分。)

Pezy 计算架构基于多指令多数据 (MIMD) 架构的变体,称为单程序多数据 (SPMD):


用通俗的话说,MIMD 是真正的并行编程,在确定并行性的性质方面具有最大的灵活性。SIMT(例如在 GPU 或共享内存池中的多个 GPU 中进行编程时使用的 SIMT)会组织线程以同步的方式对不同数据并行执行操作,从而提高效率,但降低了灵活性。

Pezy Computing 采用 SPMD 方法及其细粒度多线程技术,线程和数据由程序明确调度,因此无需使用分支预测器和乱序指令执行来提升并行性和计算效率。这意味着核心更简单,因此您可以将更多核心塞进一块硅片上。线程成对出现,当另一个线程因等待内存数据而停滞时,另一个线程可以接管处理,从而隐藏延迟。(但可以说,没有什么比拥有数万个核心的 GPU 更能做到这一点了。)

Pezy 架构同时支持细粒度和粗粒度多线程,每个 PE 有 8 个线程,并致力于在 PE 内部和跨 PE 的计算能力、内存容量和内存带宽之间实现更均衡的平衡。缓存层次结构是让这些 PE 保持繁忙的秘诀之一:


下面我们来看一下在Hot Chips上首次亮相的Pezy-SC4s芯片:


上图设计中的 2,048 个 PE 以黄色显示,它们可以承载 16,384 个线程。SC4s 芯片中的 PE 具有 4 KB 的 L1 指令缓存、4 KB 的 L1 数据缓存和 24 KB 的暂存器缓存,这比过去的设计要精简得多。PE 的组织方式如下:


与之前的 Pezy Computing 芯片一样,四个 PE 连接成一个“村落”,允许它们共享各自的暂存器缓存。一个城市由四个“村落”组成,共享 32 KB 的 L2 指令缓存和 64 KB 的 L2 数据缓存。十八个城市连接成一个“县”,但只有其中十六个城市被激活,以提高 5 纳米工艺的良率。八个“县”连接成一个“州”,共享 64 MB 的 L3 缓存。

为什么我们现在要讨论国家?因为我们认为,在台积电采用 3 纳米制程工艺后,Pezy-SC5s 芯片将在单个插槽中集成两个芯片组(或称国家)。(这么说来,一个插槽就等于一个国家了?)

这些 PE 及其缓存通过自定义交叉总线相互连接,该总线对于读取操作具有 12 TB/秒的总带宽,对于写入操作具有 6 TB/秒的总带宽。

无论如何,在芯片底部,小到几乎看不到矩形,是一个IP块,它包含四个“Rocket”开源RISC-V CPU核心,运行频率为1.5 GHz,可进行有序标量处理,并为每个SC4加速器运行Linux主机操作系统。RISC V核心旁边还有一个PCI-Express 5.0控制器,该控制器具有16个I/O通道,带宽为64 GB/秒。

看起来 X86 主机又回来了。原因可能是与 SC4 上嵌入的 RISC-V 内核相比,X86 平台上的 AI 和 HPC 软件更加普及。

这是 Pezy Computing 为 SC4s 加速器创建的当前系统板:


主机采用 AMD 的 64 核“Turin” Epyc 9555P 处理器,卡顶部配备 400 Gb/秒 NDR InfiniBand 控制器,底部配备四个 SC4 加速器,并通过 PCI-Express 通道(可能还会通过 PCI-Express 交换机)连接到主机。Pezy Computing 表示,他们计划构建一个包含 90 个此类节点的测试系统,总计 737,280 个 PE,峰值 FP64 性能可达 8.6 petaflops。

当然,Pezy Computing 必须创建自己的软件堆栈。它看起来如下:


这也是 Pezy 计算平台的 AI 堆栈:


多年来,我们一直认为运行 PyTorch 框架足以胜任许多 AI 工作,Pezy Computing 似乎也认同这一点。(我们当然对 Meta Platforms Llama 模型抱有更高的期望,但不如马克·扎克伯格和他的 AI 团队那么乐观……不过,现在还不能排除扎克伯格的潜力。)到目前为止,谷歌 Gemma3 和 Meta Llama3 模型已经移植到 SC4 上,阿里巴巴 Qwen2、Stable Diffusion 2 和 Hugging Face HuBert 也已移植到 SC4 上。

我们希望在明年 SC4 上市时,能够看到其更出色的实际性能。Hatta 在演示中表示,使用 GATK(基因组分析工具包)进行基因组分析时,四块 Pezy-SC3 芯片每个样本的运行时间为 33 分钟,而英伟达的八块“Hopper”H100 GPU 每个样本的运行时间为 37 分钟。这意味着每块 SC3 的性能是 H100 的 2.25 倍。SC4 的浮点运算能力比 SC3 高出约 25%,因此我们推测 SC4 在 GATK 上的性能大约是 H100 的 2.8 倍。目前尚不清楚 GATK 对 FP64 的依赖程度,但 H100 在 FP64 上的表现远超英伟达的“Blackwell”B100 和 B300 GPU。

高性能计算中心和 AI 模型构建者最终关心的是每瓦浮点运算能力 (Flops per watt)。如上表所示,Pezy Computing 在提升每瓦浮点运算能力方面取得了进展,但随着计算能力的不断提升,该公司似乎将努力控制这一指标的微弱增长。SC3 在 FP64 精度下实现了每瓦 41.9 千兆浮点运算能力,而 SC4 的每瓦浮点运算能力预计约为 41 千兆浮点运算能力。如果 SC5 的表现符合我们的预期——本质上是 SC4 的双 chiplet 版本,并添加了 FP8 计算能力——那么在 FP64 计算能力下,其每瓦浮点运算能力将达到约 45.8 千兆浮点运算能力。(将交叉开关互连扩展到两个 chiplet 并不难。)

Hopper H200 在 FP64 下的性能为每瓦 47.9 千兆浮点运算(33.5 万亿次浮点运算/700 瓦),而 Blackwell B200 的额定性能为每瓦 33.3 千兆浮点运算(40 万亿次浮点运算/1200 瓦)。Blackwell B300 的 FP64 性能严重不足,仅为每秒 1.25 万亿次浮点运算,功耗为 1400 瓦,即每瓦 0.89 千兆浮点运算。(B300 的主要目标应用是低精度 AI 推理。)

显然,Pezy 在高精度每瓦浮点运算能力方面可以与 Nvidia GPU 相媲美,并且能够为非 AI 工作负载提供更灵活的编程。诚然,GPU 中的张量核心在 FP64 和 FP32 精度下可以处理两倍的浮点运算,但在 AI 训练(FP8)和推理(FP4)方面则只能提供低得多的精度。

但日本政府可以通过资助该项目,将Pezy Computing作为一项保障,并保留其在数学加速器设计方面的技能。我们认为这正是Pezy-SC5及其后续产品问世的原因。因为你永远不知道什么时候会因为需求过高或出口受限而无法获得GPU。

我们完全清楚,2029 年即将投入日本理化学研究所的 FugakuNext 系统,其大部分浮点运算能力将来自未来的 Nvidia GPU。但我们仍然认为,现在有足够的时间和资金来安装多个 Pezy 加速器机架。何乐而不为呢?

https://www.nextplatform.com/2025/09/04/why-is-japan-still-investing-in-custom-floating-point-accelerators/

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4147期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坏消息,勇士队库里在战胜太阳队后立即被宣布缺席打国王队的比赛

坏消息,勇士队库里在战胜太阳队后立即被宣布缺席打国王队的比赛

好火子
2025-11-05 23:52:39
古二成功毁掉王家卫,《繁花》电影版流产,导演生涯基本结束

古二成功毁掉王家卫,《繁花》电影版流产,导演生涯基本结束

光影新天地
2025-11-04 14:48:35
完了完了!突然一级拉伤!这可是NBA大年状元郎

完了完了!突然一级拉伤!这可是NBA大年状元郎

篮球实战宝典
2025-11-05 20:24:28
年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

金融八卦女
2025-11-05 13:57:48
安世半导体风波仍在持续,闻泰科技重要股东突然宣布减持:最高价值超16亿元!公司第三季度净利大增279%

安世半导体风波仍在持续,闻泰科技重要股东突然宣布减持:最高价值超16亿元!公司第三季度净利大增279%

每日经济新闻
2025-11-05 22:59:09
10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

银河史记
2025-11-04 20:17:37
佟丽娅在深圳扫购黄金!头发稀少假发突出,满胳膊黄金手串太显眼

佟丽娅在深圳扫购黄金!头发稀少假发突出,满胳膊黄金手串太显眼

鑫鑫说说
2025-11-04 09:18:31
郭可盈在香港买37万国产电车,与丈夫现身提车,林文龙打扮好时尚

郭可盈在香港买37万国产电车,与丈夫现身提车,林文龙打扮好时尚

黔乡小姊妹
2025-11-06 11:23:26
恩爱了17年,75岁的郭台铭开始衰老萎缩,51岁的曾馨莹仍娇艳如花

恩爱了17年,75岁的郭台铭开始衰老萎缩,51岁的曾馨莹仍娇艳如花

不似少年游
2025-09-12 07:34:15
澳门知名娱乐场英皇宫殿宣布停运,老板为英皇集团掌门人杨受成;曾以大堂铺满78公斤千足黄金闻名,开业时成龙、刘德华等艺人捧场

澳门知名娱乐场英皇宫殿宣布停运,老板为英皇集团掌门人杨受成;曾以大堂铺满78公斤千足黄金闻名,开业时成龙、刘德华等艺人捧场

极目新闻
2025-11-05 16:19:29
祝贺!邵佳一当选国足主帅,2新星锁定国脚资格,年轻化全面提速

祝贺!邵佳一当选国足主帅,2新星锁定国脚资格,年轻化全面提速

国足风云
2025-11-05 18:48:00
先发五战全胜!308万奥科吉成火箭胜负手 美媒:这个合同是打劫

先发五战全胜!308万奥科吉成火箭胜负手 美媒:这个合同是打劫

颜小白的篮球梦
2025-11-06 11:28:08
喝酒四巨头:不到两年全没,有的去世当天喝4瓶白酒,最小的才26

喝酒四巨头:不到两年全没,有的去世当天喝4瓶白酒,最小的才26

墨印斋
2025-09-22 10:00:58
62岁穆里尼奥麻了:上任48天 欧冠3败0分0球!沦为送分童子

62岁穆里尼奥麻了:上任48天 欧冠3败0分0球!沦为送分童子

叶青足球世界
2025-11-06 07:38:57
从落后3分到17分!哈登25+6+6遭冷藏,卢指导制造快船负雷霆惨案

从落后3分到17分!哈登25+6+6遭冷藏,卢指导制造快船负雷霆惨案

奕辰说球
2025-11-06 11:28:31
baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

八星人
2025-11-05 15:55:40
韩国人又破防了!废除中国汉字多年后,韩语咋成了“中国拼音”了

韩国人又破防了!废除中国汉字多年后,韩语咋成了“中国拼音”了

青途历史
2025-10-03 13:19:06
火箭真疯!5连胜倒数杀回西部第四 7人上双已完成合体

火箭真疯!5连胜倒数杀回西部第四 7人上双已完成合体

枪炮篮球 PiU
2025-11-06 11:38:26
吴京《镖人》是奔着票房冠军去的,陈丽君或成票房最高武侠女演员

吴京《镖人》是奔着票房冠军去的,陈丽君或成票房最高武侠女演员

八卦南风
2025-11-05 15:16:34
人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

八斗小先生
2025-11-01 08:46:54
2025-11-06 13:23:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12161文章数 34696关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

副院长被指出轨女主任医师 在值班室发生关系视频流出

头条要闻

副院长被指出轨女主任医师 在值班室发生关系视频流出

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

艺术
亲子
本地
时尚
健康

艺术要闻

“塑料凳”大厦?西安新地标213米造型引热议!

亲子要闻

胡图图幼小衔接采取积分制,表现好就加分

本地新闻

这届干饭人,已经把博物馆吃成了食堂

中国色特别策划 | 故宫技艺与古意新生

超声探头会加重受伤情况吗?

无障碍浏览 进入关怀版