网易首页 > 网易号 > 正文 申请入驻

用全球最大芯片打造超算,细节曝光

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容来自nextplatform,谢谢。

劳伦斯利弗莫尔国家实验室、桑迪亚国家实验室和洛斯阿拉莫斯国家实验室在 HPC 社区中被简称为“三重实验室”,但这些 HPC 中心或许可以称为“尝试实验室”,因为它们历史上尝试过几乎任何新的架构,以了解它在推进美国能源部的使命方面可能有何前景。

桑迪亚国家实验室是先锋计划测试新架构的地方,现在它带着 Cerebras Systems 的第三代晶圆级系统再次回归,希望在一台真正设计用于运行 AI 训练和推理的机器上突破传统 HPC 代码的性能障碍。

两年前,桑迪亚从 Cerebras 收购了数量不详的 CS-2 系统,每个系统都有一个 CPU 主机和一个 WSE-2 晶圆级处理器,目的是将一些矩阵密集的 HPC 计算卸载到 WSE-2 引擎上的 16 位浮点核心上。

为什么桑迪亚甚至会考虑将其 64 位或 32 位格式的计算精度降低四倍或两倍?因为这些 WSE-2 引擎(正如我们在 2022 年 3 月详细介绍的那样)将 850,000 个内核和 40 GB 的片上 SRAM 内存(蚀刻在 2.6 万亿个晶体管中)塞进一个餐盘大小的方形硅片中,具有 20 PB/秒的内存带宽和 6.25 千万亿次浮点运算的密集矩阵和 62.5 千万亿次浮点运算的稀疏矩阵。

我们的想法是,对于某些类型的工作负载,如果问题适合内存,或者可以分解为跨越这些核心的部分,那么在单个大型设备上进行计算可以使 HPC 模拟运行得更快。

今年早些时候,桑迪亚国家实验室的一个研究小组证明了这一点,单个 CS-2 系统在某种分子动力学模拟中击败了橡树岭国家实验室的“Frontier”超级计算机。

更大的 Frontier 机器拥有 37,632 个 AMD “Aldebaran” MI250X GPU 加速器,可以模拟晶格中的大量原子,但由于这些 GPU 集群的扩展性较弱,它无法模拟长时间摆动的原子。节点之间的延迟使这成为不可能。

但是,使用改进的 LAMMPS 分子动力学模拟,桑迪亚设立了一个测试,其中钨、铜和钽晶格由静态原子数组成——801,792,足以让一个 WSE-2 核心保存一个原子的数据——然后模拟这些晶格受到辐射冲击。与庞大的 Frontier 系统中的 GPU 相比,桑迪亚在一台 WSE-2 计算引擎上进行的 LAMMPS 模拟中每秒可处理的时间步数对于铜高 109 倍,对于钨高 96 倍,对于钽高 179 倍。这为 Cerebras 铁上的模拟提供了数十毫秒的时间,正如我们当时指出的那样,有足够的时间来实际观察当你用能量戳晶格时晶格会发生什么。

在 Frontier 机器上,该应用程序的扩展在 32 个 GPU 时逐渐减弱,这令人失望,并且表明对于某些类型的应用程序来说,很难在单个计算设备之外进行扩展。

当时,我们推测,如果 Sandia 升级到今年 3 月推出的 CS-3 系统中的 WSE-3 计算引擎,它就可以赢得更多时间(即模拟时间) 。借助 WSE-3 引擎,Cerebras 将晶体管缩小到 5 纳米(WSE-2 为 7 纳米),并将核心数量增加到 900,000 个,但转移到 8 宽 FP16 SIMD 单元,是 WSE-2 和 WSE-1 引擎中使用的 SIMD 单元宽度的两倍。我们认为 WSE-3 的时钟速度提高了约 5%,当你将时钟速度、核心跳跃和 SIMD 提升相乘时,这就是 WSE-3 的性能是 WSE-2 的 2 倍的原因。

我们猜测,通过从 WSE-2 移至 WSE-3,这种性能提升可能会将钽晶格辐射的模拟窗口从 40 毫秒增加到 80 毫秒。相比之下,Frontier 机器上的这些节点模拟时间约为 200 纳秒。

嗯,看起来桑迪亚国家实验室的人们想要获得一些 WSE-3 计算引擎并一探究竟。我们还强烈怀疑他们想弄清楚是否可以将模拟扩展到多个晶圆上并突破 1 秒模拟障碍。

也许是为了这个目的,也为了其他目的,桑迪亚国家实验室和 Cerebras 已经开始构建一个绰号为“Kingfisher”的系统,该系统将以四个 CS-3 系统开始,并将在未来某个时候扩展到八个系统。Kingfisher 集群将在传统的 HPC 模拟工作和 AI 工作上加倍努力——当然是生成式 AI,但不一定仅限于此——这可以增强三实验室在国家核安全局的支持下进行的处理,该局资助三实验室管理美国军方的核武器库存。具体来说,Kingfisher 是由核威慑高级模拟和计算人工智能计划资助的。

桑迪亚研究人员 Thuc Hoang、Ann Gentile、Andrew Younge、Si Hammond、James Laros 和 Kevin Stroup 站在 Kingfisher 旁边。

在宣布 Kingfisher 系统的声明中,一直领导桑迪亚 CS-2 系统工作的研究人员之一 James Laros 表示,实验室正在探索使用未来版本的 WSE 计算引擎“用于 Mod-Sim 和 AI 工作负载的组合”的可行性。我们过去曾与 Cerebras 联合创始人兼首席执行官 Andrew Feldman 开玩笑说,世界真正需要的是一个拥有 64 位 SIMD 引擎的 WSE,该引擎可以扩展到 FP64 精度,甚至可以降低到 FP4 精度,并且可以动态执行,可能是在晶圆上的不同块中,也可能是在代码运行时动态执行,因此理论上 HPC 中心的任何代码都可以在 Cerebras 硬件上运行。

如果有足够多的人这么说,并且有足够多的人为此提供资金,也许这就会实现。对我们来说,这些都不是笑翠鸟。Nvidia 不再专注于其 GPU 的 FP64 性能。

Kingfisher 系统的成本尚未公布,但我们知道,按照标价(无论 HPC 领域的标价是多少),去年 G42 开始与 Cerebras 合作,基于 CS-2 机器构建“Condor Galaxy”集群时,配备单个 WSE-2 的 CS-2 系统的成本约为 160 万美元。也许这意味着要获得 CS-3,价格要上涨 1.5 倍,或者可能上涨 2 倍。在一个要求每一代都物有所值的世界里,230 万美元到 250 万美元可能是合理的。在一个需要更高性能且选择很少的世界里,320 万美元的 CS-3 节点成本是合理的。无论如何,我们认为桑迪亚不会为机器支付接近标价的价格,但同时希望帮助资助那些可能帮助其更好地运行模拟的公司。我们可以肯定地告诉你的是,Frontier 的 32 GPU 部分仅花费约 425,000 美元,但它只能扩展到这么大。

那么,增加原子数量和增加模拟时间对 NNSA 来说有什么价值呢?可能价值很大。

我们期待进一步了解 Kingfisher 所做的事情以及它是如何做到的。

最后一件事:桑迪亚团队在 Cerbras 晶圆级系统上进行的分子动力学研究将角逐今年的戈登贝尔奖。我们希望他们能获奖,这样 GPU 供应商们就得时刻保持警惕了。

https://www.nextplatform.com/2024/11/14/sandia-to-push-both-hpc-and-ai-with-cerebras-kingfisher-cluster/

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3949期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“一个月做5次,超过就按50万一次收费!”泽尻英龙华逼丈夫签下

“一个月做5次,超过就按50万一次收费!”泽尻英龙华逼丈夫签下

忠于法纪
2025-12-03 11:35:03
演都不演了?棋圣聂卫平去世不到24小时,令人担心的事还是发生了

演都不演了?棋圣聂卫平去世不到24小时,令人担心的事还是发生了

揽星河的笔记
2026-01-15 18:09:53
官媒点名揭露阎维文处境,李双江判断获证实

官媒点名揭露阎维文处境,李双江判断获证实

一窥究竟
2026-01-16 01:03:04
刘銮雄与吕丽君之女刘秀盈拉小提琴,她23岁好独立,比甘比女儿强

刘銮雄与吕丽君之女刘秀盈拉小提琴,她23岁好独立,比甘比女儿强

小娱乐悠悠
2026-01-16 09:14:54
一行代码都不会!花270元、烧光1500次请求,他和5岁儿子一周做出游戏:现在作业直接“玩上瘾”了……

一行代码都不会!花270元、烧光1500次请求,他和5岁儿子一周做出游戏:现在作业直接“玩上瘾”了……

CSDN
2026-01-15 18:57:51
才八天就黄了,越南670亿高铁项目崩盘,这次中国不做“冤大头”

才八天就黄了,越南670亿高铁项目崩盘,这次中国不做“冤大头”

泠泠说史
2026-01-09 18:58:05
手戴1000多万名表,坐拥3.6亿私人飞机,“沪上皇”秦奋啥来头?

手戴1000多万名表,坐拥3.6亿私人飞机,“沪上皇”秦奋啥来头?

小熊侃史
2026-01-12 07:40:07
新款特斯拉Model S曝光!前后采用贯穿式大灯

新款特斯拉Model S曝光!前后采用贯穿式大灯

泡泡网
2026-01-14 17:49:08
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

谈古论今历史有道
2026-01-07 07:45:03
超越寡姐,《阿凡达》女主成史上票房最高演员

超越寡姐,《阿凡达》女主成史上票房最高演员

环球网资讯
2026-01-14 16:56:14
李春平死了

李春平死了

霹雳炮
2025-11-05 22:34:23
安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

牛牛叨史
2026-01-06 12:59:43
寒潮预警!济南降雪降温最新预报:全市将有中到大雪,19日至22日将出现持续低温天气,局地最低温-20℃

寒潮预警!济南降雪降温最新预报:全市将有中到大雪,19日至22日将出现持续低温天气,局地最低温-20℃

鲁中晨报
2026-01-15 17:55:18
摩根士丹利邢自强:中国每年理工科毕业生接近500万,超过欧洲和美国总和

摩根士丹利邢自强:中国每年理工科毕业生接近500万,超过欧洲和美国总和

新浪财经
2026-01-15 19:21:31
贸易规则变了!欧盟启动CPTPP对话,一场迟来的自救能否成功?

贸易规则变了!欧盟启动CPTPP对话,一场迟来的自救能否成功?

安珈使者啊
2026-01-15 14:19:30
上海今晨大雾,空气重度污染!高速公路限速、多个入口关闭,轮渡停航

上海今晨大雾,空气重度污染!高速公路限速、多个入口关闭,轮渡停航

上观新闻
2026-01-16 08:24:05
0-2落后逆转3-2获胜!多哈球星赛国乒“神经刀”周启豪强势晋级

0-2落后逆转3-2获胜!多哈球星赛国乒“神经刀”周启豪强势晋级

卿子书
2026-01-16 10:03:27
16GB+1TB!新机官宣:1月20日,新品正式发布!

16GB+1TB!新机官宣:1月20日,新品正式发布!

科技堡垒
2026-01-15 11:48:25
高市早苗正式传达解散众议院意向后次日,“反高市联盟”亮相

高市早苗正式传达解散众议院意向后次日,“反高市联盟”亮相

上观新闻
2026-01-16 09:17:04
2026-01-16 11:23:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12705文章数 34762关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

头条要闻

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

时尚
旅游
本地
教育
军事航空

年度最扎心电影,看得中年男女坐立难安

旅游要闻

漫步翠湖“文化廊道”:在咖啡飘香中感受人文消费新活力

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

教育要闻

广州多区明确不组织期末统考,严禁面向非毕业年级

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版