网易首页 > 网易号 > 正文 申请入驻

Elon Musk用20万个GPU打造Grok 3,目标是100万GPU

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容来自半导体行业观察综合,谢谢。

伊隆·马斯克和三位 xAI 高级员工介绍了他的 AI 聊天机器人Grok 3的最新版本,该公司称其为“地球上最聪明的 AI”。在 X(以前的 Twitter)上的一个直播视频中,马斯克强调了 Grok 3 是如何迅速超越其前身的:

“我们非常高兴能够推出 Grok 3,它在很短的时间内比 Grok 2 强大了一个数量级,”马斯克说。“我们的团队在过去几个月里一直在努力改进 Grok,以便让所有人都能使用它。”

马斯克与 xAI 首席工程师伊戈尔·巴布施金以及联合创始人吴宇怀(托尼) (前谷歌和斯坦福大学研究科学家) 和吉米·巴 (多伦多大学助理教授) 一起吹捧 Grok 3 的解决问题能力,称它可以解决“复杂的物理、高等数学和编码任务,而这些任务通常需要人们花费数小时才能完成”。他补充说,该模型“每天都在不断改进”,马斯克将此归功于 xAI 新的超大型数据中心。

独立基准测试显示,Grok 3 在 AIME、GPQA 和 LCB 等测试中的表现优于 Google Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet 和 GPT-4。

与 OpenAI 的o3 mini和DeepSeek R1一样,Grok-3 具有高级推理能力。xAI 代表表示,通过采用最佳的预训练模型,并继续使用强化学习进行训练,该模型将开发出额外的推理能力,从而显著提高训练和测试性能。

推理模型可通过 Grok 应用程序获得,用户可以提示 Grok 3“思考”,或者对于更复杂的查询,激活“大脑”模式,该模式利用额外的计算能力进行更深入的推理。据 xAI 称,这些模型对于解决数学、科学和编程问题特别有效。

该模型击败了 OpenAI o3 mini (high)、DeepSeek-R1 和 Google Gemini 2 Flash Thinking 模型。不过,一些业内人士认为,这并不是什么突破。

HubSpot 创始人兼首席技术官 Dharmesh Shah指出,它更像是 DeepSeek,但计算能力更强。他表示,他期待着试用该 API,该 API 将在接下来的几周内推出。

与此同时,前 OpenAI 研究员、Eureka Labs 创始人 Andrej Karpathy 曾提前接触过 Grok 3,他对其进行了测试并分享了自己的见解。据他介绍,该模型的功能与 OpenAI 最强大的模型(o1-pro,每月 200 美元)的先进水平相当,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

他进一步补充说,考虑到该团队大约一年前才从零开始,这是一个相当不可思议的壮举。“达到最先进水平的时间表是前所未有的,”Karpathy 在X 上的 一篇文章中说道。

咨询公司 Semianalysis报告称,DeepSeek 可以使用大约 50,000 个 NVIDIA GPU,包括 10,000 个 H800 GPU、10,000 个 H100 GPU 和大量 H20 GPU。如果 DeepSeek 可以扩展到 200,000 个 GPU,那么看看它们能取得什么成就将会很有趣。

能获得这样的成绩,Elon Musk打造的200K GPU超算集群功不可没。

Grok 成功背后的真相

xAI 增加了计算能力,以提高 Grok 3 的性能。该模型分两个阶段开发:最初在 100,000 个 GPU 上进行了 122 天的同步训练,随后在 92 天内扩展到 200,000 个 GPU。

xAI 联合创始人 Igor Babuschkin 表示:“我们花了 122 天的时间才让第一批 100K GPU 投入运行,这是一项艰巨的任务。我们认为这是同类中最大的全连接 H100 集群。但我们并没有止步于此。我们决定将集群规模增加一倍,达到200K 。”

Colossus 与其他超级计算机的不同之处不仅在于其底层计算能力,还在于其量身定制的人工智能基础设施。

从一开始,xAI 就在田纳西州孟菲斯市一家改建的伊莱克斯工厂内建立了自己的数据中心,绰号为“Colossus”。该团队利用临时发电机、Tesla MegaPacks 来缓冲电涌,以及为 100,000 到 200,000 个 GPU 设计的新型液冷装置,迅速增加了电力容量。在此过程中,他们遇到了频繁的调试需求,例如 BIOS 固件不匹配、电缆问题以及宇宙射线偶尔导致的晶体管翻转,但他们还是以创纪录的速度将设施投入使用。

该系统旨在满足人工智能训练的特殊需求——处理大量数据并运行必须并行化的高度先进的算法。

据广泛报道,戴尔科技和超微都与 xAI 合作打造了这台超级计算机。

Nvidia 的 H100 和 H200 GPU 的组合将使 Colossus 在速度和效率方面具有明显优势。这些 GPU 还具有专用的张量核心,有助于加速深度学习算法。

此外,这些 GPU 的内存带宽足够强大,可以有效处理训练最新 AI 模型所需的大数据集。

Colossus 的主要组成部分是 Supermicro 4U 通用 GPU 液冷系统。

每台4U服务器配备八块NVIDIA H100 Tensor Core GPU,为AI训练任务提供强大的算力。

服务器被组织到机架中,每个机架包含八台 4U 服务器,每个机架总共有 64 个 GPU。

每个 4U 服务器之间都有一个用于液体冷却的歧管,占用 1U 的机架空间,每个机架的底座包含一个 4U CDU 泵送系统,提供冗余冷却和管理单元。

这些服务器使用 NVIDIA 的 Spectrum-X 以太网网络平台进行互连,实现了 AI 训练所必需的高带宽、低延迟通信。

每台服务器都配备了多个 400GbE 连接,运行在 800 GBE 电缆上,而不是Nvidia 也支持的用于大规模部署的Infiniband 选项。

在当前架构中,集群中的每个 GPU 都配备一个专用的 400 GB 网络接口卡,另外还有一个专用于服务器的 400 GBE NIC,每个服务器的潜在总带宽为 3.6 TB。

每个阵列有 512 个 GPU(8 个机架,每个机架 64 个 GPU),总共有近 200 个阵列。

10 月份,NVIDIA 负责人黄仁勋宣布,最初的 100,000 个 GPU 超级计算机仅用 19 天就搭建完成,而他所说的普通数据中心的正常建设过程则需要四年时间。

Colossus 还采用了所谓的“尖端冷却系统”,确保 GPU 以最稳定、最佳的温度运行,以实现稳定性和性能。

这尤其重要,因为如此大量的快速 GPU 会产生大量热量。

对于这种类型的机架密度,最佳冷却是绝对关键的,并且使 Blackwell 服务器基础设施因过热而导致的潜在延迟变得更容易理解。

由于像 Colossus 这样的客户正等待着立即大量推出下一代设计,因此冷却系统必须从一开始就正常工作。

正如之前报道的那样,许多供应商正在与 Nvidia 合作,专门为 Nvidia GPU 服务器开发冷却系统。

过去几年,创建最有效的人工智能系统的竞争愈演愈烈,谷歌、微软和 OpenAI 大力投资超级计算机和人工智能研究。

通过对 Colossus 的投资,xAI 具有潜在的竞争优势,使其能够快速训练其 AI 模型,并可能比竞争对手更快地取得突破。

大规模模型训练不仅可以缩短构建新 AI 技术所需的时间,还可以帮助 xAI 深入研究由于计算限制而无法实现的全新 AI 研究领域。

通过筹集资金来扩大 Colossus 的规模,xAI 为未来做好了准备。新增的 100,000 个 GPU 将使系统的物理容量几乎翻倍,这将使 xAI 能够应对更大的挑战。

与此同时,Nvidia 声称 GB200 GPU 的性能比现有的 H100 部件更高,这不仅仅意味着性能在数学上有所提升。这可能会对 AI 社区产生深远影响,xAI 的发展为重新定义 AI 技术的应用提供了机会。

Colossus 并非一帆风顺的项目。冷却和为 200,000 个 GPU 供电的成本非常高,尤其是在可持续性成为首要关注点的时代。

此外,马斯克还表示,他预计 Colossus 扩张所需的资金将依赖于主权财富基金,尤其是来自中东的基金。

该计划受到了一些方面的批评,有人认为,外国拥有新的人工智能技术可能会产生地缘政治影响,特别是如果它在研究角色之外被用于实际用途的话。

计划扩展到 100 万个 GPU

据The Information报道,马斯克计划建立一个新的数据中心,以进一步提升 xAI 的 GPU 集群。据彭博社报道,马斯克与戴尔科技达成的一项交易价值可能超过 50 亿美元,将提供包含 Nvidia Blackwell GB200 GPU 的 AI 优化服务器。预计今年交付,以 xAI 的孟菲斯超级计算机项目为基础,该项目已经采用了戴尔和超微服务器的组合。

在同一讨论中,马斯克透露,xAI 的下一个数据中心的耗电量预计将增加大约五倍,从 0.25 千兆瓦增加到约 1.2 千兆瓦。该计划包括未来的 Nvidia Blackwell GB200(或可能是 GB300)GPU,表明 xAI 打算继续将其大规模计算基础设施扩展到目前的规模之外。

埃隆·马斯克也不满足于仅有 200,000 个 GPU,他还计划扩展其 位于田纳西州孟菲斯的Colossus 超级计算机,有朝一日能够容纳至少 100 万个 GPU。

这一消息是在大孟菲斯商会主办的午餐会上宣布的,该商会协助建设了 xAI 设施。

“该公司正在为孟菲斯成为全球人工智能中心奠定基础,”该商会表示。“扩建工程已在进行中,将至少包含一百万个图形处理单元 (GPU),这是该地区历史上最大的资本投资。”

商会没有提供时间表,但 xAI 可能会从 Nvidia 购买 GPU,后者今年夏天已经为 Colossus 的第一阶段提供了100,000 块 H100 卡。通常,公司需要数年时间才能建造一台超级计算机,但马斯克的团队在大约四个月内就将 GPU 组装成一台可运行的超级计算机。

该公司已将Colossus扩展到 20 万块 Nvidia H100 和 H200 GPU,目标是到明年夏天达到 30 万块 GPU。这一声明凸显了马斯克为创建尖端 AI 程序以击败包括 OpenAI 在内的竞争对手所付出的努力。

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4040期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5.98万起!这台B级纯电家轿,真把价格打下来了

5.98万起!这台B级纯电家轿,真把价格打下来了

波帆说车
2026-05-23 14:23:24
“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

妍妍教育日记
2026-04-15 09:30:09
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
警告:直肠癌发出的第一个信号,一般在肛门上,很多人都没当回事

警告:直肠癌发出的第一个信号,一般在肛门上,很多人都没当回事

荆医生科普
2026-05-29 20:10:08
沙特博主:克洛普已同意执教吉达联合,计划今年10月正式到队

沙特博主:克洛普已同意执教吉达联合,计划今年10月正式到队

懂球帝
2026-05-29 10:33:41
成都这一夜,阿娇“水桶腰、大象腿”是对畸形审美的反击

成都这一夜,阿娇“水桶腰、大象腿”是对畸形审美的反击

健身迷
2026-05-07 12:11:32
4:1!中国女排赢球,首发阵容出炉,龚翔宇换主攻,李晨萱未上场

4:1!中国女排赢球,首发阵容出炉,龚翔宇换主攻,李晨萱未上场

跑者排球视角
2026-05-29 21:47:13
“你的号我就是要毁”,游戏里损失“一个亿”,现实中能获赔吗?

“你的号我就是要毁”,游戏里损失“一个亿”,现实中能获赔吗?

新京报
2026-05-29 08:15:18
发现一个无奈的现象:城市八九十岁老人活着,基本是在“养”保姆

发现一个无奈的现象:城市八九十岁老人活着,基本是在“养”保姆

千秋历史
2026-05-26 19:19:28
北航的杨昀教授,这回怕是真的搬起石头砸了自己的脚

北航的杨昀教授,这回怕是真的搬起石头砸了自己的脚

趣笔谈
2026-05-27 10:41:04
女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

捣蛋窝
2026-05-21 06:40:07
一个家庭,若不想子女沦为底层人,就需要父母有以下两种远见

一个家庭,若不想子女沦为底层人,就需要父母有以下两种远见

心理观察局
2026-05-20 06:58:06
订单排到2027年!有色金属涨价潮下,上游资源矿企成最大赢家

订单排到2027年!有色金属涨价潮下,上游资源矿企成最大赢家

每日经济新闻
2026-05-29 17:32:06
东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

背包旅行
2026-05-11 14:51:09
小麦“割四赔五”续:博主直播翻车,事情传到外网,牵连整个襄阳

小麦“割四赔五”续:博主直播翻车,事情传到外网,牵连整个襄阳

小鋭有话说
2026-05-27 14:17:45
超级工程,我国一旦全面完成,中国军队将处于世界顶峰

超级工程,我国一旦全面完成,中国军队将处于世界顶峰

共工之锚
2026-05-29 07:58:33
国运大变局:三次货币锚切换,一场残酷的财富大转移

国运大变局:三次货币锚切换,一场残酷的财富大转移

流苏晚晴
2026-05-28 18:06:01
上海别墅邻里"互撕",互相举报!相关部门已立案

上海别墅邻里"互撕",互相举报!相关部门已立案

看看新闻Knews
2026-05-29 20:54:17
逼供的专案组长落马,被他炮制的“倒贴式贪污案”要装睡到几时?

逼供的专案组长落马,被他炮制的“倒贴式贪污案”要装睡到几时?

有戏
2026-05-27 10:17:34
中国女人到底有多少看过黄片?答案可能让你大吃一惊!

中国女人到底有多少看过黄片?答案可能让你大吃一惊!

樱桃小丸子1987
2026-05-20 14:46:33
2026-05-30 04:03:00
半导体行业观察
半导体行业观察
专注观察全球半导体行业资讯
13789文章数 34941关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

游戏
教育
数码
本地
公开课

Sky&Infi领衔参赛!2026 GG全能王赛重磅开启,7月线下决战

教育要闻

吐魂了…《新闻学概论》(李良荣第8版)全书笔记+带读视频(已彻底歇菜…)

数码要闻

宏碁推多款游戏新品:两款笔记本、一款串流掌机,还有键盘、背包

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版