近日,埃隆·马斯克在社交媒体 X 发文表示:“不出五年,xAI 坐拥的 AI 算力将超越其余所有之总和。”
![]()
(来源:社交媒体 X)
能让马斯克放狠话的底牌是位于孟菲斯的 Colossus 超级计算集群。
2024 年, xAI 建成 Colossus 超级计算机集群,初始配备 10 万块英伟达 H100 GPU,仅用 122 天完成部署。作为对比,同等规模集群通常需要 3-4 年时间,涉及到复杂的选址、电力审批和硬件调试。
为了快速建成 Colossus 1,马斯克动用了特斯拉的工程团队,甚至采用了极度激进的手段:当孟菲斯当地电网无法及时扩容时,xAI 直接在停车场调配了 20 台巨大的移动燃气发电机。
在技术路线上,xAI 甚至押注了以太网(Spectrum-X)技术来连接这些芯片,试图证明通用标准在大规模集群下依然能跑赢专有的 InfiniBand 网络。
利用 Colossus 1,xAI 成功训练出了 Grok 2。目前,Colossus 1 已扩展到约 20 万块英伟达 GPU(包括 15 万块 H100、5 万块 H200 和 3 万块 GB200),总功率约 300MW 左右,至今仍是规模最大的完全运行的单相干集群。
Colossus 2 项目始于 2025 年 3 月,当时 xAI 在孟菲斯收购了一个 100 万平方英尺的仓库以及两块总计 100 英亩的相邻地块。截至 8 月,现场已统计到 119 台风冷冷水机组。这意味着大约 200MW 的冷却能力,足以支持约 11 万块 GB200 NVL72 芯片的运行。与传统的 H100 相比,GB200 不仅训练性能提升 4 倍,其推理性能更是提升了 30 倍。这意味着,在同样的电力消耗下,xAI 的实际算力产出将是竞争对手的数倍。
而面对孟菲斯当地对电力设施的阻力,xAI 甚至玩了一招“跨州借电”。其在邻近的密西西比州索斯海文收购了一座发电厂,并获得了当地监管机构的特批,允许在无正式许可证的情况下运行燃气涡轮机长达 12 个月。
为了实现长期规模化发展,xAI 正与能源公司 Solaris Energy Infrastructure(SEI)成立合资公司,SEI 持股 50.1%,xAI 持股 49.9%,一条连接密西西比电厂和田纳西数据中心的中压输电线路,将成为 xAI 的生命线。预计到 2027 年第二季度,Solaris 将为 xAI 提供超过 1.1GW 的全面运行涡轮机。加上其他资源,xAI 的总电力规模可能会超过 1.5GW。
![]()
图 | SEI 公司的业务增长预测图(来源:SEI)
目前,Colossus 2 项目已部分上线,计划在 2026 年全面扩展到 55 万-100 万块 GPU,总规模可能达 500MW 以上。
马斯克表示,目标是在未来五年内实现高达 5,000 万台 H100 级别的 AI 计算能力上限——200 exaFLOPs,这比目前世界上最快的超级计算机的计算能力还要强 20 倍。
此外,自 2025 年 3 月收购 X 平台后,xAI 获得了独家实时数据(数亿用户对话、情感和新闻),这在训练中形成了数据护城河。但电力依赖美国电网和临时燃气涡轮机,面临环保和供应挑战。
相比之下,OpenAI 与微软的合作更依赖云基础设施和分布式集群。斥资 5,000 亿美元打造的星际之门(Stargate)项目的首个数据中心已在德克萨斯州投入使用,新墨西哥州和俄亥俄州的数据中心也将陆续开放。累计规划容量近 7GW,预计 2025 年底前达 10GW。OpenAI 的集群规模达数百万等效芯片,但非单一连贯系统,依赖 Microsoft Azure 和 Oracle/CoreWeave 等伙伴。优势在于资金和生态,但面临高估值压力和投资回报质疑。
谷歌在自定义 TPU 上领先。2025 年推出的 TPU v7(Ironwood)支持最大 9,216 芯片 Pod,峰值性能达 9 exaFLOPS,Anthropic 等伙伴已大规模采用 TPU(Anthropic 计划用100万块TPU)。谷歌内部集群规模达数百万 TPU 等效,数据优势(YouTube/Search)无人能及,但 TPU 生态相对封闭,外部可用性有限。
![]()
(来源:谷歌)
Meta 的自建 GPU 集群达数十万块,功率数百 MW,计划进一步扩张,支持 Llama 系列开源模型。Anthropic 依赖 AWS Trainium2 和谷歌 TPU,集群规模数十万芯片,重点在安全对齐和企业应用。
纵观全局,这场算力战争已演变为两种路线的对决。根据 SemiAnalysis 的预测,虽然 OpenAI 目前仍占据算力霸主地位,但 xAI 正上演一场惊天逆转:Colossus 2 的计算能力预计将在 2025 年第三季度超越 Meta 和 Anthropic。
与巨头们依赖分布式云设施不同,xAI 在孟菲斯打造的是一个物理上彻底连通的硅基大脑。马斯克赌的是:当数十万块芯片在同一个物理空间内、通过极低延迟连接时,其训练效率将远超分布式集群。这种对“单体算力密度”的极致追求,正是 xAI 试图弯道超车的物理基础。
![]()
图 | 各大前沿 AI 实验室的 AI 训练数据中心容量对比(来源:SemiAnalysis)
要理解马斯克为何如此激进地堆砌算力,必须回溯他与 AI 的复杂渊源。xAI 的诞生,本质上是一场针对 OpenAI 的复仇,也是马斯克对自己错失 AI 早期机会的修正。
鲜为人知的是,马斯克曾是 OpenAI 的联合创始人。2015 年,为了制衡谷歌在 AI 领域的垄断,马斯克出资参与创立了 OpenAI,初衷是建立一个非营利、开源的 AI 组织。
然而,随着理念分歧:马斯克认为 OpenAI 对安全重视不足且开始走向封闭盈利,他在 2018 年退出了董事会。此后,OpenAI 在 Sam Altman 的带领下拥抱微软,并在 2022 年凭借 ChatGPT 一战封神。
ChatGPT 的成功让马斯克既焦虑又愤怒。他多次公开批评 ChatGPT 带有强烈的政治正确偏见(他称之为 “Woke Mind Virus”)。他认为,世界需要一个“最大限度求真”(Maximum Truth-Seeking)的 AI,哪怕真相可能冒犯部分人。
带着这种使命,2023 年 7 月,xAI 正式官宣成立。马斯克从 DeepMind、OpenAI、Google Research 挖来了一支全明星团队,誓言要“了解宇宙的真实本质”。
![]()
(来源:TECHZINE)
虽然 xAI 是目前 AI 赛道上最年轻的巨头,但它的成长速度完全是指数级的。短短两年多,xAI 通过多轮融资累计筹集超过 200 亿美元,估值从年初的数百亿飙升至 2000-2300 亿美元区间。
Colossus 的暴力美学,也直接转化为了 Grok 系列在推理能力上的指数级跃升。
从发布略显稚嫩的 Grok 1,到如今的 Grok 4,xAI 仅用了两年多的时间就在基准测试上追平了 GPT-4 的水平。
7 月发布的 Grok 4 在工具使用和推理上大幅提升,多代理思考使它在复杂任务中领先。与 GPT-4o 相比,Grok 4 在 2025 年已全面超越,尤其在数学、科学和代理任务上。与 GPT-5(8 月发布)相比,Grok 4 在某些前沿基准(如 HLE、ARC-AGI)领先,但 GPT-5 在通用性和多模态(如视觉)上更均衡。11 月发布的 Grok 4.1 进一步优化幻觉减少、情感智能和工具集成,在 LMSYS Text Arena 中领先 Gemini 3 Pro 和 GPT-5 系列。
Grok 5 是 xAI 的下一代旗舰模型,目前正处于训练阶段,预计于 2026 年第一季度正式发布。马斯克在多个场合表示,该模型参数规模达 6 万亿(6 trillion),采用 MoE 架构,上下文窗口预计是史上最大,支持原生多模态处理(包括实时视频理解、图像和音频),并集成实时 X 数据流和持久记忆功能,计算力远超前代。
值得注意的是,马斯克强调 Grok 5 有 10% 且持续上升的概率实现 AGI(通用人工智能),定义为“能完成人类+电脑能做的任何事,但不一定超越所有人类+电脑组合”。他视其为 AGI 竞赛的转折点,预计在推理、数学、编码和多模态任务上大幅领先,并在 AI 工程等领域超越人类专家。
回到马斯克那句五年内算力超越其余所有之总和,我们真正值得关注的并不是某一次豪言能否精确兑现,而是大模型竞争的主战场正在持续向基础设施迁移,与电力、冷却、土地、施工交付、供应链锁定、运维可靠性与合规许可等深度绑定。谁能把这些变量长期稳定地组织起来,谁就更有可能把模型迭代节奏保持在领先区间。
因此,所谓算力战争的胜负,未必由某个单一项目的规模或某个时间点的装机数字决定,而更像一场长期的综合竞赛:一边比拼扩张速度与资源整合能力,另一边比拼效率提升与投入产出比的可持续性。
未来几年,行业会给出更清晰的答案:算力是否仍是最强的杠杆,以及在算力持续堆高之后,谁能把它稳定地转化为更可靠的模型、更可负担的推理、以及更可持续的业务增长。
1.https://newsletter.semianalysis.com/p/xais-colossus-2-first-gigawatt-datacenter
2.https://www.tweaktown.com/news/106571/elon-musk-230k-ai-gpus-train-grok-at-colossus-1-550k-gb200-gb300s-2-coming-soon/index.html
3.https://www.brownstoneresearch.com/bleeding-edge/the-king-of-agi/
4.https://www.cnbc.com/2025/09/23/openai-first-data-center-in-500-billion-stargate-project-up-in-texas.html?referrer=grok.com
5.https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads?referrer=grok.com
6.https://www.aboutamazon.com/news/aws/aws-project-rainier-ai-trainium-chips-compute-cluster?referrer=grok.com
7.https://www.cnbc.com/2025/11/25/musk-xai-funding-december.html?referrer=grok.com
8.https://www.anthropic.com/news/expanding-our-use-of-google-cloud-tpus-and-services?referrer=grok.com
9.https://www.techzine.eu/news/applications/130885/musk-hopes-to-raise-20-billion-for-xai/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.