为AI基建缺电抓狂的硅谷巨头,开始仰望星空了。此前停留在设想阶段的“太空数据中心”概念,它们开始付诸实践。太空有近乎无限的太阳能,那里是算电协同的天堂。
本周,英伟达投资的初创公司StarCloud将其Hopper架构AI服务器送入了太空;两天后,谷歌宣布“逐日计划”(Project Suncatcher),旨在将TPU卫星送入轨道。
它们的远期目标都是GW级的太空数据中心。今年英伟达的H100先上天,搭配80GB内存,在轨跑一跑谷歌开源模型Gemma;明年就轮到Blackwell架构芯片,算力容量7kW,至2027年提升至100kW;到2030年太空算力达到40MW,未来甚至扩展至5GW。谷歌的原型卫星将于2027年发射,首批两颗,每颗卫星四个TPU,最终建成GW级的卫星星座。
在硅谷,有类似想法的不仅仅只是英伟达与谷歌。几年前,微软就曾酝酿与SpaceX合作Azure Space项目。去年底,OpenAI在圣诞直播中还调侃着如何设计太空数据中心。今年年中,谷歌前CEO埃里克·施密特收购了航天初创公司Relativity Space,太空数据中心构想浮出水面。此外,初创企业Axiom Space和Lonestar也跃跃欲试。
最不可忽视的大玩家,无疑是贝索斯和马斯克二人。他们各自掌控着庞大的商业帝国,同时拥有发射能力与算力供需,最近频频发声。
作为云计算巨头亚马逊的创始人,以及商业航天企业蓝色起源(Blue Origin)的掌门人,上个月,贝索斯预测未来10到20年内,太空中的GW级数据中心将成为现实。而马斯克的SpaceX几乎垄断了全球的发射市场,旗下Starlink项目本身就需要大量算力支持,更别说他还在积极布局xAI等人工智能企业。他一直把卡尔达肖夫文明等级挂在嘴边,最近提出了五年内建成100GW规模太空算力的可能性。
把数据中心送入轨道的好处很多,现在硅谷巨头提的最多的两个,就是它足够靠近发电侧,也足够靠近数据侧。
几乎每一次工业革命都伴随着能源革命。人们已经开始在地表将阳光转化为电力,但是,让AI数据中心在太空中直接、彻底地利用来自太阳的能量,才是最极致的能源体系的重构。在太空建设光伏电站,。谷歌论文《迈向未来基于太空的高度可扩展人工智能基础设施系统设计》称,虽然公司长期致力于推进新型能源的开发,但为AI提供电力的最佳方式,很可能是更直接地利用这一巨大的能量来源,也就是太阳能。
以往,人们对太空光伏电站的设想,是把光伏电站送上太空,再把电力无线输往地球;对数据中心低碳化的设想,则是尽可能采用来自光伏电站等的绿色电力。现在,谷歌与Starcloud选择直接把两个环节集成到一起,从一开始就在太空设计“算电协同”的数据中心。
Starcloud的白皮书《为何要在太空训练人工智能》,开篇历数太空发电的好处:电池板始终垂直于太阳光线,而地表不同地区光照资源禀赋不同;可以7X24小时发电,这也是目前地表数据中心利用绿电最大的痛点之一;还能省下储能成本;没有大气阻挡,峰值发电量也比地面高出约40%。把这些好处加起来,一算,相同规模的太空电站产生的电力,将是地面的5倍多。
![]()
AI越靠近数据,越能兑现商业价值。太空已经是数据采集与传输的关键节点,越来越需要在数据侧完成计算。太空发射推动了卫星服务的演化,捕捉各类模态数据的卫星越来越多,需要下行至地表数据中心处理的数据规模也越来越大;但是,近地轨道卫星高速掠过,数据下行窗口往往以分钟计,下行带宽无法实时回传完整数据。这本质上是"算力等待带宽"的经典矛盾在太空的极致体现。以合成孔径雷达(SAR)为例,原始数据可能高达数百GB,但在轨处理后,只需下传一个1KB的关键信息包。
在谷歌看来,基于太空的“算电协同”的AI基础设施,不存在不可逾越的物理或经济障碍。谷歌的TPU v6e承受住了太空辐射的测试,即使要让最敏感的HBM组件出现问题,累积辐射剂量也需要达到常规折旧期限(5年)的三倍。它们会被部署于“晨昏同步近地轨道”,全天接受光照。
为实现卫星间超高速、低延迟的数据传输,卫星将紧密编队飞行,并通过自由空间光学星间链路(FSO ISL)通信,双向1.6Tbps;AI驱动的控制模型能使卫星编队保持紧密的飞行间距,同时避免碰撞;最终,通过无线电或光链路与地面高速通信。
基于历史数据趋势,谷歌预测,到2035年,近地轨道(LEO)发射成本可能会低至200美元/kg(当前约为3600美元/kg),届时地面数据中心的能源支出与在轨系统的年化成本将处于同一数量级(地面570–3000 美元/kW/年,太空810–7500美元/kW/年)。StarCloud的评估更为乐观,发射成本在500美元/kg即可达到盈亏平衡点。
谷歌承认,即使如此,热管理仍是重大的工程挑战之一。它限制了发电与计算的上限。在地表的数据中心,散热已是棘手难题;而在零下270摄氏度的太空,因真空杜绝了对流与传导,散热反而更加艰困,热量只能以辐射形式散逸,效率受制于散热表面积。
StarCloud的热管理系统采用多重方案集成。计算模块的热负荷,通过直接芯片液冷或两相浸没式冷却捕获,再经多级回路输送至散热器。散热器则为巨型轻质可展开结构,面积以平方公里计。
OpenAI曾在去年底用o1计算过,算力规模1GW的太空数据中心,需要配置240万平方米的散热器,相当于边长为1550米的正方形,远超国际空间站主太阳能阵列100米的跨度。当时负责监督o1演示这一计算过程的是Hyung Won Chung,他拥有MIT热力学博士学位,认可了这一结果。
这意味着额外的发射成本。更关键的是,要将如此巨大的结构折叠入箭体、再于太空中无损展开,涉及到极低容错率的工程挑战。为此,Starcloud正携手Rendezvous Robotics探索模块化自主在轨装配技术。
AI越来越热,散热早已不再是简单的核心IT设备的外围“挂件”。它正从设计的初始环节,就嵌入到芯片内部与系统控制层面,从材料、封装到软硬件协同,以减少热量产生,或加快热量释放。初创企业Maxwell Lab甚至还提议规模化自己的光子冷却技术,把薄膜材料(通常掺杂重稀土离子)的热能(晶格振动)转化成高能光子发射出去,实现热量的转移,理论上完全适用于太空环境。
在AI泡沫争议四起之时,硅谷巨头大放卫星的计划,并非没有招致质疑。但泡沫的破灭,亦可沉淀技术遗产。谷歌就预判,对GW级太空数据中心的追逐,也将AI基础设施带往一个紧密集成了计算、散热和电源的全新架构设计。
参考:
https://lumenorbit.github.io/wp.pdf
https://goo.gle/project-suncatcher-paper
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.