2026 Open AI Infra Summit 上,
Open AI Infra 社区技术指导委员会委员
字节跳动数据中心研发和设计管理负责人井汤博
发表《吉瓦级数据中心的技术趋势、挑战》主题演讲
如下内容根据演讲整理而成,略有删减。
![]()
当前,算力需求已进入爆发临界点。从ChatGPT到OpenClaw,AI大模型迭代速度持续加快,其背后是对算力的海量需求。在此背景下,吉瓦级数据中心已从概念走向现实。
点击查看完整演讲视频▼
GW-AIDC 驱动力与行业动态
结合近一年多的行业发展,井汤博认为,GW级数据中心的核心驱动力可归纳为三个方面:AI大模型爆发、产业数字化转型及绿色低碳环保要求。
其一,AI大模型的爆发式发展,推动GB200、GB300等先进AI模型的训练与部署提速,算力需求呈现指数级增长态势。
其二,各行业数字化转型持续深化,深度上云、AI Agent、OpenClaw等应用实现规模化部署,催生海量Token需求,进一步拉动算力消耗。
其三,高算力负荷下,行业对数据中心的能效、水电气土地资源利用(PUE/WUE/容积率)、碳排放、污染及噪声控制提出更严格要求。实践中,芯片与模型已不再是核心制约因素,地方政策、环保标准、土地及电力资源反而成为关键瓶颈,直接影响数据中心建设进度与业务部署推进,其中既涉及水电气资源保障,也包括大规模用电带来的污染、噪声管控及居民诉求应对等相关问题。
从行业发展层面,多家企业已在全球范围内布局吉瓦级数据中心:比如OpenAI与软银联合投资SB Energy的德州Milam园区,微软“星门”计划新增威斯康星站(1GW)等5个站点,Meta亦签署20年核电协议(6.6GW),为AI集群长期能源供给提供保障。
GW-AIDC 核心技术趋势
今年3月,在随同行前往美国GTC26现场参会之后,结合现场见闻,井汤博认为行业呈现以下三大发展趋势:
第一,先进硬件与AI算力平台迭代升级,推动基础设施侧业态革新。现场展示中,语言处理单元(LPU)的出现的同时,英伟达推出MGX模块化GPU整体解决方案,二者共同重塑算力供给形态。其中,LPU开辟了传统训练GPU之外的新型算力路径,MGX方案则构建了以芯片为核心、整合全生态链的全新业态模式,这也促使行业深入思考,未来如何适配新场景、应对新业务范式的挑战。
第二,液冷技术加速走向主流化、多样化,成为高算力场景核心支撑。字节跳动在液冷领域布局较早,2021年启动相关技术研究,2022年实现大规模落地,初期部署以提升资源利用率、实现特定场景下TCO最优为核心目标,彼时液冷尚未成为刚需。
而当前,无论是英伟达、英特尔、AMD等主流厂商的布局,还是行业共识,均明确液冷已成为高算力场景的必选项,其应用比例正从50%逐步提升至60%、70%、80%,部分场景甚至接近100%。从GTC26现场展示的GPU内部设计及外部管路细节来看,液冷已从单一技术升级为系统化解决方案,除传统液冷部署方式外,负压液冷、相变液冷等新型方案也在现场逐步成为可选路径。
值得关注的是,液冷部署范围已从服务器延伸至交换机领域——过往行业聚焦服务器液冷,随着交换机带宽需求提升及就近部署要求强化,交换机及其内部芯片的液冷需求日益凸显,核心交换机液冷化已成为行业悄然兴起的发展趋势。
第三,电气架构持续演进,适配高算力场景供电需求。目前,800V架构已获得行业广泛认可,成为未来高算力场景供电技术的主流方向。该架构可在降低线路损耗、减少铜材用量的基础上,实现MW级供电能力,能够精准匹配兆瓦级或400KW以上高密度算力集群的供电需求。同时,电气架构核心组件呈现融合创新态势,液冷化电气架构成为不可忽视的发展方向,未来液冷PSU、液冷Busbar、液冷Power Shelf等相关产品将逐步落地,为高算力机柜规模化部署提供坚实支撑。
GW-AIDC 规模化建设中的挑战与应对
从kW级到GW级,算力基础设施的建设绝非简单的数量级提升,更催生了一系列全新的行业挑战。字节跳动作为行业积极探索者,在应对这些挑战的过程中,积累了兼具实用性与可复制性的实践经验,具体如下:
挑战一,高密和超大规模部署带来的可靠性风险加剧。GW级数据中心部署速度快、设备密度高、系统耦合度强,潜在的可靠性和可用性降低的风险随之而来,任一环节出现故障都可能引发连锁反应。
针对这一挑战,实践应对路径主要包括四点:一是在前期架构设计阶段,从供配电到冷却技术,尽量采用相对分布式架构,最大限度缩小故障影响半径,避免单点故障扩散;二是收敛技术方案,推行标准化部署,降低运维复杂度,提升运维效率与精准度;三是采用半预制或半集成模式,实现安装与调试环节的可控可追溯,减少现场施工误差;四是运用AI技术反哺运维,通过预测性维护提前排查潜在故障,借助智能化调度优化系统运行状态。
综上所述,唯有通过设计、建设、测试、运营全生命周期的端到端多链路管控,才能保障吉瓦级机房的稳定可靠运行。
挑战二,资源利用率不足与碳排放和社会责任压力陡增。
相较于早期单机房十几兆瓦、单园区几十兆瓦(100兆瓦已属高位)的规模,当前GW级数据中心单栋楼宇可达百兆瓦级、园区规模突破吉瓦级,这对当地电网建设、水资源、土地资源造成巨大压力,同时也对周边环境及居民生活产生不可忽视的影响,碳排放与社会责任相关要求日益严苛。
应对举措主要聚焦两大维度:一方面,强化技术创新,采用高效设备、先进制冷技术及高密度解决方案,如兆瓦级高密机柜、SST高效供配电系统等,最大限度提升资源利用效率;另一方面,践行绿色发展理念,推广清洁燃料与新能源应用,配套建设水资源回收、噪声治理等环保设施。
值得注意的是,这些举措已从过去的“加分项”转变为当前GW级数据中心建设的“必选项”,兼顾技术可行性与社会责任已成为行业共识。
挑战三,AIDC 的衡量指标与业务产出算力/Tokens 需求错位。
衡量指标错位是当前AIDC发展过程中的核心痛点。传统场景下,机房与服务器相互独立,衡量标准相对单一;而进入AIDC时代,机房与服务器的耦合度持续提升,任一环节的调整都可能影响上层业务,例如过度追求PUE优化,可能导致服务器支撑能力不足、综合成本上升。此外,为适配高性能服务器、加快数据中心交付所付出的努力,其业务价值往往难以量化,进一步加剧了指标错位问题。
对此,井汤博倡议行业与企业内部协同发力,逐步打通能源、数据中心、硬件、平台到模型、应用的全链路壁垒。这一过程虽存在难度,但既需要企业内部建立横向拉通机制,打破部门壁垒,也需要行业共同搭建一套客观、可量化的评估基准(Benchmark),实现衡量指标与业务需求的精准匹配。
挑战四,硬件供应链不确定性带来的兼容性需求和交付周期压力极大。
当前,GW级数据中心交付面临的核心挑战之一,源于硬件供应链的不确定性,导致兼容性适配难度加大、交付周期难以把控,且难以提前做好应对准备。这种不确定性的核心成因,在于上下游体系未能有效打通——数据中心设计遵循专属标准,而供应链则有自身独立的采购与规划体系,二者脱节导致适配成本增加、交付效率下降。
为了解决这一挑战,建议行业各方积极加入Open AI Infra社区等具有行业影响力的组织,携手推动硬件供应链的标准化、规范化建设,促进产业落地与标准化机制的形成,通过行业协同缓解兼容性适配压力、缩短交付周期,为GW-AIDC规模化建设提供保障。
GW-DC 未来展望与战略思考
结合行业发展趋势与实践探索,关于GW-DC的未来发展,井汤博简要分享三点展望:
首先,构建AI驱动的自动化运维体系。随着“Agent as a Service”等理念的落地深化,不仅将其作为业务产出,更将其作为核心输入,赋予IDC自主管理、自我优化的核心能力,推动数据中心从传统成本中心向价值创造型利润中心转型,实现运维效率与业务价值的双重提升。
其次,探索液冷、制冷与供配电的深度融合。随着液冷Busbar等相关技术的日趋成熟,供电系统与制冷系统的边界将进一步模糊,二者的协同融合将成为提升GW-DC能效、优化空间利用的关键方向,为高算力场景提供更集成、更高效的解决方案。
最后,关注“星辰与大海”,布局极端环境计算的探索与实践。正如NV Space-1所展现的,太空、海底等极端环境的计算应用已不再是遥远设想。国内也已开展利用湖水、海底进行冷却的相关探索,这些场景在能源供给、数据保密等需求的驱动下,已在特定领域逐步落地,值得行业持续关注与积极探索。
针对上述展望,结合实践经验提出三点战略应对之策:
第一,积极拥抱开放生态,主动参与Open AI Infra社区、OCP、MGX等开放标准的建设,主动贡献技术经验与实践成果,携手行业伙伴构建协同创新、共生共赢的产业生态。在字节跳动的团队中,大家正积极参与多个行业组织,包括Open AI Infra社区的制冷和供配电架构等项目群组,助力行业标准的完善与落地。
第二,强化前沿技术预研与储备,提前布局负压液冷、相变液冷、超高压直流等前沿技术,开展系统性的技术验证与测试工作,积累技术经验、突破技术瓶颈,为GW-DC未来发展储备核心技术能力。
第三,推动能源战略升级,重构数据中心能源规划逻辑,将传统单一的“能源消耗”模式,升级为“生产-消纳-交易”一体化的综合能源生态,实现能源的高效利用、循环利用,为GW-DC规模化、绿色化发展提供坚实支撑。
拥抱开放生态 推动产业健康发展
作为社区技术指导委员委员,井汤博也介绍了社区机房基础设施群的工作进展,目前已完成相关准备,包括基础设施的参考设计、技术规范,未来还将进行版本迭代,制冷散热、供配电、智能运维等项目群将陆续开展 8 个子项目。此外,兆瓦级算力系统和吉瓦级数据中心的技术探索,将从 800V 供配电架构开始,推进 AIDC 样板点建设。
从行业趋势洞察到建设挑战破解,再到未来方向展望与战略布局,每一步探索都离不开技术创新、生态协同与责任担当,唯有行业各方携手并肩,拥抱开放生态社区、强化技术储备、升级能源战略,才能破解发展瓶颈,推动GW-AIDC产业持续健康发展,为数字经济高质量发展注入源源不断的算力动能,助力算力基础设施实现从“量的积累”向“质的飞跃”的跨越。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.