AI产业抢东西的节奏,一年比一年快。
2024年全球在抢GPU,H100、A100长期缺货,有钱也不一定买得到。
2025年开始变了,轮到变压器紧张,数据中心建得太密,干式变压器交货直接拉到一年半。
到了2026年,又换了一轮——光纤开始吃紧。
G.652.D单模光纤涨了418%,G.657.A2抗弯曲光纤涨了650%,G.654.E超低损耗光纤甚至冲到240元/芯公里,交货排到2027年下半年。黄仁勋说:下一代AI基础设施,要靠大规模光互联,铜线基本到头。
![]()
在英伟达的Scale-up架构里,光模块和GPU的配比,从1:3一路拉到1:9。一个万卡集群,光纤用量直接是上万公里级别。这已经不是“缺货”,是结构变了。
光纤在扩产,但系统开始卡在“同步”这件事上
很多人看到的是光纤紧张、光模块涨价。但真正做系统的人会盯另一件事,能不能同步。
光模块做的是电信号和光信号转换,光纤负责传输距离。但整个链路要跑起来,有一个前提是——两端必须踩在同一个时间上。
一旦时钟不同步,问题不会是“变慢”,而是直接表现为丢包、误码、链路抖动。
而现在的速率已经很极端了,800G单通道已经到100Gbps以上,留给时钟的误差空间越来越小。以前是“差不多就行”,现在是“差一点都不行”。
光纤解决距离,时钟解决节奏
AI集群和传统机房不是一类东西,以前的服务器是分业务跑的,偶尔抖一下也能扛过去。
但现在的万卡集群,是几万张GPU在同一个任务里同步训练。
数据在GPU之间跑,在节点之间跑,在机柜之间跑,甚至跨楼层、跨机房跑。这时候,任何一个节点的时钟稍微漂一点,都会被整个系统放大。
光纤解决的是“数据能不能到”,时钟解决的是“什么时候到”。一个负责空间,一个负责时间。
![]()
被忽略的那一层,正在变成关键
现在光纤缺货已经是新闻了,但有一层问题还没真正被市场放大,那就是时钟系统。
不管是光模块,还是交换机,还是AI服务器,每一台设备里都有时钟源。
25MHz、50MHz做系统基准,156.25MHz做光模块参考,LVDS、LVPECL这些差分时钟跑高速链路。以前这些东西都被当成“标配”,默认存在。
但当系统规模上到万卡级别之后,它们开始变成稳定性的关键变量。因为规模越大,对“时间一致性”的要求就越苛刻。
真正开始被抢的,其实是“时间”
现在大家都在盯光纤、盯光模块、盯GPU。但如果把整个AI基础设施拆开来看,会发现一件更底层的事正在发生变化:当带宽问题慢慢被解决之后,系统开始重新面对一个问题——同步。光纤让数据跑得更远,时钟让数据跑得一致。
当算力规模从单机走向集群之后,重要的不是“跑多快”,而是——几万张GPU,能不能在同一个节拍上工作。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.