AI数据中心圈最近炸了!CPO被吹成解决带宽、延迟、功耗的神药,但你知道吗?除了少数大厂,90%的数据中心都不敢碰它!到底是技术不成熟,还是背后藏着运维的大坑?今天就来扒一扒CPO的真相。
CPO其实早有历史,IBM早年就在超级计算机互连里研究过类似概念。但之前它像个“万金油”,被吹能用于传感器、电信、高性能计算等各种领域,结果需求分散,没火起来。
![]()
直到AI爆发,情况变了,现在AI成了数据中心的核心负载,随着交换机ASIC往51.2T甚至更高阶走,电气互连的损耗和功耗越来越大,CPO的价值终于凸显。
把光接口靠近芯片,缩短电气路径,能提升能效和带宽密度,为未来超高基数交换机铺路。听起来完美?但问题来了。
你去OFC、GTC这些展会看,CPO的演示都很炫,但除了微软、Meta、谷歌、亚马逊这些超大规模玩家在内部试验,大多数数据中心连碰都不敢碰。
为啥?大厂把CPO当下一代AI基础设施的关键,他们有定制能力,不怕供应商锁定,只要性能够好,就算只能从一家买也愿意。
但小企业不一样:他们没有专门的工程团队维护光集成项目,更看重互操作性和现场可维护性。对他们来说,CPO是“下一个十年的技术”,得等大厂试完水,标准化和生态成熟了才敢用。
谨慎的用户不会直接从可插拔跳到CPO,而是选LPO和NPO这些中间方案。LPO把DSP去掉,能降功耗和延迟,但传输距离短、主机要求严;NPO不用完全共封装,就能享受近距离传输的好处,降低散热和制造风险。
为啥选它们?因为大家不信任早期CPO的生产良率、散热性能,更怕维修时要换整个线路卡甚至交换机,这可是运维团队的噩梦!过渡方案能让他们试水,又不用重写操作手册。
CPO最大的技术障碍就是热管理:光器件(尤其是激光器)对温度敏感,靠近芯片容易导致波长漂移、老化。有趣的是,为了解决这个问题,可插拔居然又回来了。
比如ELSFP(外部激光器可插拔器件),把激光器放在温度低的区域,坏了能换,不用动交换机ASIC。
这解决了用户的“维修焦虑”,但也带来新问题:插入损耗增加,一个激光器坏了可能影响多个通道。不过,这种折中方案确实让CPO看起来没那么脆弱了。
博通和英伟达是CPO的主要推动者:博通用Bailly平台树立了标杆,英伟达把CPO集成到Spectrum-X和Quantum-X里,让它成了AI圈的热门话题。
但用户心里打鼓:以前光模块是可互换的商品,能从多家买;CPO把光模块集成到交换机里,就只能依赖交换机供应商,万一被锁死怎么办?
![]()
数据中心经理最不想听到的就是“光模块坏了要换整个线路卡”。这违背了他们几十年的运维直觉,甚至有人觉得CPO是“伪装成创新的厂商锁定”。所以OIF这些组织的互操作性工作才这么重要。
CPO的增长会是非线性的,分三个阶段:2026-2028年,它会成为超大规模AI集群的辅助工具,但不是主流;2029-2032年,AI集群扩展到100T级,CPO会变成必需品;2032-2035年,它会成为主流,非超大规模玩家也开始大规模采用。
不过也有不确定性:如果AI小模型流行,对带宽需求降低,CPO可能变成小众技术;还有铜缆,英伟达在NVLink里还在用铜缆,光纤取代铜缆的速度谁也说不准。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.