![]()
大厂DCN网络的前世
大厂DCN以庞大且常年稳定持续的需求量,理所当然作为设备厂商当今的头牌金主甲方。
前世还应该去上一任甲方班主金融行业里找找,比如ServerFarm服务器“鸡场”,画面感扑面而来,相比之下,DCN这名字显得太抽像了。
从比例上来说,DCN的部署密度至少是金融行业ServerFarm的20倍以上。
ServerFarm是散养鸡场,DCN则是顶级养殖企业那种格子化密集鸡场,尽显工业化的魅力。
![]()
大厂DCN网络的今生
各个大厂DCN目标以最小公倍数的方式归纳:容纳高密度的服务器、要求满足业务随意部署、单点故障止损要快、TCO成本要低、不能让交付效率成为日活月活爆发的障碍。
在这些约束条件的作用下,DCN都会长成这个样子↓
一、接入交换机
通常会按在线和离线业务区分DC园区,通常经济发达圈区都是离最终用户时延小的在线DC,电和地都便宜的偏远地区主要放离线。
▌在线业务
在线业务金贵,那就得2台接入作为一组,与服务器组成bond提供高可用,这可能是和ServerFarm最大的共识了。
但依然有区别,大厂要求交换机上每一Mbps带宽都应用于服务器与服务器通信,所以大厂会采用一种叫ARP/ND在bond成员端口双发的服务器OS内核补丁。
交换机接收到ARP/ND后都要转换成/32或/128的主机路由通过BGP发给邻居以实现下联接口断开后的网络收敛,这样成对的交换机可以不用横穿互联也能组VRRP和LACP。
交换机所有端口不是上连就是下连,带宽没有丝毫浪费。
现在的交换机表项规格都经得起这么用。
▌离线业务
业务集群级耐造,服务器挂了也能靠业务收敛,那就没必要bond了,单上行打造极致的Capex成本。
由于2种模式会造成运维差异,也有大厂通过虚拟化之类的统一成bond这种模式了。
二、全盒式CLOS组网
拓扑长得就像Facebook(Meta)之前发布的F16,接入层往上,可以分别叫模块核心、集群核心、园区核心,基本上都是相同型号的单芯片盒式交换机。
![]()
Meta发布于2019年的F16
园区核心很好理解,一个DC园区共用这一层,数量可能很多,比如128或者256,被划分成8或者16个平面。
集群核心比较理想的情况是一栋楼共用,数量也不少,比如64,也被划分成8或者16个平面。
模块核心那就是一个包间共用,这一层有8或者16或者32台。
数量的多少来自于对建设规模的把握,与数据中心园区规模、楼栋规模、包间规模的对齐,也需要与需求节奏匹配上。
大家可能会觉得这是拍脑袋决策,这就像是多缸发动机一样,每个缸的活塞都连接在曲轴上协同做功。
每个部门就是一个活塞,只要目标一致,自己部门的数据准确输入,协同对齐机制会让网络部门得出一个最佳规模,而且这个最佳规模一定是会超过实际需求的,以容纳各种突发的扩容。
另外分层设计的好处,就是可以满足不同颗粒度的快速交付,园区开局一栋楼若干包间,再起包间就建模块,再起楼就建集群。
这种标准化思路非常有利于自动化,不同层级可以设置预设档位的收敛比满足不同业务的性能口味。
三、哪些网络协议更流行
这么庞大的网络互联只能用三层路由互联且采用计算路由开销最小的EBGP。
同时BGP丰富的路由属性非常有利于扩展出奇葩需求,比如ARP/ND表项转成主机路由,比如给路由采上各种团体字用来区分起源和用途。
另外,在CLOS组网中,设备A上行带宽减少了1/4,同级设备上行带宽没有减少,对于下一级设备来说上一级设备就存在ECMP的木板效应,经过设备A的流量可能会丢包。
这个时候就要把短板A隔离,有了BGP,可以用UCMP实现不同负载的ECMP效果。
BGP可以说是目前最为活跃的路由协议,这些扩展都可以有RFC支持,至于OSPF,已经在大厂中绝迹了。
同样绝迹的还有各种STP,但ISIS还是比OSPF有看点的,在DCI里经常可以看见ISIS的身影,就像3大运营商的骨干也是用ISIS一样。
四、园区网受追捧、大厂网络遭冷遇的大箱子们
曾经设备界的皇冠——机框式交换机,在大厂中逐渐走下神坛。
![]()
主要原因是端口密度高爆炸半径大、实现黑盒不利于排障、机框内部也是两级芯片互联转发3跳并没有比盒式少、供应商少容易被成本和交期拿捏。
所以在大厂中,普遍的思路就是用简单的工业品代替精细的艺术品。
五、不能忽视的光模块们
得益于AI驱动互联速率越来越高,负责高速信号传递的连接器件是数字通信和模拟通信的缝合体。
高速信号速率、传输距离、功耗限制、耐造程度这些约束汇聚在一起,使这个行业近年来一直游走在理论与材料学的边界。
产能小单价高,让连接器件变成比网络芯片还要热门的领域,获得充足的供应配额和降低成本变成这个行当的看家手艺,各个大厂都会从器件BOM组合的方式去定义自己理想的模块或者线缆。
光进铜退还是铜进光退在这些都是一时的现象,客观的约束条件会自然地要求该光的时候就光、可铜的时候就铜。
如果拆开讲,光就有SR、DR、FR、LR、ZR这些不同传输距离的模块,每种模块以对应着不同的光纤类型,就需要决策什么场景用什么模块或者几种组合模块以满足稳定性、成本和交付的条件。
这个领域的网工显然不是研究路由协议出身,而是信号学领域的高足,也丰富了协议工曾经枯燥的世界。

六、大厂DCN网络最怕什么?
庞大的网络端到端路径一定是非常多的,丢包时能不能快速定位到是哪台设备哪个端口对于快速止损尤为重要。
所以需要部署网络探针探测每一条转发路径。
此外,业务层改包问题也一度让网工头疼,曾经有某知名厂商对改包给出了宇宙射线和太阳耀斑爆发导致存储器产生Parity Error的根因解释。
在大厂里,不会追究这种无法确认的天文现象,而是把这种异常当成一种概率事件。
既然发生了,就尽快定位改包的设备,隔离它,再替换它。
手速越来越快之后,这些检测、诊断、隔离就可以变成自动化的操作了。
大厂对待网络就是一个无情的流水线,快速定位、隔离、替换……
至于设备、连接器异常的根因在不影响业务的情况下可以按部就班地去调查。
当然这些异常都会统计在故障率里,故障率高的供应商自然也是不可能得到奖赏的,冷冰冰的数据就是大厂的最强话术。
![]()
好了,这就是大厂DCN网络的一些皮毛,下一篇我们再把当下比较火的HPN拎出来说说。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.