上周,阿里云对外发布了一款为新型云数据中心设计的专用处理器CIPU(Cloud infrastructure Processing Units),认为其未来将替代CPU成为云计算的管控和加速中心。在这个全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器连成一台超级计算机。
CIPU这个名字虽然陌生,但CIPU要做的事却很熟悉,这正是眼下大火的DPU(Data Processing Unit),被称为是继CPU、GPU之后的第三颗计算芯片。不久前,AMD刚刚以19亿收购的Pensando就是该领域的一家颇有名气的初创公司。而英特尔、英伟达等也已经提前布局。在中国DPU同样受到资本的追逐,去年以来就有包括芯启源、大禹智芯、星云智联、益思芯科技、云豹智能、云脉芯联、中科驭数等先后获得融资,其中不少企业单笔融资额达数亿元。
阿里云CIPU的发布无疑会给热闹的DPU市场再添一把火。那么,未来DPU是否会真的带来数据中心架构上的一次变革,如阿里云所描绘的替代CPU成为云计算的管控中心?
01 云服务商苦“数据中心税”已久
阿里云对DPU的研究已经多年,早期曾以MOC卡被外界所知悉,后来被神龙取代。2017年阿里云推出了第一代神龙架构,随后一直在不断演进,在去年的云栖大会上发布了第四代。功能也从早期支持裸金属的虚拟化到如今全面支持裸金属服务器、虚拟机和容器。与阿里云同一时间,AWS也在做类似的事情,这就是Nitro系统。2017年Nitro系统正式对外发布,与阿里云的第一代神龙架构发布几乎前后脚。两家的技术路线也都很相似,都是从主攻虚拟化的性能损耗、资源损耗问题,即成本和性能问题入手。
其实,不只是阿里云、AWS还有Google、微软等云服务商都在做类似的工作。因为它们不想再缴“数据中心税”了。
在现代数据中心中,CPU的一部分计算能力要被用于处理网络连接、存储、安全等基础设施管理任务,例如扫描网络流量中是否存在恶意软件、对虚拟机进行调度和管理以及编排存储设备。这部分工作并不实际产生效益,但必不可少。就像龙舟比赛时船头的那个指挥,他并不划船但少了他不行。
据估计,基础设施管理任务将占用CPU处理能力的20%至30%,这部分“浪费”的算力被称为“数据中心税”。“数据中心税”的存在意味着,如果有100台服务器,其中至少20台是无法拿出来售卖的,考虑到云服务商动辄数十万甚至上百万服务器的规模,这个数字让云服务商实在“心疼”。当然这里不只是算力的浪费问题,与算力配套的用电、制冷甚至空间也都是不小的开支。
能不能把这部分工作从CPU身上去除?能,这正是DPU要做的。DPU的设计初衷是要将部分由CPU处理的管理工作,如网络管理、安全扫描等卸载到专用芯片DPU上,从而让CPU专注更高价值的工作。具体而言,DPU能卸载网络服务(虚拟交换、虚拟路由)、存储服务(RDMA、NVMe)、安全(防火墙、加解密)等。
02 从以计算为中心到以数据为中心
众所周知,数据中心是云计算时代最重要的基础设施之一,为云提供强大的计算和存储能力,成为数字经济的重要支撑。
在今天的数据中心中,IT架构是以计算为中心的,也就是所有的调度管理都有CPU来负责。在这种架构中所有数据都需要先被送到CPU,CPU除了负责应用的计算,还承担通信的计算、存储的计算、安全的计算等,每一类计算都需要占用CPU资源。如果需要GPU和FPGA等算力资源,数据也需要CPU来参与转发。
打个形象的比喻:如果把一台计算机或服务器比作一个团队,CPU相当于这个团队的“大管家”,它来领任务、负责分工并对工作整体负责;GPU是“美工”,专攻图像处理;DPU则相当于“前台”,负责打包、拆包“数据包”,提升整个团队的工作效率。
近年来业界对数据中心网络性能以及虚拟化能力的需求日益增长,而后摩尔时代的到来让算力自然增长的技术红利不再。传统的以CPU为中心的计算机体系结构,其计算能力已经无法跟上网络带宽的增长速度,会造成网络拥塞,成为系统瓶颈。
而在以数据为中心的架构中通过DPU提供的数据传输和分发能力,使得CPU、GPU、存储和加速器等可以在不同的位置或物理机上,各资源互相协同工作。数据转发不再需要CPU参与,DPU可以直接将数据送达GPU和vCPU,时延上可以得到数量级的减少。对于新加入资源池的资源(如FPGA加速器),可以通过对DPU做软件定义网络,打通数据中心的数据传输通路,让新加入的资源加入到云计算资源系统中。
阿里云正在做这方面的探索,其提供的这组数据也体现了效果:基于CIPU和飞天的新一代云计算架构体系,在通用分布式计算领域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%;在大数据和AI等计算与数据双密集场景下,相比传统的TCP网络,弹性RDMA高性能网络的吞吐能力提升30%以上;云原生方面,容器启动速度快了350%,在Serverless场景下6秒可拉起3000个弹性容器实例。
不过,要完成从以计算为中心到以数据中心的这一个转型挑战也是显而易见,分别体现在软硬件两个方面。在硬件上,DPU要真正取代CPU,需要具有全面卸载网络、存储以及安全这些处理任务的能力,DPU具有通用性同时保持高性价比,是一个非常有挑战性的课题。
而在软件方面挑战同样不小。CPU和GPU目前都已有非常标准的编程框架,实现了与硬件解耦。而在DPU这个领域目前才刚刚开始。虽然有英特尔发起的开源基础设施程序员开发套件(IPDK),可用于在CPU、IPU、DPU或交换机上运行的基础设施卸载和管理,还有由英特尔、红帽和F5等发起的OPI以及英特尔OneAPI、英伟达的DOCA也都是为了这个目的,但要像英伟达的CUDA那样成为行业标准还有很长的路要走。
03 赛道拥挤,谁能笑到最后?
目前,DPU赛道非常热闹,充斥了大大小小的众多厂商。其中不乏像英特尔、英伟达、AMD、博通这样的芯片巨头,同时也包括众多云服务商以及一大批初创公司。
英伟达是DPU概念的最大推手。在2020年的GTC大会上,英伟达正式发布了名为BlueField的首款DPU,2021年4月,英伟达又发布了BlueField-3。而将推出的BlueField-4目标是实现每秒400万亿次操作的人工智能性能。英伟达称可以利用BlueField的计算能力来对内部网络流量进行扫描,发现威胁,从而能够更有效地检测到违规行为。
英特尔用IPU来替代DPU这个名字。英特尔去年宣布推出IPU,在今年的英特尔On产业创新峰会上公布了未来IPU路线图:2022年推出第二代IPU,包括MountEvans(英特尔首款ASIC IPU)和OakSprings Canyon(英特尔第二代FPGA IPU);2023年或2024年推出第三代IPU,包括代号为MountMorgan和Hot Springs Canyon的400GB IPU。在英特尔的愿景中,IPU在英特尔超异构平台的位置与阿里云CIPU定位非常相近。
AMD出手较晚,不过4月份直接收购了DPU初创厂商Pensando让AMD节省了不少时间,也补上了AMD 数据中心蓝图的最后一块拼图。
值得一提的是,芯片厂商的背后还活跃着一家云计算厂商——VMware,在2020年VMware的全球技术大会VMworld上,VMware宣布与英伟达合作利用SmartNIC(智能网卡)来完成网络管理、安全以及虚拟机管理等相关工作。
三大芯片巨头的出手,吸引了更多新型公司的加入,让DPU市场显得非常热闹,已经成为最受投资者关注的赛道之一。有乐观者认为,DPU是一个比GPU更大的市场,“不一定每台服务器都有GPU,但都会DPU”。
同样也有人不看好DPU,认为这是一个与CPU难度相当,但市场小得多的赛道。阿里云神龙架构的核心人物——阿里云弹性计算产品线负责人张献涛就认为DPU并不是一类适合走通用路线的芯片。他表示,DPU软硬件技术栈结合极其密切,是软件定义的计算架构。作为主要用户的云厂商,大多会自研,以做到相关软硬件技术栈完全可控,同时需要经过超大规模验证。而研发通用DPU的公司很难满足云厂商的需求,被收购或许是最佳结局。
总体而言,目前DPU市场才刚刚起步,还是一个非常碎片化的市场,市场上真正成熟的产品并不多,相对成功的都是应用于特定应用场景,比如智能网卡。未来DPU是否真正做大,能成为计算架构的核心,让每台服务器都有一个DPU,还是留给时间作答。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.