华为云容器管理已然成为全球领导者,把握未来的最好方式,就是自己创造未来。
——导语
01
容器极简史
满脸络腮胡的程序员Solomon Hykes看上去非常像一个硅谷的原生码农,不过他的确是一个骨子里精致的法国人。在一次非正式的硅谷评选中,他被认为是史上最酷的12位程序员;在他的领英页面上,写满了业内人士对他的推崇……而他的主要成就,就是创造了Docker这个划时代的容器产品。
Docker引发了延绵至今的容器革命。其中,最具有代表性的,是2013-2014年间,三位Google 工程师结合Docker容器技术的发展趋势,又得益于Google 内部运行了多年的大规模集群管理系统 Borg的技术积淀,创造出了Kubernetes,其至今仍是容器领域最有影响力的实际行业示范。
而华为云在世界范围内,也堪称容器技术坚定的支持者和践行者。
在Kubernetes规模化应用才刚刚开始的2016 年,华为云的首个容器服务产品——云容器引擎(CCE)就正式发布,标志着华为云在公有云领域全面布局容器技术,结合华为在硬件、网络和操作系统层面的积累,将 Kubernetes 与自研技术深度融合而成。
华为云对于容器技术的应用堪称与世界主流同步,但又逐渐走出了自己的节奏。
而容器在自身的进步和应用实践的升维方面,也有鲜明的层次感。
从纯技术角度来说,容器技术在10年中实现了三级跳。
最早的容器技术,主要是实现了部分场景下对虚拟机的替代——后者的应用中,每个应用独占一台虚拟服务器,就好像搬家时一辆卡车只能装运一件设备,虽然隔离彻底,但代价很大;而容器则如同一个标准的集装箱,自带规整的保护层(隔离环境),无论用什么交通工具运输,其中的应用都能完好无损、直接运行。
容器技术的再一次进步,是以Kubernetes、CCE为代表的技术的出现。它们更多像是调动千百万个集装箱的调度中心,为容器提供自动扩缩容、服务发现和故障恢复等功能。
正是这类技术的出现,容器才从一个单纯的开发工具,升级为一种企业级的基础设施;特别是在2020年后,这类调动中心开始支持跨云部署,解决了企业级混合云场景下的管理难题,使容器技术成为云原生最重要的技术栈之一。
而后,容器继续在微服务、Serverless、物联网语境下的中心-边缘化部署,以及最新的AI浪潮中发挥巨大的作用,从而打开了自己生命周期的第三个阶段——智能化。
而云容器实践应用的升维过程,也与这个技术的发展趋势若合符节。
以华为云为例,在云原生技术重塑企业IT架构的浪潮中,构建了覆盖全场景的容器产品矩阵——云容器引擎CCE兼容Kubernetes,是一切容器应用的基石;而云容器实例CCI提供了Serverless化敏捷能力,使得开发者无需管理服务器,而按请求量付费,使得无论是注意力资源还是IT资源的利用率都得以大幅度提升;而分布式云原生服务UCS实现了跨云跨地域的统一治理,三者协同形成“构建-运行-延伸”的完整闭环,不仅兼容Kubernetes生态,更在性能、安全性和全局管理维度实现自我突破。
举个例子就很容易明白,目前的企业普遍面临AI训练、实时视频处理、电商秒杀等高并发场景,传统容器集群常遭遇性能瓶颈,云容器引擎CCE就针对性地开发出了CCE Turbo,通过100%的把容器网络/存储转发任务卸载至智能网卡,充分释放了CPU资源;又通过使用云原生AI调度引擎Volcano,通过感知AI、大数据、WEB业务的不同特征,做到了自动优化任务调度策略,进而可以实现1万容器/秒的大规模并发调度能力。
而CCE Autopilot是提供Serverless Kubernetes服务的利器,它比智能调度更进一步,使得用户只用关注容器应用本身,无需管理节点、集群或扩缩容策略。
容器本身就是一种在内核上做精细文章的技术,CCE Autopilot的精细程度可以做到按容器实际运行的CPU秒和内存GB计费,使得闲置成本趋近于零;而用户使用虚拟机技术时,资源使用率很少能超过50%——相比之下,虚拟机虽然在物理隔离这个单项上仍有一定优势,但其性价比和技术先进性,与CCE Autopilot的距离犹如传统燃油车和智能化的新能源汽车,已经出现了代差。
更进一步来看,华为云CCI是全球首个基于Kubernetes的Serverless容器服务,通过彻底解耦应用与基础设施,实现了“零集群管理”,也就是说,用户无需预置节点、维护控制面(如Master/Worker节点),直接提交容器镜像即可运行负载。
![]()
由于容器技术的高技术密集型,笔者很难在一篇小文中对其进行更详细的解说,我们更应该观察的是容器技术对云原生时代底层技术思潮的重大影响,可以简单分为三个阶段;
第一个阶段,我称之为“打包搬家”阶段,人们开始把大量的应用从传统的虚拟机架构上永久性的搬迁到容器上,实现了此前无法实现的软硬件解耦,为此后的容器大规模应用于新老IT资源上做好了准备;
第二个阶段,我称之为从“从个体到群体”的阶段,借助自动化的编排调度技术,容器从开发工具变成了一种基础设施,从而使得更多的企业和研发者可以不再关注运维技术本身,把注意力集中到应用开发上去,这种“再聚焦”是高维技术进入成熟期的普遍规律,推动了微服务规模化、Serverless、边缘容器运行时、零集群管理等典型云原生+容器技术的出现和普及;
第三个阶段,也是正在发生的,是容器化的AI时代。它的突出特征,就是不仅能够让容器技术服务于AI(如大模型训练和推理),也利用机器学习等技术开始使得容器技术本身实现了高度的智能化,如自动优化混合云环境中的容器部署等,这一阶段可以说才刚刚开始,但它未来的光明前途已然显现。
02
拥抱AI是云原生的未来
在拥抱AI上,华为云已经有一些非常前沿性的实践。
我曾经在一篇文中这样写道:“AI应用将加速降临在我们的生活中。而AI对基础设施的渴求将难以想象。这种背景下,最有效率建设中国算力基础设施的办法,就是用CloudMatrix384这样的产品,来统一人们对超级智算服务器的标准。”
![]()
事实上,Cloud for AI方面,华为云构筑CCE智算集群的基石,就是CloudMatrix384超节点的这样的超级智算服务器——其单体能力已经极为强大,由此构建而成的云原生基础设施,更是强到可怕——可提供大规模超节点拓扑感知调度、PD分离扩缩容、AI负载感知的弹性伸缩以及容器极速启动等能力,大幅加速AI训练和推理,提升AI任务运行效率。
但更重要的是,CCE智算集群不仅从CloudMatrix384上获得支持,也从另一个角度肯定了高度集成化的“超节点”存在的意义,那就是突破传统服务器架构/集群的性能和扩展性瓶颈,为万亿级甚至更高参数级的AI模型训练与推理提供全栈优化的容器技术支持,并以一个非常高完成度、集中度的产品形态来提供。
与此同时,AI技术也在重塑云服务体验,华为云全新发布的CCE Doer,以AI Agent方式嵌入容器使用全流程,贯穿智能问答、智能推荐、智能诊断等业务流程,支持200+关键异常场景诊断,根因定位准确率超过80%,实现容器集群管理自动化与智能化。
事实上,CCE+CloudMatrix的智算集群方案已成功应用于大规模训练推理实践场景。
国内某互联网平台,在面对日均数百万单位的内容发布量的即时审核工作压力日渐增大,而基于华为云CloudMatrix构建了千亿参数大模型训推一体化平台。通过CCETurbo实现CloudMatrix384超节点算力智能调度,海量内容即发即审。
视觉创作平台美图,也基于CCE和昇腾云服务,实现多样化AI算力高效调度,支持多样模型/算法部署、推理,保障了美图的大规模训练快速迭代,支撑了2亿月活用户即时分享生活美好时刻。
在Serverless领域,华为云云容器实例CCI的极致弹性和性价比的优势都很突出,这一点在中东和北非地区No. 2的OTT平台STARZPLAY身上得到了实践。
STARZPLAY的旧平台,是非常经典的传统烟囱式架构,且无弹性能力,在应对板球世界杯这种超级赛事时需要投入大量人力做前期准备,但是伴随高并发访问的持续增长,“水多加面,面多加水”这种模式已经无以为继。
这时,基于CCI的全栈Serverless方案,被华为云摆在了STARZPLAY面前,并以极速弹性、高效运维的特性打消了遥远国度客户的信任,从而帮助STARZPLAY在2024板球世界杯期间,第一次“轻松”的应对了百万级到十亿级的弹性访问需求,并且降低了20%资源成本,在这个新兴市场打响了品牌。
![]()
03
生态型塑造未来
华为云从发布首个容器产品到今天,已经匆匆十年。而作为一个令人难忘的生日礼物,8月6日,Gartner正式发布2025《容器管理魔力象限》报告,华为进入全球领导者象限。
至此,在容器管理领域,华为云已经和谷歌、微软、亚马逊等全球顶级云厂商站在超级头部位置。
从某种角度来讲,这意味着中国云厂商在和美国竞争全球云计算创新策源地的漫长PK中,赢得至关重要的一分。
Gartner领导者象限的含金量无需多言,即使像Oracle这样的世界级厂商也未曾进入,更体现了其评选标准的严格。不过,我们更应该分析的是,华为云为何能进入这一象限。
在笔者看来,可以总结为三个要素:技术先进性、实践广泛性和开源贡献度。
从技术先进性的角度,在Gartner看来,华为云提出 “云原生 2.0” 战略,将 AI、边缘计算、Serverless 深度整合,符合 Gartner 对 “智能容器管理” 的评估方向,是能够进入领导者象限的一个宏观战略性因素。
![]()
而与之对应的,华为云对云原生2.0的深入践行和战略投入是拥有非常多实实在在的成绩的——在业界率先发布CCE Turbo、CCE Autopilot、云容器实例CCI以及分布式云原生服务UCS等多款创新性容器产品,为用户提供了可在公有云、分布式云、混合云、边缘运行大规模可扩展容器负载的最佳云原生基础设施,这些我们也都有所介绍。
具体来说,华为云的技术深度,可以用“先进而无短板”来形容。
在竞逐世界级云厂商的容器实践中,华为云构建了业界最完整的容器解决方案体系,覆盖公有云、混合云、边缘计算及 AI 场景。
在核心技术上,华为云拥有支持万级节点集群的高性能容器引擎,采用分布式 QingTian 架构实现毫秒级调度响应,资源利用率提升 30% 以上。例如,在金融领域,中国农业银行基于华为云容器构建云原生基础设施,支撑核心业务系统全面实现分布式架构转型,日交易量峰值超19亿笔。
在至关重要的调度能力上,UCS作为多云容器编排引擎,支持跨公有云、私有云及边缘的统一管理,通过 Karmada 实现多集群联邦调度,解决了企业多云环境下的资源孤岛问题——而这正是中国用户从传统IT架构向云计算转型中最难解的命题。
在拥抱AI上,华为云通过CCE Doer将 AI 能力嵌入容器全生命周期管理,支持 200 + 异常场景的智能诊断,根因定位准确率超 80%。特别是在 AI 训练场景中,CCE 智算集群与昇腾算力结合,实现 GPU 资源多容器共享调度,整体成本降低 50%。
华为云还特别注重建立差异化竞争优势,作为一个有深厚通信技术基因的企业,华为云凭借此与容器技术结合,建立了绝大多数云厂商很难追赶的差异化战略纵深,例如在边缘计算与 5G 协同能力上,靠着通信领域的技术积累,将 5G MEC(多接入边缘计算)与 KubeEdge 深度融合,在智能电网、工业互联网等场景实现毫秒级时延响应。如在某能源企业的智能巡检项目中,通过 5G +边缘容器方案,将故障识别时间从分钟级压缩至秒级。
实践的广泛性上,华为云的容器技术也无可挑剔。
在本土市场,华为云连续五年蝉联中国容器软件市场份额第一;80%的TOP100互联网企业、75%的国有大行以及全国性股份制银行、75%的TOP20中国能源企业以及90%的TOP30车企,均信赖并选择了华为云容器服务,通过云原生技术实现企业数字化转型 。
因此,在 Gartner客户评价系统Gartner Peer Insights 中,华为云容器服务以 4.7 分(满分 5 分)位列全球第一,尤其在交付效率(4.8 分)和技术支持(4.7 分)维度表现突出。
但是,笔者认为,对华为云的发展至关重要的一点,还体现在其对开源社区的贡献上。
CNCF(Cloud Native Computing Foundation,云原生计算基金会) 是全球最具影响力的开源技术组织之一,技术愿景是让云原生技术成为全球应用开发与部署的标准,而容器化是其四大主导方向中排行第一的方向。作为一个独立于云厂商外的中立组织,它在云原生领域的影响力可以说无以伦比——通过托管超过 170 个开源项目(截至 2025 年),CNCF 构建了完整的云原生技术栈。
而华为云积极参与开源,并作为长期贡献者,参与了82个CNCF项目,拥有超过20个项目管理维护者席位,并获得全球唯一的CNCF TOC副主席席位。
对于华为云为何如此积极参与开源,除了参与云原生的标准制定外,华为云云原生产品经理的Bryan给我分享了一个观点——云原生,尤其是云原生背景下的容器市场,是一个生态竞争型的市场。
举一个简单的例子——尽管波音在客机市场上被空客追赶的很辛苦,但在全球货机市场(含新货机和改装货机)的综合占比超过 80%,空客仅约为 15%。
之所以有如此大的差距,某种程度上就是因为ULD(Unit Load Device,航空集装器)的规格虽然由国际航空运输协会(IATA)统一制定,目的是实现不同航空公司、机场、机型之间的兼容,提升装卸效率,但波音在其中的贡献度最大。
早在全球航空货运的开创期,波音就非常积极的参与IATA制定货运集装箱尺寸标准的作用,以至于由747 开创的宽体货舱尺寸(5.5 米宽度)成为 IATA 集装器设计基准;此后至今,全球 90% 的航空货运集装箱按此规格生产;同样,在软件上,同时,波音开源其货机装载优化算法(如 LoadMaster),最终的渗透率是——全球 78% 的货运航空公司使用该系统进行配载规划。
如果我们把航空集装器也看作是一种容器技术(事实也是),就不难得出结论——越早参与生态建设,越积极的开源包括软件和算法在内的技术,不但对受益者有利,也对贡献者更有利,更有助于贡献者成为标准的引领者,得到更丰富的市场回报。
而容器技术尽管基本理念一致,但在标准和应用方式上可谓千差万别。这也就决定了,在云计算这个非常吃标准的市场,生态贡献度越高,市场渗透率就越高,这就意味着客户的后续选择的指向性越强——华为如果希望自身能够持续的提升在领导者象限的TOP俱乐部中的地位,生态投入和生态贡献几乎是一条必须走的路。
而随着华为更积极的进入全球市场,通过开源贡献度拉升渗透率,可谓不二法门。
但问题的B面是,开源技术不但要“我愿开”,更要“你愿用”——从生态反应来看,华为这个崇高荣誉的背后,不仅是捐赠了KubeEdge、Karmada、Volcano、Kuasar,以及于2024年捐赠了Kmesh、openGemini、Sermant等标杆项目,更取决于其开源技术的用户体量和重要性也在不断的提升——而这也是华为能够进入全球领导者象限中一个至关重要的因素。
没有投入就没有所得,在波诡云谲、至今仍以美国厂商为绝对头部的容器市场,我们也欣喜地看到,以华为云为代表的中国云计算厂商,正在不断进步,通过自己的努力来书写未来。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.