网易首页 > 网易号 > 正文 申请入驻

微软把Kubernetes调度器改了7处

0
分享至


去年KubeCon北美站,微软Azure容器团队还在讨论"AI工作负载怎么在云原生里找到位置"。8个月后,他们交出的答卷是:GPU调度、网络加密、多集群运维,全部塞进上游社区。这不是功能清单的堆砌,而是一场关于"AI基础设施如何像Kubernetes那样成熟"的实验。

从"能跑"到"敢跑":GPU调度器的7个补丁

AI训练集群有个老毛病:调度器把GPU当普通资源分配,结果两个任务抢占同一张卡,显存溢出,训练中断。微软工程师Renaud Gaubert在博客中写道:「The fix is never just more capability; it's shared operational philosophy」——问题从来不是工具不够,而是缺乏共享的操作范式。

这次微软联合NVIDIA、Google等厂商,向Kubernetes上游提交了7项关键改进。最核心的是动态资源分配(DRA, Dynamic Resource Allocation)框架的落地:调度器现在能感知GPU的显存碎片、拓扑结构,甚至NVLink连接关系。换句话说,一个需要8张卡全互联的分布式训练任务,不会再被拆散到不同物理节点。

另一项是队列调度(Kueue)的集成。传统Kubernetes按"先到先得"分配资源,但AI工作负载有优先级:推理服务要实时响应,训练任务可以排队。Kueue引入了队列和抢占机制,集群利用率从平均35%提升到60%以上——这个数字来自微软内部Azure ML平台的实测。

调度器的改进只是第一层。真正让运维团队敢把生产负载搬上来的,是网络和安全层面的配套工程。

网络加密的"无感知"实验

Kubernetes集群规模扩大后,IP地址管理变成噩梦。服务网格(Service Mesh)能解决加密和观测,但Sidecar模式带来20-30%的性能损耗,AI推理延迟直接超标。

微软的选择是:把加密下沉到内核层。他们主导的EBPF(Extended Berkeley Packet Filter,扩展伯克利包过滤器)方案,在KubeCon欧洲站宣布进入Beta。技术细节很枯燥,效果很直白:节点间流量自动加密,无需应用改造,CPU开销控制在5%以内。

更隐蔽的改动是身份体系。AKS(Azure Kubernetes Service,Azure容器服务)现在支持SPIFFE/SPIRE标准,工作负载启动时自动获取加密身份,而非依赖静态证书。这意味着一个被入侵的Pod,无法冒充其他服务横向移动——这对多租户AI平台是刚需。

Gaubert提到一个细节:「A significant part of our upstream work this cycle has been building the primitives that make GPU-backed workloads first-class citizens」。这里的"first-class citizens"(一等公民)不是修辞。过去GPU是"外挂设备",现在从调度、网络、存储到可观测性,全链路都有标准接口。


多集群运维:从"救火"到"编排"

单一Kubernetes集群的管理已足够复杂,但AI基础设施的现实是:训练集群在美国西部,推理集群在东南亚,边缘节点分布在工厂车间。微软的Fleet Manager服务试图回答一个问题:如何把100个集群当成1个来管?

核心机制是"策略即代码"。运维团队定义一次安全基线、网络拓扑或资源配额,Fleet Manager自动推送到所有关联集群,并报告漂移(Drift)情况。Gaubert没有给出具体客户案例,但提到一个场景:某金融客户的合规审计时间,从两周缩短到两小时——因为所有集群配置都有版本化的声明式记录。

存储层面的改动更偏向"修bug"。AI训练需要高吞吐并行文件系统,但Kubernetes的CSI(Container Storage Interface,容器存储接口)驱动 historically 对并发挂载支持不佳。微软贡献了针对Lustre和Azure Blob的优化,大模型检查点(Checkpoint)的写入速度提升了4倍。

这些改进的共同点:都不是Azure独占功能,而是优先提交给CNCF(Cloud Native Computing Foundation,云原生计算基金会)社区。微软的算盘很清晰——当"AI on Kubernetes"成为行业标准,AKS作为最成熟的托管服务,自然承接溢出需求。

开源策略的"防御性进攻"

把核心能力开源,听起来像做慈善。但Gaubert的表述透露了另一层考量:「AI infrastructure is still in the chaotic phase」。混乱意味着没有标准,没有标准意味着客户不敢all in任何单一云厂商。

微软的策略是加速标准化进程。当动态资源分配、EBPF加密、SPIFFE身份成为社区共识,客户迁移成本降低,但AKS的集成深度形成护城河。这是云计算时代的经典打法:开放协议,封闭实现。

一个值得注意的数据点:Azure ML平台现在管理的GPU算力,60%运行在AKS上,而非传统的虚拟机。这个比例在2024年初还不到30%。增长的动力,部分来自上述基础设施改进降低了"Kubernetes原生AI"的门槛。

KubeCon欧洲站的演示环节,微软工程师现场部署了一个175B参数模型的分布式训练任务。从提交到跨8节点启动,耗时47秒——去年同样的演示需要手动配置MPI Operator和节点亲和性规则,准备时间以小时计。

Gaubert在结尾写道:「The convergence of AI and Kubernetes infrastructure means that gaps in AI infrastructure and gaps in Kubernetes infrastructure are increasingly the same gaps」。这句话的潜台词是:两个领域的技术债正在合并,而微软打算一次性还清。

当训练集群的调度延迟从分钟级降到秒级,当网络加密不再意味着性能折损,多集群运维从"能跑"变成"好跑"——企业会把下一个大模型训练任务放在哪里?Azure的赌注是:答案已经不言而喻。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
续约两年!科尔继续担任勇士主帅 仍会是NBA现役最高薪主教练

续约两年!科尔继续担任勇士主帅 仍会是NBA现役最高薪主教练

醉卧浮生
2026-05-10 08:30:28
一个人、一台电脑、4个产品,月入170万

一个人、一台电脑、4个产品,月入170万

盛景产业互联网观察
2026-05-09 12:06:44
难以饶恕!榴莲仅退款女孩过分言论曝光:脸真大,不知羞耻的东西

难以饶恕!榴莲仅退款女孩过分言论曝光:脸真大,不知羞耻的东西

小徐讲八卦
2026-05-09 10:31:23
国安部发布紧急提醒:你的手机或已成“间谍站”!

国安部发布紧急提醒:你的手机或已成“间谍站”!

看看新闻Knews
2026-05-09 14:54:03
是时候拎出来那只夜壶了

是时候拎出来那只夜壶了

环线房产咨询
2026-05-09 16:29:33
乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

网易新闻出品
2026-05-09 11:37:34
被王楚钦打哭 小勒布伦仍不服:我们本该取胜 中国队根本没那么强

被王楚钦打哭 小勒布伦仍不服:我们本该取胜 中国队根本没那么强

风过乡
2026-05-10 09:16:18
伦敦世乒赛今晚落幕!5月10日赛程公布:中日巅峰对决争夺2项冠军

伦敦世乒赛今晚落幕!5月10日赛程公布:中日巅峰对决争夺2项冠军

全言作品
2026-05-10 06:21:22
5月9日阅兵的俄罗斯,走向垃圾时间

5月9日阅兵的俄罗斯,走向垃圾时间

黔有虎
2026-05-09 16:22:09
1938年,王耀武发现日军身材矮小,想出一条妙计,一夜全歼日军

1938年,王耀武发现日军身材矮小,想出一条妙计,一夜全歼日军

饭小妹说历史
2026-05-06 09:28:08
果然又出幺蛾子,访华之旅再生变故?中国提的要求,特朗普拒绝了

果然又出幺蛾子,访华之旅再生变故?中国提的要求,特朗普拒绝了

混沌录
2026-05-09 11:02:07
尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

火山詩话
2026-05-08 21:39:02
别碰!别吃!别养!一只就携带100条虫,看到赶紧远离

别碰!别吃!别养!一只就携带100条虫,看到赶紧远离

齐鲁壹点
2026-05-08 06:35:47
15.98万,真的疯了

15.98万,真的疯了

放毒
2026-05-09 18:53:10
好签?亚洲杯抽签揭晓:国足与伊朗+叙利亚同组 将战吉尔吉斯斯坦

好签?亚洲杯抽签揭晓:国足与伊朗+叙利亚同组 将战吉尔吉斯斯坦

我爱英超
2026-05-10 02:56:29
他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

A活着
2026-05-09 20:47:26
我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

千秋文化
2026-05-08 10:29:06
他活埋近5000红军,逃往国外安享晚年,如今国内竟还有人纪念他!

他活埋近5000红军,逃往国外安享晚年,如今国内竟还有人纪念他!

兴趣知识
2026-05-08 00:23:54
SGA14中4!雷霆57-59湖人,看数据:你就是头号罪人!

SGA14中4!雷霆57-59湖人,看数据:你就是头号罪人!

运筹帷幄的篮球
2026-05-10 09:48:53
深圳6岁男童吃生菜包烤肉后,全身出现大片青斑、血肿

深圳6岁男童吃生菜包烤肉后,全身出现大片青斑、血肿

听心堂
2026-05-09 18:11:29
2026-05-10 10:24:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2403文章数 26关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

牛弹琴:74岁法国政坛老将对华清醒表态 让人刮目相看

头条要闻

牛弹琴:74岁法国政坛老将对华清醒表态 让人刮目相看

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
亲子
家居
手机
公开课

旅游要闻

山西太原:一路骑行 漫游赏景

亲子要闻

自己就给自己确诊了!

家居要闻

菁英人居 全能豪宅

手机要闻

iQOO 15T首发天玑9500特别版:实测帧率无敌 稳如泰山

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版