网易首页 > 网易号 > 正文 申请入驻

一文详解Kimi的AI Agent如何跑在阿里云上

0
分享至

此前,Kimi将 Agent能力落到具体产品形态中,在常规对话的基础上,相继推出了“深度研究”、Agentic PPT”、“OK Computer”及“数据分析”等多项Agent技能。

Kimi的C端Agent业务在高峰期承载了数以万计并发请求,每一次的请求都需要快速分配独立算力保证用户体验。在模型训练阶段,强化学习与数据合成,也需要海量隔离的计算资源的并行运行,且需要频繁启停。让智能体走进用户,无疑对基础设施提出了全新的要求。

为此,Kimi与阿里云深度合作,以阿里云容器服务Kubernetes版ACK和阿里云容器计算服务ACS的Agent Sandbox(ACS Agent Sandbox)为核心,构建了一套端到端的Agent Infra基础设施体系。


AI Agent落地需要
什么样的Agent Infra?

Agent产品并非简单的软件功能叠加,而是代表了一种全新的交互范式,即让AI能够理解复杂的用户意图,并自主分解任务、调用工具、执行并完成一系列多步骤工作流,从而真正替代人类完成创造性或分析性的工作。

“深度研究”和“OK Computer”,主要是通过自然语言指令,模型自主规划及反思,驱动一个虚拟的计算机沙箱环境,自动化执行复杂的任务流,包括工具调用、联网搜索,代码调测等常见任务。在高峰期,系统需要同时处理数以万计的用户请求,每个请求都可能触发一次或多次Agent的复杂推理和工具调用。系统需要快速为每个用户请求分配独立的计算资源,以避免任务间的相互干扰和资源争抢。

除了在面向用户的服务,Kimi在K2等新一代模型训练过程中,也进行了大规模强化学习(RL)训练和Agentic数据合成。模型训练过程中,系统需要快速启停、并行运行海量的Agent实例,模拟各种复杂的用户行为和任务场景,与环境进行海量的交互,从而生成高质量、多样化的轨迹数据。同时为了满足模型训练的并行执行效率,Kimi对于海量算力的弹性使用和稳定性也提出了更高的要求。


图|Kimi Agent场景示意图


  • 挑战一:沙箱环境如何支撑Agent服务即时响应

沙箱环境的弹性能力与启动速度是Kimi面临的第一个大挑战。AI Agent的任务具有高度的突发性和不确定性,用户请求可能在瞬间激增。传统的虚拟机或容器部署方式动辄数分钟的启动时间,对于需要即时响应的Agent服务而言是不可接受的。

沙箱环境的隔离性与安全性,也至关重要。由于Agent会执行由大模型生成的未经人工验证的代码,沙箱必须提供强隔离能力,防止其对其他租户、宿主机或其他关键系统造成影响,确保多租户场景下的安全。


  • 挑战二:如何满足沙箱的状态连续性以及应对大规模并发带来的调度压力

对于需要长时间运行的Agent任务,沙箱还需要具备灵活的状态保持与恢复能力,以便在任务暂停后能够快速恢复到之前的执行点,以提升任务执行成功率。

同时,随着Kimi用户规模的扩大,大规模并发带来的系统稳定性问题也不容忽视。当大量用户同时使用Agent服务时,整个集群的调度能力、资源争抢以及控制面的压力都将面临巨大考验。


  • 挑战三:如何以最低成本支撑海量并发


合理的成本控制也是需要考虑的现实问题。AI Agent任务通常呈现短时高峰的特征,若为峰值需求预置大量计算资源,会造成巨大的资源浪费。因此,如何实现按需弹性进行稳定的资源调度,以最低的成本支撑海量并发,也是Kimi面临的一大挑战。


图|Agent Infra架构图

综上所述,AI Agent对Infra的核心诉求,包括:

  • 大规模弹性的沙箱环境支持,这是保证Agent任务执行能力的基石,同时也要求沙箱具备相应的快速启停、安全隔离等特性,以应对海量并发交互的场景;



  • 会话级状态保持与长时间运行支持,以满足多轮推理与复杂任务编排的需求;



  • 灵活的工具调用服务和强大的知识与记忆能力,是Agent实现更高智能化和持续学习的关键;



  • 完善的Agent开发平台和安全监控服务,可以为Agent产品的顺利上线提供重要保障。

兼具性能、成本与可靠性的

AI Agent运行底座

通过与阿里云深度的技术协同,Kimi的Agent Infra顺利落地,并稳定高效的支撑了面向C端用户和算法研究员的生产服务。在这一过程中,双方解决了一系列复杂的技术挑战,涵盖弹性、成本、稳定性、状态保持和安全等多个方面。

一个快、准、稳的弹性沙箱调度机制

AI Agent的在线服务流量像潮水一样起伏不定,比如工作日高峰期,可能会有成千上万用户同时发起请求,系统需要在几秒内多处理好几倍的任务。为了不让用户卡住或超时,系统必须在极短时间(秒级)启动成数千上万个新的沙箱实例,每个都独立运行、互不干扰。

类似的需求也出现在模型训练阶段:强化学习或数据合成任务常常要批量启动成百上千个Agent实例,需要频繁创建和销毁沙箱环境,节奏快、频次高。

面对这种“既要快、又要准、还得稳”的挑战,阿里云以 ACK 的节点池即时弹性能力和 ACS Agent Sandbox 为核心,为Kimi打造了一个高性能、低成本的沙箱环境解决方案。该方案通过容器节点池即时扩容、ACS Agent Sandbox资源预调度以及智能的资源策略,实现了对Agent沙箱环境的精细化管理和高效调度。


图|ACK的节点池即时弹性能力/ACS Agent Sandbox协同调度

ACK节点池保障“即时弹性”快速扩容

面临突发性流量时,ACK节点池通过多可用区、多实例规格的组合保障计算资源的扩容。ACK则支持跨可用区创建节点池,并根据实时负载动态选择最优实例规格(如通用型、计算密集型或存储优化型),既避免因单一可用区资源不足导致扩容失败,又通过多规格适配不同业务需求,提升资源利用率。

为缩短节点从初始化到业务就绪的耗时,ACK支持多种方式加速节点启动:用户可将业务镜像、依赖组件及配置预打包至自定义镜像中,节点启动时无需重复拉取镜像,初始化时间可降低60%以上。同时,ACK支持数据盘快照加速,通过预置数据盘快照快速克隆,使初始化耗时从分钟级降至秒级,尤其适合Agent沙箱的快速启动场景。


图|节点池即时弹性扩容

在网络层面,节点真正可用往往需要依赖节点上ENI网卡创建和挂载完成,产生了较长的等待时间。ACK节点池结合Terway网络插件优化,通过预先分配ENI(弹性网卡)并绑定到待扩容节点,有效避免了无效等待,显著加速Pod的网络就绪与业务流量接入。

结合以上优化加速方案,ACK节点弹性扩容对弹性全链路,实现了高扩容成功率和分钟级千节点的扩容效率。

ACS Agent Sandbox实现沙箱环境极速秒级启动

为了进一步满足Agent对瞬时、海量、碎片化算力的极致要求,Kimi还使用了ACS Agent Sandbox实现Agent沙箱环境的极速启动。

ACS Agent Sandbox底层采用轻量级虚拟机(MicroVM)技术,将虚拟化开销降低90%,在实际场景中,实现了大规模并发弹性,同时满足数千沙箱秒级启动的要求,能够在业务负载突增时即时提供计算资源。这得益于以下方面的优化:

  • ACS Agent Sandbox基于国内最大容量规模的阿里云弹性资源池,结合用户负载特征的沙箱资源预调度优化,通过预测预调度、资源复用等手段,节省了沙箱环境的调度、创建时间。同时优化了网络、存储端到端的方案,有效缩短单个沙箱冷启动的时间。

  • 在镜像拉取维度,沙箱需要先拉取指定的容器镜像,但因网络和容器镜像大小等因素,镜像拉取耗时往往成了沙箱启动的主要耗时。为加速实例的启动速度,ACS Agent Sandbox基于云盘快照技术提供镜像缓存功能。通过预先将需要使用的镜像制作成镜像缓存,然后基于该镜像缓存来大规模创建沙箱,避免或者减少镜像层的下载,从而进一步提升沙箱的启动速度。

另外,Agent应用启动时往往面临组件依赖加载、应用初始化等资源密集型任务,瞬时资源需求可达稳定态的2-3倍。如果按峰值预留规格,会导致大量资源浪费;而ACS Agent Sandbox通过Quota热更新技术,允许沙箱在创建初期自动获取临时burst资源,几秒内将CPU/内存提升至数倍,待应用启动完成后再平滑回退至基准规格。这一机制避免了因资源不足导致的启动阻塞,实测可使Python类沙箱应用启动时间缩短60%以上,同时又确保了成本可控。

ResourcePolicy资源调度策略,构建算力分级调度

为了整体应对AI Agent瞬时高并发、请求高频波动的特性,Kimi采用阿里云的ACK ResourcePolicy构建了常态算力与Serverless算力的分级调度体系。

该策略通过声明式配置定义算力分配优先级规则,将预留节点作为基线容量池保障日常稳定负载,当Pod排队数超过阈值(如500个)或等待超时(如30s)后,自动将超额请求溢出调度至ACS Agent Sandbox Serverless池。该策略也可根据实时Pod积压数量、资源缺口比例动态切换,确保用户使用Agent的稳定性和一致性。这种混合模式不仅使Kimi Agent的综合成本降低,还将突发峰值承载能力提升了数倍,实现了容量确定性、弹性速度与成本优化的平衡。

一套保障Agent「持续」待命的机制

另一方面,越来越多的Agent任务不再是“一问一答”的短交互,而是需要长时间思考、多步规划的连续过程。比如,一个研究型Agent可能在后台整理文献、调用工具、生成报告,整个过程持续几分钟甚至更久。如果在这期间系统因资源紧张把沙箱直接销毁,Agent的所有中间成果——包括已加载的数据、推理路径、临时文件——都会丢失,用户只能从头再来。

为避免这种“断线重连”式的体验,Kimi要求即使沙箱的计算资源被释放,其内存状态和磁盘数据也能安全保存下来。当下次用户发起请求时,系统能快速从存储中还原整个环境,实现“秒级唤醒”,让用户感Agent一直在待命。

这套“休眠-唤醒-克隆”机制不仅保障了任务的连续性,还带来了额外收益:同一个Agent状态可以被快速克隆出多个副本,用于强化学习中的多路径探索,既提升了资源利用率,也加速了算法迭代。

实例休眠及唤醒能力

ACS Agent Sandbox提供了状态保持功能,支持沙箱环境的一键休眠和快速唤醒。使用方式上也达到了灵活便捷,支持通过原生K8s Pod协议、Sandbox CR或 E2B SDK触发沙箱休眠和唤醒。


图|ACS休眠能力

在成本考验方面,ACS Agent Sandbox可以支持内存状态的持久化,在休眠期间沙箱的CPU和内存资源释放,降低在休眠期间的资源成本。休眠期间支持按需选择保留内存数据、临时存储文件数据、IP等,灵活应对不同业务场景的需求。

同时,支持数秒快速唤醒Pod,Pod的内存状态保持,完整恢复到休眠前的沙箱环境,实现在成本与体验之间的最佳平衡,降低了长周期任务的资源持有成本。

克隆能力,实现Agent RL分支路径探索

在休眠功能的基础上,阿里云容器服务团队同步研发了实例克隆能力,支持通过 ACS Agent Sandbox制作内存级别的快照Checkpoint,以及基于一个Checkpoint瞬时创建大量初始状态一致的实例。通过在存算分离架构下复用同一份底层快照,克隆操作无需重新加载依赖、环境或初始化内存,大规模实例可以在数秒内并行就绪。

在Agent RL场景,常见蒙特卡洛树搜索(MCTS)这类强化学习算法中,智能体需要在一个节点的基础上,同时模拟(rollout)多条不同的未来路径以评估最佳行动。如果没有高效的克隆能力,只能为每条路径单独启动一个全新的、初始化开销巨大的沙箱,或者在单个沙箱中串行执行,效率极低。而通过克隆,可以瞬间生成数千个拥有相同状态的沙箱副本,每个副本负责一条路径的模拟,极大地加速了搜索过程。

一个扛住十万级Pod的稳定调度底座

随着使用Kimi Agent功能的用户持续增长,后台并发运行的Pod规模迅速攀升至数万甚至数十万级别。如此大规模的Pod频繁创建、调度和销毁,对 Kubernetes集群的核心组件,尤其是调度器和API Server带来了巨大压力。一旦响应延迟或调度堆积,就可能拖慢整个Agent服务的响应速度。

因此,如何确保在如此大规模的负载下,集群依然能够稳定运行,也是Agent服务能否成功的关键之一。

调度器性能大幅提升

阿里云容器服务ACK针对大规模AI负载场景,对Kubernetes的核心组件进行了深度优化和加固。在调度器层面通过参数调整提高了队列处理深度以及单个Pod的处理速度,确保当触发集群自动伸缩时能够处理尽可能多的Pending Pod。非自动伸缩场景下调度器通过对相似Pod的调度结果的中间缓存以及不同链路的并行处理,成倍减少相似Pod的调度开销,最终实现千节点规模下每秒数百Pod的调度效率。

ACK调度器支持Pod亲和性缓存、等价类调度,同时结合调度器性能参数调优,在实际场景中,能够提升调度器性能至开源版本的数倍。

API Server稳定性改进

ACK管控侧针对Agent场景沙箱快速弹起,快速释放特点。基于大规模多AZ高可用架构管控拓扑部署,同时针对该场景对 ETCD/APIServer/KCM/VK/Scheduler/ACS管控等组件做了全链路端到端参数优化,管控组件支持动态弹性扩容,来满足Agent沙箱秒级弹性,高并发 API访问诉求。

一套让Agent“记得住、找得准”的搜索与记忆机制

高质量的搜索和记忆服务,是构建复杂Agent的关键基础,在Agent任务执行前、执行中,都会高频依赖搜索从互联网海量信息中精准获取高质量信源。而 Agent的“记忆”能力,能保证Agent在跨会话场景中维持连贯性,同时也能给产品带来更多个性化、智能化体验的提升。

阿里云多模数据库Lindorm通过存储计算分离、多引擎共享融合的云原生架构,帮助Kimi构建了具备高效检索和海量存储能力的记忆与搜索模块。


图|Lindorm多引擎能力

通过该方案,Kimi取得了如下收益:

  • 稳定易开发:Lindorm作为一个多模数据库,集成了宽表引擎、搜索引擎、向量引擎、AI引擎四大核心组件,数据在内部自动流转,无需自建同步链路。这些特点对比开源自建方案提供更稳定、更统一便捷的开发方式,帮助Kimi快速构建了Agent背后的AI搜索基础设施;

  • 双路召回:Lindorm原生支持基于RRF的全文-向量双路召回能力,并且支持用户设置自定义权重;

  • 数据压缩效果提升:Lindorm支持云盘、OSS等多种存储,并内置深度优化的压缩算法,比开源减少30%~50%存储成本。

一套让Agent“互不打扰”的安全隔离防护

在多租户环境下,不同用户的AI Agent实例共享同一套物理集群资源,安全隔离就成了不可妥协的底线:必须确保每个用户的Agent都运行在独立的环境中,既不能读取或干扰他人的数据,也无法越权执行系统操作。

运行时安全隔离

ACS Agent Sandbox基于MicroVM安全沙箱技术,为每个Agent任务提供独立的、硬件级别的计算安全隔离环境。同时,结合Network Policy、Fluid等能力增强,提供Pod级别网络、存储的端到端安全运行环境。

存储挂载隔离能力

在Agent持久化存储方面,文件存储(NAS)支持通过为每个Agent实例动态分配独立的子目录或存储卷,在共享存储池上构建逻辑隔离的存储空间,同时通过访问控制列表(ACL)或POSIX权限严格限制各实例对其空间的读写权限。这种"共享存储池+逻辑隔离"的架构,既发挥了NAS便捷共享、弹性扩展的优势,又通过细粒度权限控制实现了存储层面的强隔离,使不同Agent在共享物理资源的同时保持数据安全边界。

网络隔离能力NetworkPolicy

在Kimi的Agent服务中,使用了阿里云NetworkPolicy限制Agent之间的网络通信,防止恶意Agent访问敏感数据或服务。NetworkPolicy支持命名空间隔离、端口控制及流量路由。在大规模集群场景下,阿里云还提供了优化大规模Terway集群NetworkPolicy扩展性的方案,通过调整策略配置和优化网络组件,确保策略管理不会给Kubernetes的管控带来过大压力。

面向生产级AI Agent
兼具效率和成本的落地基础

面向企业级AI Agent应用的规模化落地,Kimi借助阿里云全新推出的ACS Agent Sandbox,一套高性能、低成本、开箱即用的沙箱环境解决方案,协同ACK构建的Agent基础设施打造的安全、敏捷、可持续在线的生产级运行底座,成功支撑了“深度研究”和“通用Agent模式(OK Computer)”等产品的顺利上线,在高峰场景下实现了数万沙箱/分钟的极致弹性扩容能力,同时Pod启动时间缩短一半多。系统在大规模并发下保持稳定运行,同时极大地降低了任务响应延迟,有力提升了Kimi在模型后训练阶段的效率。

此外,通过常态算力与Serverless算力的智能调度策略,Kimi Agent的整体TCO成本大幅降低。使用实例休眠唤醒能力,也进一步降低了长周期Agent任务的资源持有成本。综合阿里云上丰富的PaaS及安全监控能力,这套基础设施方案不仅满足了当前复杂的Agent应用场景,更为未来构建更智能、更自主的AI系统奠定了坚实的技术基础,助力Kimi在AI Agent时代不断实现模型和产品的持续创新。

来源:阿里云公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赚中国人的钱,却扬言“不用中国人”,美国巨头终于把自己作死了

赚中国人的钱,却扬言“不用中国人”,美国巨头终于把自己作死了

小陆搞笑日常
2026-02-16 13:54:49
中国一游客在日本遭疯狂辱骂,对方多次让他滚出日本,视频太气人

中国一游客在日本遭疯狂辱骂,对方多次让他滚出日本,视频太气人

影像温度
2026-02-15 22:01:34
阿斯:穆帅赛季末离队不用支付违约金;他心里依然牵挂皇马

阿斯:穆帅赛季末离队不用支付违约金;他心里依然牵挂皇马

懂球帝
2026-02-16 16:50:57
又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

墨兰史书
2026-01-17 08:30:09
真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

吃瓜局
2025-11-11 16:23:49
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

泪满过眼
2026-02-16 23:12:02
马年春晚主持人状态好真实!刘心悦小虎牙抢镜,撒贝宁晒黑了

马年春晚主持人状态好真实!刘心悦小虎牙抢镜,撒贝宁晒黑了

萌神木木
2026-02-16 20:42:35
硒含量是洋葱的30倍,正大量上市!中老年人多吃它,手脚麻利。

硒含量是洋葱的30倍,正大量上市!中老年人多吃它,手脚麻利。

阿龙美食记
2026-01-25 14:20:28
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”!

送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”!

史鹷的生活科普
2026-02-14 17:49:47
闫学晶最愁的不是代言掉没掉,儿子上啥班,而是儿媳妇徐梦迪

闫学晶最愁的不是代言掉没掉,儿子上啥班,而是儿媳妇徐梦迪

冷紫葉
2026-01-23 15:34:10
就没有钱解决不了的事情吗?网友:钱可以解决99%穷人的问题

就没有钱解决不了的事情吗?网友:钱可以解决99%穷人的问题

带你感受人间冷暖
2026-01-26 00:10:10
短道速滑男子5000米接力半决赛:中国队小组第三,无缘A组决赛

短道速滑男子5000米接力半决赛:中国队小组第三,无缘A组决赛

懂球帝
2026-02-16 19:28:08
奔驰也顶不住了!中国区业绩崩盘,首位中国籍CEO黯然离任!

奔驰也顶不住了!中国区业绩崩盘,首位中国籍CEO黯然离任!

i王石头
2026-02-15 23:29:03
原来马斯克没说错,全球抢的不是芯片,而是中国20万一台的变压器

原来马斯克没说错,全球抢的不是芯片,而是中国20万一台的变压器

云上乌托邦
2026-01-22 13:10:38
“叶王陶”三人之中,此人与粟总素来不和,为何1958年却不肯借机发难?

“叶王陶”三人之中,此人与粟总素来不和,为何1958年却不肯借机发难?

史海孤雁
2026-02-05 17:02:17
出什么事了?美国摩根疯狂买入机器人唯一低估大龙头

出什么事了?美国摩根疯狂买入机器人唯一低估大龙头

财报翻译官
2026-02-16 12:40:07
人有钱没钱,一看便知:穷人的3大劣根性,藏都藏不住

人有钱没钱,一看便知:穷人的3大劣根性,藏都藏不住

第一桶金学派
2025-08-09 23:29:08
俄罗斯宣布,今年将首度公开斯大林与毛泽东的通信

俄罗斯宣布,今年将首度公开斯大林与毛泽东的通信

南权先生
2026-01-22 15:40:14
60岁杨利伟现状:被授予少将军衔,退休后不休息,享受的待遇如何

60岁杨利伟现状:被授予少将军衔,退休后不休息,享受的待遇如何

娱说瑜悦
2025-12-22 14:07:14
2026-02-17 05:56:49
阿里云云栖号
阿里云云栖号
阿里云官方内容社区!
3382文章数 963关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

健康
艺术
数码
房产
公开课

转头就晕的耳石症,能开车上班吗?

艺术要闻

名家笔下话过年,别有风味!

数码要闻

苹果可能多年不会对iPad Pro进行重大升级

房产要闻

三亚新机场,又传出新消息!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版