网易首页 > 网易号 > 正文 申请入驻

打造全球首个强化学习云平台,九章云极是如何做到的?

0
分享至

机器之心报道

编辑:Panda

从 ChatGPT 引发的通用聊天机器人热潮,到如今正迅猛发展的智能体模型,AI 正在经历一次深刻的范式转变:从被动响应的「语言模型」,走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。

在这场转变中,强化学习(RL)正在重新登上舞台中央,成为驱动 AI 实现「感知-决策-行动」闭环乃至通用人工智能(AGI)的关键技术。

正如诺贝尔奖得主、DeepMind CEO Demis Hassabis 说的那样:「强化学习足以实现智能,因为这是所有哺乳动物(包括人类)的学习方式。」 强化学习之父、2024 年图灵奖得主 Richard Sutton 也在《经验时代》中写道:「通过构建强化学习的基础,并使其核心原则适应新时代的挑战,我们能够充分释放自主学习的潜力,为真正的超人(superhuman)智能铺平道路。」

然而,相比于预训练大模型,目前通常用于后训练大模型的强化学习存在自己独有的困难:不仅需要高频的数据交互和环境反馈,还要求大规模算力集群具备稳定、弹性的调度能力。而传统的云计算平台,大多仍以静态推理负载为主,难以适配强化学习训练中动态多阶段、资源高耦合的运行特性。

这一背景下,谁能率先打造出真正适配强化学习的大规模智能计算平台,谁就有机会在新一轮的 AI 基础设施竞争中占据高地。2025 年 6 月,九章云极正式发布业界首个工业级强化学习云平台 AgentiCTRL,这也是全球首个支持万卡级异构算力调度的强化学习基础设施平台

AgentiCTRL基于混合专家(MoE)架构,仅需极少代码即可完成 AI 智能体的训推流程,从而显著增强大模型推理能力。相比于传统强化学习方案,AgentiCTRL 可将端到端训练效率提升 500%,综合成本下降 60%。

在这个云服务纷纷向「AI 云原生」转型的时代,九章云极率先跑通了强化学习大规模云化的全链路路径,可以说是为更进一步的「智能体原生云」树立了行业新范式。

为什么是九章云极?

领先源自系统级重构

本质上讲, 强化学习是一个长期、动态、状态密集型的过程。要想训练一个能在现实世界中有效决策的智能体,所需的不止是简单的算力堆叠,而是一个涉及算力弹性、资源调度、策略反馈、任务编排、容错机制等多维系统设计的复杂工程。

面对这一挑战,九章云极并未沿袭传统云平台「横向扩 GPU」的简单思路,而是从架构底层出发,对强化学习训练流程进行了系统性重构。AgentiCTRL 平台的推出,正是这一重构的成果。

这里,我们重点看看 AgentiCTRL 的一些核心亮点。

首先,AgentiCTRL 实现了强化学习训练流程的极致简化

过去,部署一个强化学习训练流程往往需要数十行脚本、复杂的资源配置和节点编排。而在 AgentiCTRL 上,用户仅需极少代码即可启动完整的训练-推理-回传闭环

代码演示

这背后,是九章云极对环境模拟、策略执行、奖励反馈等复杂机制的深度封装与抽象。对于算法工程师而言,这意味着开发效率的数倍提升;对于企业客户而言,则意味着强化学习的真正可用、可控、可复制。

其次,AgentiCTRL 率先将 Serverless 架构原生融入了 RL 工作负载的训练平台

强化学习的计算需求高度不稳定:有的时间段 GPU 大量空转,有的时间段则需要瞬时扩容数百卡资源。传统的静态资源绑定方案,不仅浪费严重,也难以调度。AgentiCTRL 通过弹性算力编排,实现了资源的「按需即取、即用即还」,最大化资源利用率的同时,显著降低了训练成本。

更为关键的是,九章云极自研的异构算力操作系统与调度平台,让 AgentiCTRL 成为全球首个能稳定支持「万卡级」强化学习训练的平台。不论是高频交互带来的通信瓶颈,还是多节点分布式策略更新的同步难题,九章云极都在平台层实现了技术闭环。

这些能力也得到了实际验证。举个例子,使用 AgentiCTRL,九章云极针对颇具挑战性的 Computer Use 任务对基础模型 Qwen-VL-2.5-7B 进行了后训练,最终得到了智能体Alaya-UI

在这个过程中,AgentiCTRL 表现强劲,不仅降低了 37% 的训练耗时并提升了 25% 的 GPU 利用率,而且所需的人工介入次数也大幅下降了 90%。整体上看,成本下降了 60%

得到的 Alaya-UI 的性能也在基础模型的基础上大幅提升 —— 在 OSWorld 基准上,Alaya-UI 的任务完成率从 6.87% 跃升至 24.8%。

经过更多实验验证,AgentiCTRL 能将端到端训练效率提升 5 倍以上,而在同等任务规模下,其整体成本可下降 60%,堪称当前最具性价比的强化学习云平台

换句话说,九章云极不是在已有 AI 云平台之上「追加一个强化学习模块」,而是以强化学习为原生能力,重构了整个智能计算平台的架构与逻辑。

这正是九章云极能够走在行业前列的核心原因。

不止于平台

九章云极的智能基础设施战略布局

强化学习云平台只是表层,真正让九章云极在强化学习竞赛中跑在最前面的,是其对下一代 AI 云本质的前沿探索。

传统的云计算厂商,往往将 AI 能力作为「功能补丁」叠加在通用云之上,更多是在做资源分发和算力服务,更像是一种裸金属(bare metal)的供给模式。而九章云极的战略方向明确而清晰:强化学习不是一个云服务模块,而是未来 AI 云的操作系统级能力,是支撑智能体系统运行的调度中枢、学习引擎和演化机制。

可以说,九章云极前沿探索的核心是围绕智能体构建完整的原生云基础设施。这不仅包括支持强化学习的算力资源,更包括三层能力的同步建设:

  • 底层是软件定义的 AI 基础设施,其中包括异构算力资源、高性能分布式存储和高性能网络系统的统一调度与编排。
  • 中层是九章智算操作系统 Alaya NeW OS,是工作负载的抽象与调度逻辑层,其中包括 Serverless 架构 、AI 导向的数据中心架构、多 AIDC 训练架构、异构资源调度、 AI 原生 、分布式算网。
  • 上层则是九章智算云 Alaya NeW Cloud,其中包括大模型开发套件、大模型推理平台、强化学习云平台、弹性容器平台 VKS 和专享容器平台 DKS;它们共同组成了面向开发者、模型厂商、应用企业的 API 与工具链系统。

实际上,九章智算云不仅是九章云极强化学习平台的算力底座,更是其智能基础设施战略的核心支点。在强化学习仍被视为高门槛科研专属的当下,九章智算云以「1 度算力」为度量单位,率先提出普惠化 AI 计算标准,从资源调度方式、价格模型到工作负载适配方式,全面对齐智能体时代的训练需求。

不同于传统云厂商依赖 GPU 售卖或按卡计费的裸金属逻辑,九章智算云提供了真正按使用量计价的 serverless 架构,这不仅降低了门槛,更实质性打通了「人人可用 AI」的最后一公里。

正如图灵奖得主、「Artificial Intellgence」这一技术术语的提出者约翰・麦卡锡(John McCarthy)曾说过的那样:算力应该像水电资源一样随用随取。现在,九章智算云正在实践这一愿景。

而在调度能力方面,九章智算云通过自主研发的异构算力操作系统与 AI-native 的资源管理系统,实现了弹性调度+异构支持+多租户隔离的完备能力,成功突破「秒级生成百万级 token 」的性能瓶颈,并且其 GPU 利用率甚至可超过 95%,总拥有成本(TCO)相比传统方案降低达 60%,形成了明显的「性能/价格比」优势。

不仅如此,九章智算云在产业赋能上的落地表现也已具备规模优势,当前已在政务、金融、通信、制造、能源、交通、生物医药等多个关键行业实现部署,并支撑多个 RL 模型及智能体系统的在线训练与推理任务。在国内市场同类平台中,其智能体训练任务承载能力和调度效率长期保持领先,稳居强化学习云领域第一梯队

正是在这些能力的加持下,九章云极才得以在强化学习的产业化路径上率先跑通「从训练引擎到产业部署」的全流程闭环,并以此为基础,构建起属于自己的 AI 云原生生态护城河。

看起来,九章云极的战略视野并不局限于细节的技术层面,而是放眼未来 AI 的基础设施主导权:在大模型标准趋于同质化的今天,谁能主导智能体运行的「训练-反馈-部署」闭环平台,谁就能在下一代 AI 生态中占据支点位置。而九章云极,已经拥有自己的独特优势。

顺带一提,为了加速这一战略落地,九章云极还启动了「AI-STAR 企业生态联盟」,并与赛富投资基金等多家产业机构联合设立了「AI-STAR 智算生态基金」,首期投入 1.8 亿元,期望吸引算法公司、开源社区、行业客户共同参与强化学习平台的生态建设。这不仅为 AgentiCTRL 拓展了丰富的应用场景,也为智能体应用在金融、工业、能源等高价值行业的规模化落地提供了实践基础。

因此,AgentiCTRL 的发布并不是一个孤立事件,而是九章云极未来路线图中的关键一步。在这一逻辑下,平台能力、开发工具、生态伙伴、资本配置…… 正共同构成一个面向未来十年的智能计算战略。

强化学习云第一云!

是做出来的

当强化学习成为智能体模型训练的核心引擎,决定下一轮 AI 基础设施竞争胜负的,很可能是「可用」与「可规模化」之间的距离。

九章云极用 AgentiCTRL 平台证明,强化学习云的成功落地绝不仅仅是一次算力堆叠或平台加法,而是一场从底层架构到运行逻辑的系统性重建:支持万卡级异构调度、Serverless 弹性架构、强化学习工作负载原生抽象…… 这些综合起来就不再只是简单的优化,而是范式跃迁。

从客户视角看,这种跃迁可以带来直接而确定性的价值回报:

  • 开发门槛显著降低:无需自建环境、编排节点、维护资源,RL 训练变得像调用 API 一样简单;
  • 训练效率大幅提升:端到端性能可提升 5 倍;
  • 成本结构全面重塑:资源调度更高效,综合成本最多可下降 60%,让 RL 真正进入性价比可控区间。

更重要的是,九章云极从一开始就不是只做「RL 工具链供应商」,而是在构建一个支持智能体运行的操作系统级云平台

在未来,强化学习不会是「少数人的科研特权」,而将成为 AI 系统中的常规能力组件。谁能将它从实验室拉入工程化生产环境,谁就掌握了创造未来的先机。而九章云极,已经走在了前面。

当智能体原生时代真正到来,我们可能会重新回头审视这场转变的起点。而那时,我们会看到,九章云极及其创造的 AgentiCTRL 或许正是它最早的铺路者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
9人大乱斗!中国队两人晋级决赛却双双遇意外,林孝埈又被淘汰!

9人大乱斗!中国队两人晋级决赛却双双遇意外,林孝埈又被淘汰!

林子说事
2026-02-16 20:20:40
国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

混沌录
2025-11-06 23:45:04
以色列国防军准将:推翻伊朗毛拉政权已成为以色列的首要战略目标

以色列国防军准将:推翻伊朗毛拉政权已成为以色列的首要战略目标

老马拉车莫少装
2026-02-15 19:10:08
毛主席为何反对包产到户?真相揭开令人直呼:高瞻远瞩

毛主席为何反对包产到户?真相揭开令人直呼:高瞻远瞩

历史甄有趣
2026-02-15 14:55:05
网约车市场历史性崩盘:普通人最后退路,彻底堵死

网约车市场历史性崩盘:普通人最后退路,彻底堵死

流苏晚晴
2026-02-15 18:06:52
巴基斯坦总理夏巴兹送新春祝福:“Gong Xi Fa Cai!”

巴基斯坦总理夏巴兹送新春祝福:“Gong Xi Fa Cai!”

环球网资讯
2026-02-16 18:04:34
妈妈嫁给爸爸的理由有多简单粗暴?网友:我爹图我姥爷是县委书记

妈妈嫁给爸爸的理由有多简单粗暴?网友:我爹图我姥爷是县委书记

带你感受人间冷暖
2026-02-11 12:27:35
中国股市——2026年3月极具翻倍潜力的牛股名单!

中国股市——2026年3月极具翻倍潜力的牛股名单!

道说有财
2026-02-13 13:58:28
处决吴石,是蒋介石最后悔的决定,也是蒋家王朝走向没落的开始!

处决吴石,是蒋介石最后悔的决定,也是蒋家王朝走向没落的开始!

云霄纪史观
2026-01-28 18:01:15
英国亿万富翁阿尔菲·贝斯特二世皈依伊斯兰教

英国亿万富翁阿尔菲·贝斯特二世皈依伊斯兰教

达文西看世界
2026-02-10 14:55:04
博主请客却被吐槽,很委屈!网友:7人3个菜,水果还得朋友带?

博主请客却被吐槽,很委屈!网友:7人3个菜,水果还得朋友带?

另子维爱读史
2025-12-18 17:07:42
我军历史上的三支偏师,本来没有被寄予厚望,结果逆袭成主力部队

我军历史上的三支偏师,本来没有被寄予厚望,结果逆袭成主力部队

旧书卷里的长安
2026-02-14 22:08:46
万茜自曝上学时没人追,看清她的校服照后,网友:这谁敢追啊!

万茜自曝上学时没人追,看清她的校服照后,网友:这谁敢追啊!

背包旅行
2026-01-17 15:03:45
修鞋老翁为女孩修复假肢:成功省下万元费用,老人家属提出请求

修鞋老翁为女孩修复假肢:成功省下万元费用,老人家属提出请求

不写散文诗
2026-02-14 18:50:47
美财长紧急飞往北京!真实目的竟是为这事低头求情

美财长紧急飞往北京!真实目的竟是为这事低头求情

吃货的分享
2026-02-15 15:58:59
郑智携8教练上任,黄博文辅助 西海岸签4大U21新星 培养下个李昊

郑智携8教练上任,黄博文辅助 西海岸签4大U21新星 培养下个李昊

替补席看球
2026-02-16 15:43:14
上海为什么要让外环变高架?

上海为什么要让外环变高架?

苗苗情感说
2026-02-16 19:50:25
德媒:要不是中国把所有脏活累活全给干了,欧洲今天也不会这么惨

德媒:要不是中国把所有脏活累活全给干了,欧洲今天也不会这么惨

明天见灌装冰块
2026-02-15 22:55:29
刘涛这状态太好了,一个快50岁的人,开始逆生长了,真是让人羡慕

刘涛这状态太好了,一个快50岁的人,开始逆生长了,真是让人羡慕

可乐谈情感
2026-02-12 00:08:01
孙悟空为何不学更强的36变?不是他不想学,你看猪八戒是怎么说的

孙悟空为何不学更强的36变?不是他不想学,你看猪八戒是怎么说的

掠影后有感
2025-11-15 11:12:23
2026-02-16 22:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12312文章数 142567关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

伊朗抛出新谈判手段:联合开发油气田 采购美民用飞机

头条要闻

伊朗抛出新谈判手段:联合开发油气田 采购美民用飞机

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

2026春晚开始 蔡明和机器人蔡明同框

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

教育
家居
游戏
数码
手机

教育要闻

国家急需20万“造芯人”!高中生选对这5个专业,毕业即抢手

家居要闻

中古雅韵 乐韵伴日常

战神新作立功了!索尼2月发布会热度破纪录

数码要闻

荣耀介绍 MagicPad 3 Pro「极客中心」,开放核心底层调校能力

手机要闻

苹果官网下线iWork介绍页,iOS 26升级率公布

无障碍浏览 进入关怀版