网易首页 > 网易号 > 正文 申请入驻

打造全球首个强化学习云平台,九章云极是如何做到的?

0
分享至

机器之心报道

编辑:Panda

从 ChatGPT 引发的通用聊天机器人热潮,到如今正迅猛发展的智能体模型,AI 正在经历一次深刻的范式转变:从被动响应的「语言模型」,走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。

在这场转变中,强化学习(RL)正在重新登上舞台中央,成为驱动 AI 实现「感知-决策-行动」闭环乃至通用人工智能(AGI)的关键技术。

正如诺贝尔奖得主、DeepMind CEO Demis Hassabis 说的那样:「强化学习足以实现智能,因为这是所有哺乳动物(包括人类)的学习方式。」 强化学习之父、2024 年图灵奖得主 Richard Sutton 也在《经验时代》中写道:「通过构建强化学习的基础,并使其核心原则适应新时代的挑战,我们能够充分释放自主学习的潜力,为真正的超人(superhuman)智能铺平道路。」

然而,相比于预训练大模型,目前通常用于后训练大模型的强化学习存在自己独有的困难:不仅需要高频的数据交互和环境反馈,还要求大规模算力集群具备稳定、弹性的调度能力。而传统的云计算平台,大多仍以静态推理负载为主,难以适配强化学习训练中动态多阶段、资源高耦合的运行特性。

这一背景下,谁能率先打造出真正适配强化学习的大规模智能计算平台,谁就有机会在新一轮的 AI 基础设施竞争中占据高地。2025 年 6 月,九章云极正式发布业界首个工业级强化学习云平台 AgentiCTRL,这也是全球首个支持万卡级异构算力调度的强化学习基础设施平台

AgentiCTRL基于混合专家(MoE)架构,仅需极少代码即可完成 AI 智能体的训推流程,从而显著增强大模型推理能力。相比于传统强化学习方案,AgentiCTRL 可将端到端训练效率提升 500%,综合成本下降 60%。

在这个云服务纷纷向「AI 云原生」转型的时代,九章云极率先跑通了强化学习大规模云化的全链路路径,可以说是为更进一步的「智能体原生云」树立了行业新范式。

为什么是九章云极?

领先源自系统级重构

本质上讲, 强化学习是一个长期、动态、状态密集型的过程。要想训练一个能在现实世界中有效决策的智能体,所需的不止是简单的算力堆叠,而是一个涉及算力弹性、资源调度、策略反馈、任务编排、容错机制等多维系统设计的复杂工程。

面对这一挑战,九章云极并未沿袭传统云平台「横向扩 GPU」的简单思路,而是从架构底层出发,对强化学习训练流程进行了系统性重构。AgentiCTRL 平台的推出,正是这一重构的成果。

这里,我们重点看看 AgentiCTRL 的一些核心亮点。

首先,AgentiCTRL 实现了强化学习训练流程的极致简化

过去,部署一个强化学习训练流程往往需要数十行脚本、复杂的资源配置和节点编排。而在 AgentiCTRL 上,用户仅需极少代码即可启动完整的训练-推理-回传闭环

代码演示

这背后,是九章云极对环境模拟、策略执行、奖励反馈等复杂机制的深度封装与抽象。对于算法工程师而言,这意味着开发效率的数倍提升;对于企业客户而言,则意味着强化学习的真正可用、可控、可复制。

其次,AgentiCTRL 率先将 Serverless 架构原生融入了 RL 工作负载的训练平台

强化学习的计算需求高度不稳定:有的时间段 GPU 大量空转,有的时间段则需要瞬时扩容数百卡资源。传统的静态资源绑定方案,不仅浪费严重,也难以调度。AgentiCTRL 通过弹性算力编排,实现了资源的「按需即取、即用即还」,最大化资源利用率的同时,显著降低了训练成本。

更为关键的是,九章云极自研的异构算力操作系统与调度平台,让 AgentiCTRL 成为全球首个能稳定支持「万卡级」强化学习训练的平台。不论是高频交互带来的通信瓶颈,还是多节点分布式策略更新的同步难题,九章云极都在平台层实现了技术闭环。

这些能力也得到了实际验证。举个例子,使用 AgentiCTRL,九章云极针对颇具挑战性的 Computer Use 任务对基础模型 Qwen-VL-2.5-7B 进行了后训练,最终得到了智能体Alaya-UI

在这个过程中,AgentiCTRL 表现强劲,不仅降低了 37% 的训练耗时并提升了 25% 的 GPU 利用率,而且所需的人工介入次数也大幅下降了 90%。整体上看,成本下降了 60%

得到的 Alaya-UI 的性能也在基础模型的基础上大幅提升 —— 在 OSWorld 基准上,Alaya-UI 的任务完成率从 6.87% 跃升至 24.8%。

经过更多实验验证,AgentiCTRL 能将端到端训练效率提升 5 倍以上,而在同等任务规模下,其整体成本可下降 60%,堪称当前最具性价比的强化学习云平台

换句话说,九章云极不是在已有 AI 云平台之上「追加一个强化学习模块」,而是以强化学习为原生能力,重构了整个智能计算平台的架构与逻辑。

这正是九章云极能够走在行业前列的核心原因。

不止于平台

九章云极的智能基础设施战略布局

强化学习云平台只是表层,真正让九章云极在强化学习竞赛中跑在最前面的,是其对下一代 AI 云本质的前沿探索。

传统的云计算厂商,往往将 AI 能力作为「功能补丁」叠加在通用云之上,更多是在做资源分发和算力服务,更像是一种裸金属(bare metal)的供给模式。而九章云极的战略方向明确而清晰:强化学习不是一个云服务模块,而是未来 AI 云的操作系统级能力,是支撑智能体系统运行的调度中枢、学习引擎和演化机制。

可以说,九章云极前沿探索的核心是围绕智能体构建完整的原生云基础设施。这不仅包括支持强化学习的算力资源,更包括三层能力的同步建设:

  • 底层是软件定义的 AI 基础设施,其中包括异构算力资源、高性能分布式存储和高性能网络系统的统一调度与编排。
  • 中层是九章智算操作系统 Alaya NeW OS,是工作负载的抽象与调度逻辑层,其中包括 Serverless 架构 、AI 导向的数据中心架构、多 AIDC 训练架构、异构资源调度、 AI 原生 、分布式算网。
  • 上层则是九章智算云 Alaya NeW Cloud,其中包括大模型开发套件、大模型推理平台、强化学习云平台、弹性容器平台 VKS 和专享容器平台 DKS;它们共同组成了面向开发者、模型厂商、应用企业的 API 与工具链系统。

实际上,九章智算云不仅是九章云极强化学习平台的算力底座,更是其智能基础设施战略的核心支点。在强化学习仍被视为高门槛科研专属的当下,九章智算云以「1 度算力」为度量单位,率先提出普惠化 AI 计算标准,从资源调度方式、价格模型到工作负载适配方式,全面对齐智能体时代的训练需求。

不同于传统云厂商依赖 GPU 售卖或按卡计费的裸金属逻辑,九章智算云提供了真正按使用量计价的 serverless 架构,这不仅降低了门槛,更实质性打通了「人人可用 AI」的最后一公里。

正如图灵奖得主、「Artificial Intellgence」这一技术术语的提出者约翰・麦卡锡(John McCarthy)曾说过的那样:算力应该像水电资源一样随用随取。现在,九章智算云正在实践这一愿景。

而在调度能力方面,九章智算云通过自主研发的异构算力操作系统与 AI-native 的资源管理系统,实现了弹性调度+异构支持+多租户隔离的完备能力,成功突破「秒级生成百万级 token 」的性能瓶颈,并且其 GPU 利用率甚至可超过 95%,总拥有成本(TCO)相比传统方案降低达 60%,形成了明显的「性能/价格比」优势。

不仅如此,九章智算云在产业赋能上的落地表现也已具备规模优势,当前已在政务、金融、通信、制造、能源、交通、生物医药等多个关键行业实现部署,并支撑多个 RL 模型及智能体系统的在线训练与推理任务。在国内市场同类平台中,其智能体训练任务承载能力和调度效率长期保持领先,稳居强化学习云领域第一梯队

正是在这些能力的加持下,九章云极才得以在强化学习的产业化路径上率先跑通「从训练引擎到产业部署」的全流程闭环,并以此为基础,构建起属于自己的 AI 云原生生态护城河。

看起来,九章云极的战略视野并不局限于细节的技术层面,而是放眼未来 AI 的基础设施主导权:在大模型标准趋于同质化的今天,谁能主导智能体运行的「训练-反馈-部署」闭环平台,谁就能在下一代 AI 生态中占据支点位置。而九章云极,已经拥有自己的独特优势。

顺带一提,为了加速这一战略落地,九章云极还启动了「AI-STAR 企业生态联盟」,并与赛富投资基金等多家产业机构联合设立了「AI-STAR 智算生态基金」,首期投入 1.8 亿元,期望吸引算法公司、开源社区、行业客户共同参与强化学习平台的生态建设。这不仅为 AgentiCTRL 拓展了丰富的应用场景,也为智能体应用在金融、工业、能源等高价值行业的规模化落地提供了实践基础。

因此,AgentiCTRL 的发布并不是一个孤立事件,而是九章云极未来路线图中的关键一步。在这一逻辑下,平台能力、开发工具、生态伙伴、资本配置…… 正共同构成一个面向未来十年的智能计算战略。

强化学习云第一云!

是做出来的

当强化学习成为智能体模型训练的核心引擎,决定下一轮 AI 基础设施竞争胜负的,很可能是「可用」与「可规模化」之间的距离。

九章云极用 AgentiCTRL 平台证明,强化学习云的成功落地绝不仅仅是一次算力堆叠或平台加法,而是一场从底层架构到运行逻辑的系统性重建:支持万卡级异构调度、Serverless 弹性架构、强化学习工作负载原生抽象…… 这些综合起来就不再只是简单的优化,而是范式跃迁。

从客户视角看,这种跃迁可以带来直接而确定性的价值回报:

  • 开发门槛显著降低:无需自建环境、编排节点、维护资源,RL 训练变得像调用 API 一样简单;
  • 训练效率大幅提升:端到端性能可提升 5 倍;
  • 成本结构全面重塑:资源调度更高效,综合成本最多可下降 60%,让 RL 真正进入性价比可控区间。

更重要的是,九章云极从一开始就不是只做「RL 工具链供应商」,而是在构建一个支持智能体运行的操作系统级云平台

在未来,强化学习不会是「少数人的科研特权」,而将成为 AI 系统中的常规能力组件。谁能将它从实验室拉入工程化生产环境,谁就掌握了创造未来的先机。而九章云极,已经走在了前面。

当智能体原生时代真正到来,我们可能会重新回头审视这场转变的起点。而那时,我们会看到,九章云极及其创造的 AgentiCTRL 或许正是它最早的铺路者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

健康之光
2026-03-26 16:00:06
新加坡前总理大胆预言:中国已经“老”了,将来经济会被印度超越

新加坡前总理大胆预言:中国已经“老”了,将来经济会被印度超越

混沌录
2026-04-19 13:44:13
专家警告:每天吃一根香蕉,就等于给心脏“踩刹车”?真相来了

专家警告:每天吃一根香蕉,就等于给心脏“踩刹车”?真相来了

路医生健康科普
2026-04-05 11:20:07
悲剧还是发生了!近日,安徽一女子同房后,肚子很疼,黄体破裂!

悲剧还是发生了!近日,安徽一女子同房后,肚子很疼,黄体破裂!

川渝视觉
2026-04-18 21:37:48
赵丽颖难忘旧爱冯绍峰!直接扑倒王仁君,侧面看与冯绍峰有几分相似

赵丽颖难忘旧爱冯绍峰!直接扑倒王仁君,侧面看与冯绍峰有几分相似

八卦王者
2026-04-19 11:20:51
中国机车狂飙荷兰:张雪机车虽然只得第四名,却比金牌还硬核!

中国机车狂飙荷兰:张雪机车虽然只得第四名,却比金牌还硬核!

古月明
2026-04-19 11:05:43
蔡磊妻子段睿半夜悲痛发文:明知没有机会了,偏要赌他会等我回来

蔡磊妻子段睿半夜悲痛发文:明知没有机会了,偏要赌他会等我回来

乐天闲聊
2026-04-19 07:05:22
决裂?姆巴佩硬刚皇马!拒绝克洛普执教,力挺一人入主

决裂?姆巴佩硬刚皇马!拒绝克洛普执教,力挺一人入主

奶盖熊本熊
2026-04-19 00:32:00
法国情侣在泰国海滩“啪啪啪”,被捕后遮脸!当地人怒了!

法国情侣在泰国海滩“啪啪啪”,被捕后遮脸!当地人怒了!

新欧洲
2026-04-18 17:15:30
脸上突然出现这3道横纹,表明你的心脏,正在向你发出警报

脸上突然出现这3道横纹,表明你的心脏,正在向你发出警报

新浪财经
2026-04-19 01:37:22
不退役了?勇士4冠功臣预计回归,年薪创纪录,阻碍开拓者引援!

不退役了?勇士4冠功臣预计回归,年薪创纪录,阻碍开拓者引援!

你的篮球频道
2026-04-19 17:14:51
丞磊广东老家被公开,2层别墅外墙掉漆老旧,父母是工人家境普通

丞磊广东老家被公开,2层别墅外墙掉漆老旧,父母是工人家境普通

阿握聊事
2026-04-18 01:12:21
蔡磊妻子段睿悲痛发文:我是混蛋,明知没机会了,偏赌他能等等我

蔡磊妻子段睿悲痛发文:我是混蛋,明知没机会了,偏赌他能等等我

爱写的樱桃
2026-04-19 20:12:57
特朗普称自己是“和平缔造者”:算上伊朗和黎巴嫩,我平息了十场战争

特朗普称自己是“和平缔造者”:算上伊朗和黎巴嫩,我平息了十场战争

潇湘晨报
2026-04-19 10:34:10
中方接到消息,高市通告时机已到,日本掀桌,5500枚核弹原料就位

中方接到消息,高市通告时机已到,日本掀桌,5500枚核弹原料就位

南宗历史
2026-04-15 02:46:17
蒋介石死后,无儿无女的宋美龄,靠什么在美国过了28年奢华生活

蒋介石死后,无儿无女的宋美龄,靠什么在美国过了28年奢华生活

牛牛叨史
2025-11-26 01:39:31
任泽平退款730万:价值4500万的恒大花瓶

任泽平退款730万:价值4500万的恒大花瓶

超先声
2026-04-17 16:34:01
正式退出,杜兰特发声,官宣决定,原因曝光,名帅透露火箭队批准

正式退出,杜兰特发声,官宣决定,原因曝光,名帅透露火箭队批准

漫川舟船
2026-04-19 17:02:18
郭昊文11中1赛季最差!新疆34分狂胜同曦 齐麟20分纳托尔准三双

郭昊文11中1赛季最差!新疆34分狂胜同曦 齐麟20分纳托尔准三双

醉卧浮生
2026-04-19 21:50:27
4月20日精选热点:商业航天再传新利好,这些核心龙头要大涨

4月20日精选热点:商业航天再传新利好,这些核心龙头要大涨

元芳说投资
2026-04-19 21:04:16
2026-04-20 01:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12795文章数 142632关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

艺术
本地
房产
公开课
军事航空

艺术要闻

超模施特洛耶克写真曝光,简直美到窒息,别错过!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗逼退美扫雷艇:美方求给15分钟撤退

无障碍浏览 进入关怀版