网易首页 > 网易号 > 正文 申请入驻

蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王

0
分享至

AI 能不能真正“动脑子”?这个问题有了新答案。

蚂蚁开源团队推出的 Ring-1T 模型,为这个长期存在的疑问提供了最具说服力的实证。不同于以往依赖海量数据“记忆”答案的语言模型,Ring-1T 试图让 AI 在复杂问题中真正“推理”出答案。

它通过强化学习与多阶段推理机制的结合,使模型能够在反馈中不断修正思路、优化逻辑路径,逐步形成更稳定、更接近人类思维的推理模式。

正是这种从“模仿”到“思考”的转变,让 Ring-1T 成为开源 AI 领域的一次里程碑式突破。接下来,让我们看看这项研究是如何实现的。


论文地址:https://arxiv.org/pdf/2510.18855

通用智能的火花

实验中 Ring-1T 模型在多个高难度推理与数学基准上进行了系统性评估,都取得了突破性的实验成果。作为一个开源的万亿参数思考型模型,Ring-1T 分别在推理、数学、编程及通用智能任务上均展现出卓越的综合能力。

在数学推理能力方面,Ring-1T 在 AIME-2025中取得 93.4 分的成绩,接近人类顶尖选手水平;在 HMMT-2025 中得分 86.72,显示其在跨领域数学推理与高复杂度逻辑演算中的强大能力;在 IMO-2025 模拟评测中达到银牌水平,证明模型能够在需要多步推理与创造性证明的问题中保持高准确率和稳定性。


在编程与算法能力上,模型在 Codeforces 平台测试中获得 2088 分,达到人类程序员的高水平区间。这表明 Ring-1T 不仅能够理解算法逻辑,还能在有限时间内生成高效、可执行的代码,具备良好的算法复杂度控制与问题分解能力。


在通用智能推理任务中,Ring-1T 在 ARC-AGI-v1 中取得 55.94 分,显著超越此前开源模型的平均表现。该结果表明,模型在抽象模式识别、思维迁移与多步认知推理方面具备接近通用人工智能的潜力。

总体而言,Ring-1T 在各项基准测试中表现出优异的稳定性与一致性,尤其在复杂推理与多步逻辑任务中未出现显著性能退化。与此前主要停留在百亿或千亿参数规模的开源模型相比,Ring-1T 在数学、推理与算法任务上全面刷新了开源模型的性能上限,成为新一代开源思考型模型的性能基准。


实验结果还表明,该模型的高性能得益于论文提出的三项关键技术:

IcePop 旨在提升强化学习训练的稳定性,解决训练与推理分布不一致的问题。它通过动态约束与梯度剪切,限制高熵样本的影响,并自适应调整温度参数,使模型在保持探索性的同时更稳定收敛,从而提高推理阶段的可靠性。


C3PO++ 专注于提升长序列推理和大规模 rollout 的效率。该方法采用动态分区和 token 预算机制,将推理过程划分为多个小批次,并利用持久化缓冲区续传未完成任务,有效提升 GPU 利用率和整体训练吞吐量。


而 ASystem 则是支撑万亿参数强化学习的分布式架构。它整合统一的训练与推理运行时、高效的显存管理、快速的参数同步以及安全的隔离执行环境,使大规模模型训练具备更高的并行性、稳定性与容错性。

算法与系统的共振

论文中体现的实验过程,主要以 Ring-1T 思考型模型 为研究对象,研究人员设计了分阶段的训练体系,包括 监督微调(SFT)、推理强化学习(Reasoning RL) 和 通用强化学习(General RL)。研究的主要突破集中在后两个阶段,通过引入 IcePop、C3PO++ 与 ASystem 等方法,实现了在大规模强化学习中的稳定训练与高效推理。


实验中,Ring-1T 模型的训练过程经过精心设计,以在万亿参数规模下同时保证稳定性和效率。团队在训练时采用 AdamW 优化器,其超参数设定为 β₁=0.9、β₂=0.999,权重衰减为 0.01;同时固定了 MoE路由器的偏置项,以保持参数更新的稳定。推理与采样阶段的设置在两个强化学习阶段中保持一致,KL 系数设为 0.0,采样温度为 1.0,以减少训练阶段与推理阶段分布不一致带来的偏差。

在强化学习阶段,Ring-1T 的性能提升主要依赖两项关键技术:IcePop 和 C3PO++。其中,IcePop 的目标是让训练过程更加稳定,避免模型在训练和推理阶段出现表现不一致的情况。

简单来说,它会在每次更新模型参数时,对不稳定或异常的样本进行“筛选”和“削弱”。具体做法是:计算训练阶段与推理阶段之间的概率差异,如果某个 token 的概率偏离太大,就会被部分“掩盖”或降低权重。这样可以防止模型在训练中因为极端样本而产生剧烈波动。

除此之外,IcePop 采用了参数 α=0.5、β=5.0 的范围,也就是只让概率比值处于 [0.5, 5.0] 的样本参与优化。研究人员还测试了不同范围的配置(如 [0.5, 2.0]、[0.4, 5.0]),结果表明默认参数在训练稳定性与性能之间达到了平衡。


而之后的 C3PO++ 则负责优化 rollout 过程,使训练在大规模分布式环境下更加高效,特别是在处理超长序列时。传统方法在遇到很长的推理样本时会拖慢整个训练进程,而 C3PO++ 通过“分段训练”和“并行续传”的方式解决了这个问题。

它设置了一个 token 预算(Φ),当生成的 token 数达到预算上限时,就会立即触发一次更新。系统分为两个池子:推理池(P_infer) 不断生成新样本,训练池(Q_train) 收集已经生成完成的样本并进行更新,这样推理和训练就可以同时进行。

为了防止某些特别长的序列占用资源,C3PO++ 还给每个样本设定了一个 保留期(σ),超时未完成的样本会被清除。而那些还没生成完的样本则会在下一轮继续生成(即“跨迭代续传”)。通过这些机制,C3PO++ 能让训练过程更加流畅高效,不会因为个别长样本卡住整个系统。

总体来说,IcePop 让训练更稳,C3PO++ 让训练更快,两者结合,使 Ring-1T 能在万亿参数规模下保持高效、稳定的强化学习表现。


除此之外,为了让万亿参数的 Ring-1T 模型能够高效稳定地进行训练,研究团队还专门设计了一个分布式强化学习系统—— ASystem。它的核心目标是:在海量 GPU 和超大模型的条件下,让训练、推理和参数更新能够同时、高效地进行,而不会因为系统瓶颈导致中断或效率下降。

ASystem 采用一种叫 SingleController + SPMD 的并行架构。简单来说,就是用一个中央控制器来统一调度成千上万的计算节点,让每个节点都执行相同的训练流程,从而保证全系统的同步与高效协作。

整个系统由四个主要模块组成:

Hybrid Runtime:这是训练和推理的统一执行环境,负责同时管理模型训练和模型测试的计算任务,避免不同系统之间反复传输数据。

AMem:负责 GPU 显存的管理和数据传输。它可以在不同显卡之间切换内存、使用多条数据通道传输信息,并通过共享内存池减少显存占用,从而支持更大的批量训练而不会崩溃。

AState:负责在不同计算节点之间同步模型参数。它采用点对点(P2P)的高效传输方式,只同步必要的部分,能在大约 10 秒内完成万亿级参数的同步。

ASandbox:相当于一个安全的“实验沙盒”,用于执行代码生成、数学计算和逻辑验证等推理任务。它像“函数即服务”一样,可以在隔离环境中同时运行成千上万个推理请求。

在系统设计上,ASystem 将控制逻辑和数据流分离,使训练、推理和奖励计算模块都能独立运行。它还具有“快速失败与自动恢复”机制:如果某个节点出现问题,系统能自动检测并恢复运行,而不会影响整体训练进度。

通过这些设计,ASystem 让 Ring-1T 能够在成千 GPU 的大规模环境中稳定运行,实现高吞吐、高可靠的强化学习训练。雷峰网


开源智能的下一步

过去的模型大多依赖数据去模仿人类答案,但面对复杂推理或逻辑问题时容易出错。Ring-1T 的研究探索了一种新的思路 —— 通过强化学习让模型在反馈中不断调整自己的思考方式,逐步形成更稳定、更清晰的推理能力。

它的另一个意义在于证明了超大规模强化学习是可以实现的。以前这种规模的模型常常训练不稳、成本高、容易崩溃,而这项研究用新的算法和系统设计,找到了一种让万亿参数模型稳定训练的方法。这为后续更复杂、更自主的模型研究提供了可操作的经验。

从更长远的角度看,这项工作也让开源模型有机会在高层次智能上追上闭源系统。它或许不只是一次技术升级,而是让智能研究变得更开放、更有延续性的一步。雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内蒙古黑老大易连峰,酒店调戏游玩女子,不料惹到大人物就此覆灭

内蒙古黑老大易连峰,酒店调戏游玩女子,不料惹到大人物就此覆灭

青青会讲故事
2024-10-10 17:09:30
曹操墓前堆成山的布洛芬,是这届年轻人最野的"历史梗"

曹操墓前堆成山的布洛芬,是这届年轻人最野的"历史梗"

小豫讲故事
2025-10-27 11:50:08
上海老人地铁强行坐女生腿上,他还不知道自己捅了多大篓子!

上海老人地铁强行坐女生腿上,他还不知道自己捅了多大篓子!

娱乐圈的笔娱君
2025-11-02 14:40:50
三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

封面新闻
2025-11-02 12:57:02
男单决赛对阵!奥运亚军4:1晋级决赛,战胜过王楚钦,与日本争冠

男单决赛对阵!奥运亚军4:1晋级决赛,战胜过王楚钦,与日本争冠

国乒二三事
2025-11-02 21:29:16
许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

许世友正喝酒来电话,问:我是上将许世友你是谁?答:小兵周恩来

良工说
2025-09-04 00:53:34
蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

蛙斯基娱乐中
2025-10-27 00:27:29
詹姆斯祝贺!道奇4-3蓝鸟夺世界大赛第9冠 日本山本由伸MVP

詹姆斯祝贺!道奇4-3蓝鸟夺世界大赛第9冠 日本山本由伸MVP

醉卧浮生
2025-11-02 13:17:10
世体:恩德里克本赛季首次为皇马出战,但仍将在冬窗租借离队

世体:恩德里克本赛季首次为皇马出战,但仍将在冬窗租借离队

懂球帝
2025-11-02 22:55:03
北京金鼎轩一根油条卖39元?工作人员称“个头大够两人吃”,市监局回应

北京金鼎轩一根油条卖39元?工作人员称“个头大够两人吃”,市监局回应

大峰
2025-11-02 10:27:19
饶漱石在华野没有职务,淮海战前,为何被称作“华野全军政委”?

饶漱石在华野没有职务,淮海战前,为何被称作“华野全军政委”?

春秋砚
2025-11-02 18:00:03
耳光大赛中被KO+陷入昏迷!中国武术大师颧骨骨裂缝5针 还要打5场

耳光大赛中被KO+陷入昏迷!中国武术大师颧骨骨裂缝5针 还要打5场

风过乡
2025-11-02 09:37:26
“会打扮”和“不会打扮”的地铁奶奶:差别有多大?看对比就知道

“会打扮”和“不会打扮”的地铁奶奶:差别有多大?看对比就知道

白宸侃片
2025-10-27 00:26:08
美国人:中国在空间站造出稀有金属,才解决了六代机航发大难题?

美国人:中国在空间站造出稀有金属,才解决了六代机航发大难题?

Thurman在昆明
2025-11-02 01:10:37
看哭了!舅舅18岁开始抚养三个外甥,九年时间感动全网!

看哭了!舅舅18岁开始抚养三个外甥,九年时间感动全网!

晓踏就是我
2025-11-02 16:55:18
何祚庥:我对核聚变研究的质疑,就是向杨振宁先生这样的先贤学习

何祚庥:我对核聚变研究的质疑,就是向杨振宁先生这样的先贤学习

怀疑探索者
2025-11-02 21:29:01
又一则励志新闻翻车了!

又一则励志新闻翻车了!

清书先生
2025-10-21 15:51:40
一字之差,从总指挥长到指挥长,我国载人航天发射发生了哪些变化

一字之差,从总指挥长到指挥长,我国载人航天发射发生了哪些变化

Thurman在昆明
2025-11-01 14:44:54
俄乌冲突迎来大结局?最大罪人已浮现,泽连斯基终于等来美方信号

俄乌冲突迎来大结局?最大罪人已浮现,泽连斯基终于等来美方信号

健身狂人
2025-10-31 14:55:35
市监局办公室副主任周日值班当天猝死不予认定工伤,家属起诉人社局、县政府 法院判了

市监局办公室副主任周日值班当天猝死不予认定工伤,家属起诉人社局、县政府 法院判了

红星新闻
2025-10-07 21:50:15
2025-11-03 00:27:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
67692文章数 655920关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

旅游
本地
时尚
家居
公开课

旅游要闻

“诗和远方”并不远!青海·海西生态旅游宣传推介会走进广州

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

最近很火的发型,原来这么简单!

家居要闻

吸睛艺术 富有传奇色彩

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版