蚂蚁开源 Ring-1T，成就推理、编程、通用智能三冠王|算法|新模型|ring

蚂蚁开源 Ring-1T，成就推理、编程、通用智能三冠王

2025-10-24 12:58:43　来源: 雷峰网

北京举报

分享至

AI 能不能真正“动脑子”？这个问题有了新答案。

蚂蚁开源团队推出的 Ring-1T 模型，为这个长期存在的疑问提供了最具说服力的实证。不同于以往依赖海量数据“记忆”答案的语言模型，Ring-1T 试图让 AI 在复杂问题中真正“推理”出答案。

它通过强化学习与多阶段推理机制的结合，使模型能够在反馈中不断修正思路、优化逻辑路径，逐步形成更稳定、更接近人类思维的推理模式。

正是这种从“模仿”到“思考”的转变，让 Ring-1T 成为开源 AI 领域的一次里程碑式突破。接下来，让我们看看这项研究是如何实现的。

论文地址：https://arxiv.org/pdf/2510.18855

通用智能的火花

实验中 Ring-1T 模型在多个高难度推理与数学基准上进行了系统性评估，都取得了突破性的实验成果。作为一个开源的万亿参数思考型模型，Ring-1T 分别在推理、数学、编程及通用智能任务上均展现出卓越的综合能力。

在数学推理能力方面，Ring-1T 在 AIME-2025中取得 93.4 分的成绩，接近人类顶尖选手水平；在 HMMT-2025 中得分 86.72，显示其在跨领域数学推理与高复杂度逻辑演算中的强大能力；在 IMO-2025 模拟评测中达到银牌水平，证明模型能够在需要多步推理与创造性证明的问题中保持高准确率和稳定性。

在编程与算法能力上，模型在 Codeforces 平台测试中获得 2088 分，达到人类程序员的高水平区间。这表明 Ring-1T 不仅能够理解算法逻辑，还能在有限时间内生成高效、可执行的代码，具备良好的算法复杂度控制与问题分解能力。

在通用智能推理任务中，Ring-1T 在 ARC-AGI-v1 中取得 55.94 分，显著超越此前开源模型的平均表现。该结果表明，模型在抽象模式识别、思维迁移与多步认知推理方面具备接近通用人工智能的潜力。

总体而言，Ring-1T 在各项基准测试中表现出优异的稳定性与一致性，尤其在复杂推理与多步逻辑任务中未出现显著性能退化。与此前主要停留在百亿或千亿参数规模的开源模型相比，Ring-1T 在数学、推理与算法任务上全面刷新了开源模型的性能上限，成为新一代开源思考型模型的性能基准。

实验结果还表明，该模型的高性能得益于论文提出的三项关键技术：

IcePop 旨在提升强化学习训练的稳定性，解决训练与推理分布不一致的问题。它通过动态约束与梯度剪切，限制高熵样本的影响，并自适应调整温度参数，使模型在保持探索性的同时更稳定收敛，从而提高推理阶段的可靠性。

C3PO++ 专注于提升长序列推理和大规模 rollout 的效率。该方法采用动态分区和 token 预算机制，将推理过程划分为多个小批次，并利用持久化缓冲区续传未完成任务，有效提升 GPU 利用率和整体训练吞吐量。

而 ASystem 则是支撑万亿参数强化学习的分布式架构。它整合统一的训练与推理运行时、高效的显存管理、快速的参数同步以及安全的隔离执行环境，使大规模模型训练具备更高的并行性、稳定性与容错性。

算法与系统的共振

论文中体现的实验过程，主要以 Ring-1T 思考型模型为研究对象，研究人员设计了分阶段的训练体系，包括监督微调（SFT）、推理强化学习（Reasoning RL）和通用强化学习（General RL）。研究的主要突破集中在后两个阶段，通过引入 IcePop、C3PO++ 与 ASystem 等方法，实现了在大规模强化学习中的稳定训练与高效推理。

实验中，Ring-1T 模型的训练过程经过精心设计，以在万亿参数规模下同时保证稳定性和效率。团队在训练时采用 AdamW 优化器，其超参数设定为 β₁=0.9、β₂=0.999，权重衰减为 0.01；同时固定了 MoE路由器的偏置项，以保持参数更新的稳定。推理与采样阶段的设置在两个强化学习阶段中保持一致，KL 系数设为 0.0，采样温度为 1.0，以减少训练阶段与推理阶段分布不一致带来的偏差。

在强化学习阶段，Ring-1T 的性能提升主要依赖两项关键技术：IcePop 和 C3PO++。其中，IcePop 的目标是让训练过程更加稳定，避免模型在训练和推理阶段出现表现不一致的情况。

简单来说，它会在每次更新模型参数时，对不稳定或异常的样本进行“筛选”和“削弱”。具体做法是：计算训练阶段与推理阶段之间的概率差异，如果某个 token 的概率偏离太大，就会被部分“掩盖”或降低权重。这样可以防止模型在训练中因为极端样本而产生剧烈波动。

除此之外，IcePop 采用了参数 α=0.5、β=5.0 的范围，也就是只让概率比值处于 [0.5, 5.0] 的样本参与优化。研究人员还测试了不同范围的配置（如 [0.5, 2.0]、[0.4, 5.0]），结果表明默认参数在训练稳定性与性能之间达到了平衡。

而之后的 C3PO++ 则负责优化 rollout 过程，使训练在大规模分布式环境下更加高效，特别是在处理超长序列时。传统方法在遇到很长的推理样本时会拖慢整个训练进程，而 C3PO++ 通过“分段训练”和“并行续传”的方式解决了这个问题。

它设置了一个 token 预算（Φ），当生成的 token 数达到预算上限时，就会立即触发一次更新。系统分为两个池子：推理池（P_infer）不断生成新样本，训练池（Q_train）收集已经生成完成的样本并进行更新，这样推理和训练就可以同时进行。

为了防止某些特别长的序列占用资源，C3PO++ 还给每个样本设定了一个保留期（σ），超时未完成的样本会被清除。而那些还没生成完的样本则会在下一轮继续生成（即“跨迭代续传”）。通过这些机制，C3PO++ 能让训练过程更加流畅高效，不会因为个别长样本卡住整个系统。

总体来说，IcePop 让训练更稳，C3PO++ 让训练更快，两者结合，使 Ring-1T 能在万亿参数规模下保持高效、稳定的强化学习表现。

除此之外，为了让万亿参数的 Ring-1T 模型能够高效稳定地进行训练，研究团队还专门设计了一个分布式强化学习系统—— ASystem。它的核心目标是：在海量 GPU 和超大模型的条件下，让训练、推理和参数更新能够同时、高效地进行，而不会因为系统瓶颈导致中断或效率下降。

ASystem 采用一种叫 SingleController + SPMD 的并行架构。简单来说，就是用一个中央控制器来统一调度成千上万的计算节点，让每个节点都执行相同的训练流程，从而保证全系统的同步与高效协作。

整个系统由四个主要模块组成：

Hybrid Runtime：这是训练和推理的统一执行环境，负责同时管理模型训练和模型测试的计算任务，避免不同系统之间反复传输数据。

AMem：负责 GPU 显存的管理和数据传输。它可以在不同显卡之间切换内存、使用多条数据通道传输信息，并通过共享内存池减少显存占用，从而支持更大的批量训练而不会崩溃。

AState：负责在不同计算节点之间同步模型参数。它采用点对点（P2P）的高效传输方式，只同步必要的部分，能在大约 10 秒内完成万亿级参数的同步。

ASandbox：相当于一个安全的“实验沙盒”，用于执行代码生成、数学计算和逻辑验证等推理任务。它像“函数即服务”一样，可以在隔离环境中同时运行成千上万个推理请求。

在系统设计上，ASystem 将控制逻辑和数据流分离，使训练、推理和奖励计算模块都能独立运行。它还具有“快速失败与自动恢复”机制：如果某个节点出现问题，系统能自动检测并恢复运行，而不会影响整体训练进度。

通过这些设计，ASystem 让 Ring-1T 能够在成千 GPU 的大规模环境中稳定运行，实现高吞吐、高可靠的强化学习训练。雷峰网

开源智能的下一步

过去的模型大多依赖数据去模仿人类答案，但面对复杂推理或逻辑问题时容易出错。Ring-1T 的研究探索了一种新的思路 —— 通过强化学习让模型在反馈中不断调整自己的思考方式，逐步形成更稳定、更清晰的推理能力。

它的另一个意义在于证明了超大规模强化学习是可以实现的。以前这种规模的模型常常训练不稳、成本高、容易崩溃，而这项研究用新的算法和系统设计，找到了一种让万亿参数模型稳定训练的方法。这为后续更复杂、更自主的模型研究提供了可操作的经验。

从更长远的角度看，这项工作也让开源模型有机会在高层次智能上追上闭源系统。它或许不只是一次技术升级，而是让智能研究变得更开放、更有延续性的一步。雷峰网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.