网易首页 > 网易号 > 正文 申请入驻

攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0

0
分享至

机器之心发布

机器之心编辑部

“MoE+Long-CoT(长思维链)+RL(强化学习)” 这条技术路线存在难以兼顾训练稳定性和效果的难题。9 月 19 日,蚂蚁百灵大模型团队把 “难啃的骨头” 直接做成开源礼包 ——Ring-flash-2.0。100B 总参、6.1B 激活,数学 AIME25 拿下 86.98 分,CodeForces elo 分数 90.23,128K 上下文实测 200+token/s。

更关键的是,他们通过独创的棒冰(icepop)算法和长周期的 RL 训练,Ring-flash-2.0 在多项推理榜单上(数学、代码和逻辑推理)取得了显著突破,性能达到了 40B 以内 dense 模型的 SOTA 水平,甚至可与参数量更大的 MoE 模型相媲美。

Ring-flash-2.0 性能表现

机器之心深度拆解,这一开源项目,为什么可能改写下一阶段大模型的竞争节奏。

一、从 “不能用” 到 “敢开源”:MoE 长思考的临界点

2025 年,业内流行一张 “死亡曲线”:在长思维链场景下,MoE 模型 RL 训练存在奖励崩溃的问题。于是大家只能把学习率调小、任务提前终止,无法继续训练。

棒冰(icepop)算法:让 RL 进行长周期的稳定训练

Ring-flash-2.0 的破冰点在于 “棒冰(icepop)”:双向截断 + 掩码修正,一句话总结 ——“把训推精度差异过大的 token 当场冻住,不让它回传梯度”。

最终,icepop能够保持稳定的强化学习训练过程,避免了 GRPO 出现的训练崩溃问题。

左图为 GRPO 训练到 180-200 步开始崩溃,icepop 能实现持续稳定提升; 右图为 GRPO 训练不久出现梯度爆炸,icepop 能持续稳定在合理范围。

与 GRPO 相比,icepop 还将训推精度差异约束在合理范围内,显示出对于控制训推精度差异有效性

左图为 GRPO 训推精度差异随着训练成指数上升,icepop 较为平稳;右图为训推精度差异最大值,GRPO 随着训练上升非常明显,icepop 维持在较低水位。

效果肉眼可见:训练再也不崩,百灵团队内部笑称,“终于不用担心训练无法长跑的问题”。

详细的棒冰(icepop)算法介绍参考技术博客:https://ringtech.notion.site/icepop

Two-staged RL:先 “算对”,再 “像人”

百灵大模型团队首先采用 Long-CoT SFT,采用包含数学、代码、逻辑和科学四大领域为主体的多学科高质量推理数据集,让模型 “学会思考”;第二步,通过可验证奖励的 RLVR(Reinforcement Learning with Verifiable Rewards),把推理逼到极限;随后,加入 RLHF,用高质量人类偏好数据,把格式、安全、可读性拉回舒适区。

百灵团队验证了直接融合 RLVR+RLHF 的联合训练和 Two-staged RL,两种方式在实验中效果差异不大。 但由于 RLVR 和 RLHF 的问题难度不一致,RLHF 的思维链长度相对较短,放在一起训练会有较多等待长尾现象,从工程效率角度,使用了 Two-staged RL 方案。

二、6.1B 激活打平 40B Dense,成本曲线出现 “拐点”

大模型竞争进入 “第二幕”,核心指标不再是 “谁参数多”,而是 “谁性价比高”。

Ring-flash-2.0 架构图。

继承 Ling 2.0 系列的高效 MoE 设计,通过1/32 专家激活比、MTP 层等架构优化,Ring-flash-2.0 仅激活 6.1B (non-embedding 4.8B) 参数,即可等效撬动约 40B dense 模型的性能。

得益于小激活、高稀疏度的设计,Ring-flash-2.0 在 4 张 H20 部署下实现200+ token/s 的吞吐,大幅降低高并发场景下 Thinking 模型的推理成本。同时,Ring-flash 借助 YaRN 外推可支持128K 长上下文,随着输出长度的增加,其相对加速比最高可达 7 倍以上。

生成速度对比

竞赛数学视频

贪吃蛇case

arcprize case

冒泡排序可视化

粒子烟花模拟

生成搜索引擎首页 query:请仿照 Perplexity,设计并生成一个搜索引擎首页,网站名称为 “想搜”,slogan 为 “想搜,才会赢”。请实现基本的搜索界面、风格化 Banner 和搜索输入区。

生成搜索引擎首页

结语:大模型竞争进入 “高性价比” 时代

从 2022 年 ChatGPT 点燃生成式 AI,到 2024 年长思考成为新战场,行业一直在等一个 “既聪明又便宜” 的推理模型。Ring-flash-2.0 用 100B 总参、6.1B 激活、200+token/s 的速度,把「Long-CoT + RL」做到工程可落地,还顺手把训练稳定性、推理成本、开源生态一次性打包。

如果说 GPT-4 开启了 “大模型可用时代”,那 Ring-flash-2.0 或许正式拉开了 “MoE 长思考高性价比时代” 的帷幕。剩下的问题只有一个:你准备用它做什么?

开源地址:

  • HuggingFace:https://huggingface.co/inclusionAI/Ring-flash-2.0
  • ModelScope:https://modelscope.cn/models/inclusionAI/Ring-flash-2.0
  • GitHub: https://github.com/inclusionAI/Ring-V2
  • 技术博客: https://ringtech.notion.site/icepop

文中视频链接:https://mp.weixin.qq.com/s/GP6SkIP0Pq1j08XL0XccoQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一碗米饭六碗菜,张雪峰这顿饭,藏着他透支身体的真相

一碗米饭六碗菜,张雪峰这顿饭,藏着他透支身体的真相

王二哥老搞笑
2026-03-25 20:09:31
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
侃爷夫妇出街画风猎奇 比安卡银裤辣眼引围观

侃爷夫妇出街画风猎奇 比安卡银裤辣眼引围观

述家娱记
2026-03-23 19:46:51
为啥没第二人称射击游戏,因为玩过的人都疯了

为啥没第二人称射击游戏,因为玩过的人都疯了

街机时代
2026-03-25 16:55:54
宁向美国妥协,也不求助中国?俄罗斯到底在布什么局?

宁向美国妥协,也不求助中国?俄罗斯到底在布什么局?

Hi科普啦
2026-03-26 14:13:23
40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

甜柠聊史
2026-03-26 14:38:54
男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

张晓磊
2026-03-26 11:22:06
不装了摊牌了!白宫承认伊朗拒绝谈判,特朗普准备“释放地狱”!

不装了摊牌了!白宫承认伊朗拒绝谈判,特朗普准备“释放地狱”!

阿芒娱乐说
2026-03-26 14:19:21
越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

岐黄传人孙大夫
2026-03-17 23:25:03
白宫:美国总统特朗普将于5月访华

白宫:美国总统特朗普将于5月访华

辇毂
2026-03-26 05:18:40
谷歌新算法引发美股存储板块集体下挫

谷歌新算法引发美股存储板块集体下挫

金融界
2026-03-26 09:37:28
女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

鱼语昱雨轩
2026-03-25 14:03:47
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

闻香阁
2026-03-26 03:33:51
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
难以置信!一福建男子称,感谢失业后妻子和他离婚,帮他减轻压力

难以置信!一福建男子称,感谢失业后妻子和他离婚,帮他减轻压力

火山詩话
2026-03-20 09:50:39
美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

瑛派儿老黄
2026-03-25 23:46:07
真撑不住了!特朗普,要做重大让步了!

真撑不住了!特朗普,要做重大让步了!

大嘴说天下
2026-03-25 19:16:47
王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

不似少年游
2026-03-25 17:03:59
美内政部长称美国从委内瑞拉“带回”价值1亿美元黄金,引巨大争议

美内政部长称美国从委内瑞拉“带回”价值1亿美元黄金,引巨大争议

环球网资讯
2026-03-26 14:54:16
奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

明镜pro
2026-03-26 09:22:44
2026-03-26 15:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
数码
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版