网易首页 > 网易号 > 正文 申请入驻

蚂蚁万亿参数思考模型Ring-1发布即开源,刷新多项开源SOTA

0
分享至

10月14日凌晨,蚂蚁集团正式推出万亿参数思考模型Ring-1T,并全面开源模型权重、训练配方。Ring-1T在9月30日开源的预览版Ring-1T-preview基础上,持续扩展大规模可验证奖励强化学习(RLVR)训练,进一步激发万亿基座的自然语言推理能力,并通过 RLHF 训练完善模型通用能力,在各项任务榜单上表现更加均衡。

为了持续激发Ring-1T的数学等复杂推理能力,此次百灵团队挑战了难度更高的IMO2025(国际数学奥利匹克)赛题,将Ring-1T接入多智能体框架AWorld,使用纯自然语言推理进行解题。实验结果显示,Ring-1T仅用一次解出了第1、3、4、5题,相当于IMO银牌水平,成为首个能拿IMO国际奥数奖的开源系统。Ring-1T在第三次尝试IMO时对第2题几何证明也给出了接近满分的证明过程,在顶流大模型几乎全军覆没的第六题中将答案收敛到与Gemini 2.5 Pro 相同的“4048”(正确答案为2112)。作为一款思考模型,Ring-1T也表现出了极佳的通用能力,在“人类偏好对齐”测试Arena-Hard V2中,Ring-1T以81.59的成功率居于开源模型榜首,逼近GPT-5-Thinking(High)82.91的成绩。在面向严谨领域的医疗问答HealthBench测评中,Ring-1T也以最高分取得开源领域最佳。



(Ring-1T与业界代表性思考模型的性能横评)

万亿参数思考模型训练最大难题是训推精度差异,即训练阶段与推理阶段因实现细节差异导致的训练和推理精度不一致,进而导致训练崩溃。在Ring-1T模型中,蚂蚁采用了自研的“棒冰(icepop)”算法来应对这项行业难题,即用带掩码的双向截断技术把训练-推理分布差异冻结在低水位,确保长序列、长周期训练不崩。此外,应对万亿参数模型强化学习训练,蚂蚁还自研了高性能强化学习系统ASystem(其中包含已开源的高性能强化学习框架AReaL),特别针对万亿参数模型的显存管理和训推权重交换问题做了精细的优化,实现了单机显存碎片秒级回收、权重零冗余交换,把大规模RL训练稳定跑成日常。



(图左:GRPO训推差异随着训练成指数上升,icepop较为平稳;图右:训推差异最大值,GRPO随着训练上升非常明显,icepop维持在较低水位)

此外,本次发布的Ring-1T模型继续采用Ling 2.0架构的1T base模型做后训练,Ling 2.0采用了包括高度稀疏的MoE架构,1/32的专家激活比、FP8混合精度、MTP等诸多特性实现高效训练与推理。在后训练阶段,蚂蚁百灵团队通过LongCoT-SFT + RLVR + RLHF多阶段训练,显著提升了模型的复杂推理能力以及指令跟随和创意写作等通用能力。

据百灵团队透露,Ring-1T模型是其在万亿思考模型上的首次尝试,蚂蚁百灵团队会在后续的版本中继续完善模型性能。目前,用户可通过HuggingFace、魔搭社区下载模型,并通过蚂蚁百宝箱等平台在线体验。



据了解,截止目前蚂蚁百灵大模型已经发布18款模型,已形成从160亿总参数到1万亿总参数的大语言模型产品矩阵,其中两款万亿参数模型—万亿参数通用大语言模型Ling-1T、万亿参数思考模型Ring-1T。随着两款万亿参数模型的发布,百灵大模型也正式步入2.0阶段。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
唐方裕已任中央政策研究室主任

唐方裕已任中央政策研究室主任

农民日报
2026-01-15 09:54:21
CBA打完14轮,最值得入选国家队的5位球员!徐杰领衔,徐昕在列

CBA打完14轮,最值得入选国家队的5位球员!徐杰领衔,徐昕在列

多特体育说
2026-01-14 22:10:32
古巴能源供应被切断,垃圾堆积如山

古巴能源供应被切断,垃圾堆积如山

昊轩看世界
2026-01-14 10:15:12
马云前助理陈伟去世,马云夫妇送花圈,两人相识33年经常一起打牌

马云前助理陈伟去世,马云夫妇送花圈,两人相识33年经常一起打牌

叶公子
2026-01-14 20:26:03
古巴的领导纯是菜

古巴的领导纯是菜

求实处
2026-01-15 00:13:01
杨瀚森22分7板3助1断2帽 混音大胜蓝队

杨瀚森22分7板3助1断2帽 混音大胜蓝队

北青网-北京青年报
2026-01-15 12:47:29
武切维奇35+7+5准绝杀公牛险胜爵士 森萨博43分生涯新高

武切维奇35+7+5准绝杀公牛险胜爵士 森萨博43分生涯新高

醉卧浮生
2026-01-15 11:29:22
贺娇龙坠马后续:确认死亡,知情人曝原因头 骨被马踏碎,画面太惨

贺娇龙坠马后续:确认死亡,知情人曝原因头 骨被马踏碎,画面太惨

生活魔术专家
2026-01-15 02:49:09
太魔幻了!诈骗头目陈志只是一只白手套,他背后的保护伞又是谁?

太魔幻了!诈骗头目陈志只是一只白手套,他背后的保护伞又是谁?

公子麦少
2025-10-22 14:43:48
消息称苹果遭遇供应链危机,一块“玻璃布”卡住iPhone 18命脉

消息称苹果遭遇供应链危机,一块“玻璃布”卡住iPhone 18命脉

IT之家
2026-01-15 10:28:41
美方通告全球,中方大幅抛售美债,特朗普终于动手,美联储将换人

美方通告全球,中方大幅抛售美债,特朗普终于动手,美联储将换人

孤单是寂寞的毒
2026-01-14 13:04:03
泰国在建铁路事故已致22死

泰国在建铁路事故已致22死

环球网资讯
2026-01-14 13:02:35
23岁女孩被逼迫嫁给39岁男子喝农药住进ICU?当地妇联回应

23岁女孩被逼迫嫁给39岁男子喝农药住进ICU?当地妇联回应

大风新闻
2026-01-15 12:21:06
Lisa和LV三公子疑似被抓,两人在晚宴发生不雅行为,现场视频流出

Lisa和LV三公子疑似被抓,两人在晚宴发生不雅行为,现场视频流出

花哥扒娱乐
2026-01-13 19:00:07
美国已经犯下三个致命错误,败局已定了

美国已经犯下三个致命错误,败局已定了

农夫史记
2026-01-12 20:52:58
宋美龄价值2亿的麻花手镯,戴到离世:第一任主人仅花费4万大洋

宋美龄价值2亿的麻花手镯,戴到离世:第一任主人仅花费4万大洋

史之铭
2026-01-13 22:55:09
在自家公司上班有多惨?网友:感同身受,想逃但是还不够能力

在自家公司上班有多惨?网友:感同身受,想逃但是还不够能力

解读热点事件
2025-12-29 00:05:13
北京台春晚就差报肖战身份证号了!暗号式官宣,这波偏爱藏不住

北京台春晚就差报肖战身份证号了!暗号式官宣,这波偏爱藏不住

手工制作阿歼
2026-01-15 10:01:19
伊朗抗议者亲手击毙下令射杀群众的伊朗军官

伊朗抗议者亲手击毙下令射杀群众的伊朗军官

桂系007
2026-01-12 00:31:50
猛龙交易浓眉报价曝光!巴雷特成核心筹码 奎克利珀尔特尔二选一

猛龙交易浓眉报价曝光!巴雷特成核心筹码 奎克利珀尔特尔二选一

罗说NBA
2026-01-15 06:28:52
2026-01-15 13:12:49
派财经 incentive-icons
派财经
聚焦数字经济内容服务机构
866文章数 913关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

家居
本地
手机
时尚
公开课

家居要闻

自在自宅 个性自由

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

手机要闻

苹果称王,三星郁闷,国产第一还是小米

最时髦的单品,难道不是背肌吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版