网易首页 > 网易号 > 正文 申请入驻

蚂蚁发布并开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5

0
分享至

来源:环球网

【环球网科技综合报道】10月14日凌晨,蚂蚁集团正式推出万亿参数思考模型Ring-1T,并全面开源模型权重、训练配方。Ring-1T在9月30日开源的预览版Ring-1T-preview基础上,持续扩展大规模可验证奖励强化学习(RLVR)训练,进一步激发万亿基座的自然语言推理能力,并通过 RLHF 训练完善模型通用能力,在各项任务榜单上表现更加均衡。

为了持续激发Ring-1T的数学等复杂推理能力,此次百灵团队挑战了难度更高的IMO2025(国际数学奥利匹克)赛题,将Ring-1T接入多智能体框架AWorld,使用纯自然语言推理进行解题。实验结果显示,Ring-1T仅用一次解出了第1、3、4、5题,相当于IMO银牌水平,成为首个能拿IMO国际奥数奖的开源系统。Ring-1T在第三次尝试IMO时对第2题几何证明也给出了接近满分的证明过程,在顶流大模型几乎全军覆没的第六题中将答案收敛到与Gemini 2.5 Pro 相同的“4048”(正确答案为2112)。作为一款思考模型,Ring-1T也表现出了极佳的通用能力,在“人类偏好对齐”测试Arena-Hard V2中,Ring-1T以81.59的成功率居于开源模型榜首,逼近GPT-5-Thinking(High)82.91的成绩。在面向严谨领域的医疗问答HealthBench测评中,Ring-1T也以最高分取得开源领域最佳。



(Ring-1T与业界代表性思考模型的性能横评)

万亿参数思考模型训练最大难题是训推精度差异,即训练阶段与推理阶段因实现细节差异导致的训练和推理精度不一致,进而导致训练崩溃。在Ring-1T模型中,蚂蚁采用了自研的“棒冰(icepop)”算法来应对这项行业难题,即用带掩码的双向截断技术把训练-推理分布差异冻结在低水位,确保长序列、长周期训练不崩。此外,应对万亿参数模型强化学习训练,蚂蚁还自研了高性能强化学习系统ASystem(其中包含已开源的高性能强化学习框架AReaL),特别针对万亿参数模型的显存管理和训推权重交换问题做了精细的优化,实现了单机显存碎片秒级回收、权重零冗余交换,把大规模RL训练稳定跑成日常。


(图左:GRPO训推差异随着训练成指数上升,icepop较为平稳;图右:训推差异最大值,GRPO随着训练上升非常明显,icepop维持在较低水位)

此外,本次发布的Ring-1T模型继续采用Ling 2.0架构的1T base模型做后训练,Ling 2.0采用了包括高度稀疏的MoE架构,1/32的专家激活比、FP8混合精度、MTP等诸多特性实现高效训练与推理。在后训练阶段,蚂蚁百灵团队通过LongCoT-SFT + RLVR + RLHF多阶段训练,显著提升了模型的复杂推理能力以及指令跟随和创意写作等通用能力。

据百灵团队透露,Ring-1T模型是其在万亿思考模型上的首次尝试,蚂蚁百灵团队会在后续的版本中继续完善模型性能。目前,用户可通过HuggingFace、魔搭社区下载模型,并通过蚂蚁百宝箱等平台在线体验。


据了解,截至目前蚂蚁百灵大模型已经发布18款模型,已形成从160亿总参数到1万亿总参数的大语言模型产品矩阵,其中两款万亿参数模型—万亿参数通用大语言模型Ling-1T、万亿参数思考模型Ring-1T。随着两款万亿参数模型的发布,百灵大模型也正式步入2.0阶段。 (勃潺)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1746个螺母,被警方认定为枪支散件,五金厂老板获刑!老板喊冤

1746个螺母,被警方认定为枪支散件,五金厂老板获刑!老板喊冤

胡侃社会百态
2026-02-02 12:24:44
男人上了年纪,鞋子尽量别穿耐克、李宁,换成这些中产品牌更高级

男人上了年纪,鞋子尽量别穿耐克、李宁,换成这些中产品牌更高级

莉莉和奶奶
2026-02-02 06:48:07
56岁女人哭诉:再婚之后,50岁老伴每天不停地折腾我,后悔再婚

56岁女人哭诉:再婚之后,50岁老伴每天不停地折腾我,后悔再婚

惟来
2026-01-28 15:17:33
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
谁错了?我藏南国土并非9万、印度实际只控制了6.8万,冤枉它了?

谁错了?我藏南国土并非9万、印度实际只控制了6.8万,冤枉它了?

混沌录
2026-01-29 23:37:04
拒绝认生父21年,却花费五百万为母亲购置豪宅,撕下所有的体面

拒绝认生父21年,却花费五百万为母亲购置豪宅,撕下所有的体面

仙味少女心
2025-10-27 20:47:26
2026第一场AI大战,把腾讯阿里打个措手不及

2026第一场AI大战,把腾讯阿里打个措手不及

金错刀
2026-02-02 10:04:30
评论炸了,网友却不敢看她坐下来

评论炸了,网友却不敢看她坐下来

章眽八卦
2025-12-07 11:32:57
昨晚,前夫借故来看孩子,一见面就迫不及待进入正题,我推不开他

昨晚,前夫借故来看孩子,一见面就迫不及待进入正题,我推不开他

第7情感
2025-09-14 11:33:27
马斯克走重复火箭,中国可否靠压低一次性火箭成本,弯道超车?

马斯克走重复火箭,中国可否靠压低一次性火箭成本,弯道超车?

李将平老师
2026-02-01 20:53:41
又是被物价震惊的一天,网友:感觉快活不起了,简直太离谱

又是被物价震惊的一天,网友:感觉快活不起了,简直太离谱

夜深爱杂谈
2026-02-02 21:46:26
郑丽文再发声:大陆是我们的亲人

郑丽文再发声:大陆是我们的亲人

扬子晚报
2026-02-02 16:46:11
茅台价格四天上演“过山车”

茅台价格四天上演“过山车”

第一财经资讯
2026-02-02 15:26:42
小鹏机器人首秀摔了,这一跤,照出了它跟跑的这些年

小鹏机器人首秀摔了,这一跤,照出了它跟跑的这些年

澎湃新闻
2026-02-02 15:25:05
华为彻底杀疯了!上半年三款旗舰连发,Pura 90终于听劝了

华为彻底杀疯了!上半年三款旗舰连发,Pura 90终于听劝了

小8说科技
2026-02-03 02:24:18
希拉里助手曾披露:为报复克林顿,希拉里私生活很混乱,依赖药物

希拉里助手曾披露:为报复克林顿,希拉里私生活很混乱,依赖药物

老范谈史
2026-01-07 14:53:22
美国愿同伊朗举行会晤,伊朗外长:达成公平协议是可能的

美国愿同伊朗举行会晤,伊朗外长:达成公平协议是可能的

齐鲁壹点
2026-02-02 09:43:11
吊儿郎当的结果!当初去勇士要1.1亿,现在600万球员选项都不放弃

吊儿郎当的结果!当初去勇士要1.1亿,现在600万球员选项都不放弃

你的篮球频道
2026-02-02 15:45:50
内娱终于出了个可怕的演员,俞灏明!不给主角,他自己“抢”光环

内娱终于出了个可怕的演员,俞灏明!不给主角,他自己“抢”光环

乐悠悠娱乐
2026-01-31 13:19:56
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
2026-02-03 03:23:00
环球网资讯 incentive-icons
环球网资讯
环球网,了解世界,融入世界
1321440文章数 2709063关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

本地
家居
亲子
数码
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

现代几何彩拼 智焕童梦居

亲子要闻

萌娃哄生气的妈妈,人小鬼大逗得妈妈生不起气来了

数码要闻

LG宣布停止生产8K电视 内容匮乏与需求不振让“超高清时代”夭折

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版