网易首页 > 网易号 > 正文 申请入驻

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

0
分享至

蚂蚁最近好卷啊,

两周内先后开源了Ring-1T-preview、Ling-1T和Ring-1T,Ring-1T同时是全球首个开源的万亿思考模型,这名头够响亮,也够让我半夜开机来个全面测试。

ling.tbox.cn


在正式开测前,我觉得需要理一下蚂蚁这一系列新模型,蚂蚁,就是我们手机里那个能种树、能付钱的支付宝蚂蚁,

他们发布的大模型中文名叫百灵,有三个系列,Ling代表语言模型,Ring代表思考模型,Ming则代表多模态模型。


跟preview版不同,正式版Ring-1T完成了完整的训练流程,包括继续通过大规模可验证奖励强化学习训练提升了推理能力,通过RLHF训练提升了模型通用能力。

来看看纸面实力吧,Ring-1T在数学竞赛(AIME 25、HMMT 25),代码生成(LiveCodeBench、CodeForce-Elo),逻辑推理(ARC-AGI-v1)上达到了开源SOTA水平


光速开测,用的是我的大模型噩梦级测试案例1.1版,跟DeepSeek V3.2(开深度思考)来个PK。公开所有提示语,每个提示语跑三次,取效果最好的一次作为最终结果。包括SVG、物理模拟、前端设计、可交互3D四大类

有些提示语比较长,以及连同输出的代码和效果我都打包到文档了,公众号后台发“ring”就好啦。

先来个SVG热热身,

绘制一个骑自行车的鹈鹕的 SVG 图像



Ring-1T(左侧)差个脚踏,轮子、车架、鸟本体都有了,而 DeepSeek V3.2 画出来的鹈鹕还是如此稳定实现了脚身分离,方向也反了,车把也没了。

为了让大家清晰看出差别,我又又又又把另外16个模型的跑出来的鹈鹕拿出来了,什么看到能忍不住不笑啊


再来看看常见的物理模拟,

用 HTML、CSS 和 JavaScript 实现这样一个效果:一个小球被困在一个旋转的六边形内部。小球受到地球重力的作用,并与六边形内壁产生摩擦。小球的弹跳需要看起来逼真自然。

Ring-1T:

DeepSeek V3.2:

Ring-1T和DeepSeek V3.2都提供了多项参数选择,包含但不限于小球重置,增减六边形旋转速度,还可以取消动力,Ring-1T在这个基础上还增加了反弹和墙面摩擦力。

接着测测UI组件,复刻我天天见的界面,

帮我做一个 Microsoft Word 的克隆版本,但只需要前端部分。

Ring-1T:

DeepSeek V3.2:

上次测试了Excel,这次测测看word文档的复刻效果怎么样,

除了加粗、斜体、下划线,Ring-1T还可以实现字体大小调整,左中右对齐。界面本体和功能切换上真能唬住我,这种case测起来就有种惊喜感,明明没有期待它能完成除了前端外的别的功能,但是抽盲盒能抽出来。

Create animated cards in HTML, JS, and CSS with hover effects, transitions, and responsive design. Include 3-5 cards with different content.

Ring-1T:

DeepSeek V3.2:

这个属于是天气组件的变体,不做任何限制,就让模型出卡,它们都选择了带放大特效和按钮变色。我发现DeepSeek V3.2特别喜欢用暖色,Ring-1T反而喜欢用冷色调,有点想测测它们的16人格了。

UI测完了,来个可交互的3D界面,

好久没做贪吃蛇了,来看看现在能做到什么程度了

Build a complex Snake game in JavaScript with power-ups, multiple levels, and score tracking UI.

Ring-1T:

DeepSeek V3.2:

现在已经可以给贪吃蛇加上速度、磁力、双倍积分和护盾了,DeepSeek V3.2把色块做出来了,但是没有起到作用。

回到模型本身,

Ring-1T在Ling-1T-base基础上通过LongCoT-SFT + RLVR + RLHF多阶段训练出来的,Ling-1T用的是MoE结构,前4层是dense结构,后面76层才是MoE,一共256个专家,每次激活参数约51B,预训练数据20T Tokens,全程采用FP8精度训练

https://huggingface.co/inclusionAI/Ring-1T

https://modelscope.cn/models/inclusionAI/Ring-1T


除了直接对话,Ring-1T也已经上线到蚂蚁的多Agent平台百宝箱里了,

百宝箱我之前也做过测评,几步就可以拉起一个自己的Agent团队,还可以在支付宝上kuku收钱。


在训练过程中,蚂蚁还有两大神器。

一个叫Icepop,中文叫棒冰的算法,它的作用就是当一根棒冰(字面意义上),给模型的强化学习训练过程降温,通过修正了训练和推理阶段的精度差异,避免了长周期训练中GRPO算法可能出现的崩溃问题。

在技术报告里面放出了两张图,


图左:GRPO训推差异随着训练成指数上升,Icepop较为平稳;

图右:训推差异最大值,GRPO随着训练上升非常明显,Icepop维持在较低水位

我用大白话解释一下,

左图看的是整体情况:IcePop整体很稳,GRPO整体上越来越不稳定。

右图看的是极端情况:GRPO不仅整体不稳定,在最坏情况下的差异还在持续恶化。而IcePop在最坏情况下,差异也远小于GRPO,并保持在相对可控的范围内。

另一个则是自研的高性能强化学习系统ASystem,它的任务只有一个,搞定万亿参数这种巨无霸模型的训练。

https://github.com/inclusionAI/AReaL


  • 模型的个头太大,把它塞进显卡里,内存会爆掉。那就只把当前计算需要的那一小部分数据放进显卡。
  • 模型需要在一个安全的环境里不断练习才能进步。那就提供多个独立的练习房(沙箱),模型想练就练,而且每秒能支撑上万次练习。

可能很多人不知道蚂蚁还闷声搞了不少事,

在模型层除了基础语言模型Ling-1T和这次的推理模型Ring-1T,马上还会更新多模态模型Ming,

框架层也没放过,除了上面提到的Asystem,还有多智能体系统框架AWorld,

应用层也还有,除了上面提到的多Agent百宝箱,还有AI健康管家AQ、AI理财管家蚂小财、AI生活管家

该有的都有了,

这样来看,蚂蚁开源模型更像是件顺手的事。

那来都来了,

在线吃我一波催更再走吧。

@ 作者 / 卡尔

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

更多的内容正在不断填坑中……


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
翟军任枣庄市委书记

翟军任枣庄市委书记

界面新闻
2025-11-08 16:08:09
副院长祖雄兵被停职!他口中所谓的“纯洁婚外恋”,是自欺欺人

副院长祖雄兵被停职!他口中所谓的“纯洁婚外恋”,是自欺欺人

鋭娱之乐
2025-11-07 12:47:00
妥妥的专家!曾琦每次都是主持核心,两张图看出她在医院里的地位

妥妥的专家!曾琦每次都是主持核心,两张图看出她在医院里的地位

火山诗话
2025-11-08 11:14:13
什么是文明?看挪威富裕后如何对待自己的国民​

什么是文明?看挪威富裕后如何对待自己的国民​

深度报
2025-11-07 22:57:08
这届网友不好带了,查封陈志财产越多,网友越疑惑,到底为什么?

这届网友不好带了,查封陈志财产越多,网友越疑惑,到底为什么?

眼光很亮
2025-11-07 15:54:19
上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗?

上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗?

南权先生
2025-11-08 14:52:26
雷军如今面临的最大难题,不是400亿的亏损

雷军如今面临的最大难题,不是400亿的亏损

诗意世界
2025-11-07 18:13:47
郑丽文、马英九,最新表态

郑丽文、马英九,最新表态

新京报政事儿
2025-11-08 08:12:11
2025中甲大结局:铁人夺冠携铜梁龙冲超,平果与红狮降级

2025中甲大结局:铁人夺冠携铜梁龙冲超,平果与红狮降级

懂球帝
2025-11-08 16:58:22
40岁黄希扬泪如雨下!1265天两次落泪:终于把中超还给球迷

40岁黄希扬泪如雨下!1265天两次落泪:终于把中超还给球迷

奥拜尔
2025-11-08 17:09:49
超级工程开工!省委书记、省长赴现场

超级工程开工!省委书记、省长赴现场

上观新闻
2025-11-08 16:29:07
好事:多名民营企业家获罪后改判,或与中国欲积极加入CPTPP 协定有关

好事:多名民营企业家获罪后改判,或与中国欲积极加入CPTPP 协定有关

蛙蛙和洼
2025-11-08 10:01:55
42℃高温下,美国一父亲在家看片喝酒,将2岁女儿留在车内致身亡,入狱前自杀

42℃高温下,美国一父亲在家看片喝酒,将2岁女儿留在车内致身亡,入狱前自杀

红星新闻
2025-11-08 14:56:16
两未成年人致7月龄婴儿死亡,因不满12岁未立案 监护人被判赔90万,只履行完10万

两未成年人致7月龄婴儿死亡,因不满12岁未立案 监护人被判赔90万,只履行完10万

红星新闻
2025-11-07 20:58:12
太突然!营业10多年,杭州最后一家门店也闭店了,曾经不少人排队去吃

太突然!营业10多年,杭州最后一家门店也闭店了,曾经不少人排队去吃

都市快报橙柿互动
2025-11-07 19:49:29
巴萨想念9000万巨星:他养伤42天 巴萨8场3败!攻防都乱了

巴萨想念9000万巨星:他养伤42天 巴萨8场3败!攻防都乱了

叶青足球世界
2025-11-08 16:06:20
英国国殇日最讽刺一幕:主持人请百岁老兵发表感言,老兵:这个国家根本不值得我和战友拼命守护!

英国国殇日最讽刺一幕:主持人请百岁老兵发表感言,老兵:这个国家根本不值得我和战友拼命守护!

悦居英国
2025-11-08 00:04:46
中国移动:eSIM需具备机卡锁定能力!境内禁止下载境外运营商数据

中国移动:eSIM需具备机卡锁定能力!境内禁止下载境外运营商数据

快科技
2025-11-08 14:30:14
浙江20岁女子隐私部位已经80岁了!医生:立刻停止

浙江20岁女子隐私部位已经80岁了!医生:立刻停止

深圳晚报
2025-11-07 23:56:11
北京飞广州航班起飞40分钟后返航,更换飞机后再出发?国航客服:系航司原因

北京飞广州航班起飞40分钟后返航,更换飞机后再出发?国航客服:系航司原因

极目新闻
2025-11-08 12:23:23
2025-11-08 17:47:00
卡尔的AI沃茨 incentive-icons
卡尔的AI沃茨
前大厂算法工程师,3家科技公司技术总监|致力打造最系统的Al学习体系,让1万人通过Al提高生产力
148文章数 42关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

英媒抛出谬论:中国的空气质量改善 加速了全球变暖

头条要闻

英媒抛出谬论:中国的空气质量改善 加速了全球变暖

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

房产
游戏
健康
教育
旅游

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

日厂推出Switch街机外壳套件 模拟复古机台玩法

超声探头会加重受伤情况吗?

教育要闻

一道初中化简,学会方法太easy

旅游要闻

左手咖啡右手秋色!北京门头沟潭柘寺推介三条“咖啡路”

无障碍浏览 进入关怀版