网易首页 > 网易号 > 正文 申请入驻

蚂蚁十天连发两个万亿参数大模型,获 LeCun 点赞

0
分享至


作者 | 郭海惟
邮箱 | guohaiwei@pingwest.com

众所周知,国庆不止是一个节日,还是Q4的开始。

Anthropic发了Claude4.5、DeepSeek发了V3.2;OpenAI发了Sora2、入股AMD,举办了Dev Day,要搞AI操作系统。

而蚂蚁的节奏更紧凑:9 月 30 日,开源全球首个万亿参数推理大模型 Ring-1T-preview;10月9日,再甩出 Ling 2.0 旗舰非思考模型——万亿参数开源大模型 Ling-1T。10天之间,国内万亿参数俱乐部从两位成员(Kimi K2、Qwen3-Max)直接扩容到三位。

Ling-1T和Ring-1T-preview都采用蚂蚁自研的Ling 2.0的架构,蚂蚁团队将模型扩展到了万亿的参数规模,都用了超过20T的高质量语料库。

从官方披露的榜单数据来看,Ling-1T与DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905、GPT-5-main、Gemini-2.5-Pro这些国内外最具代表的模型做了横评。其中,在代码生成、软件开发、竞赛数学、专业数学、逻辑推理等推理基准测试上,在绝大部分的项目上都取得了领先。


而作为1T 语言基座的思考模型版本 ,Ring-1T-preview在大规模强化学习训练的早期,就已经表现出强大的自然语言推理思考能力

在与同类大模型的多项横评中,Ring-1T以纯自然语言推理的能力,逼近了 GPT-5 with thinking (no tools) 的水平。其中在竞赛级代码生成任务CodeForces 中,Ring-1T-preview拿下了最高分。


蚂蚁百灵官方公众号说,他们还在持续开展更多高难度推理任务的测试验证,包括ICPC、CCPC 等编程竞赛,以进一步挖掘这个万亿思考模型的潜能。

1

百灵大模型与它的“非共识”

本次的两个超大模型的发布,其实很早就在蚂蚁内部的部署之中。

在今年5月27日的蚂蚁技术日上,百灵团队就表示内部在训练一个Max级别的模型,要等到性能“比肩DeepSeek”的时候就会发布。

蚂蚁百灵大模型负责人周俊在回答记者问题的时候表示,虽然大家都认为Scaling Law遇到瓶颈了,团队持有一种“非共识”,即Scaling这件事情还没有终结。

四个月后,Ring-1T-preview和Ling-1T的发布,印证了百灵大模型团队此前的观点:Scaling is all you need.

百灵团队提出了一个专有的技术概念:Ling Scaling Law。它可以自动计算最优参数配置,支持精准外推预测,从而帮助团队进行架构选型,保证即便在巨大计算量下依然保持可扩展的架构效率。此外,蚂蚁还自研了WSM调度器(Warmup-Stable-Merge)替代了传统的WSD(warmup-stable-decay)

Ring-1T和Ling-1T的超大参数能力便得益于此。

新的策略在多个任务表现上都获得了比传统策略更好的结果。


当然,仅仅实现“超大参数”是不够的。

由于架构相近,无论是Ling-1T还是Ring-1T,二者都保持了很好的稀疏性。

以此次发布的Ling-1T为例,每个token大概只激活51B参数。结合通过“中训练+后训练”的演进式思维链(Evo-CoT),极大提升了模型的高效推理能力。

蚂蚁将大参数储备和小参数激活结合起来,根据任务的难度不同,智能调度大模型中的专家网络。一个token只激活51B的参数规模,相当于将日常困扰开发者的能耗问题降低到了百亿级参数。


大参数带来的能力突破,确实能让更多人(尤其是海外开发者)了解这个来自中国的模型。

毕竟连Lecun这样的transformer和LLM长期批评者,都在社区里给Ring-1T-preview点了赞。


但比起被看见,Ling-1T发布的意义或许在于:

人们发现,不知不觉间,蚂蚁今天已经成为了,大模型家族体系最全面的AI公司之一了。


蚂蚁百灵大模型家族有一套自己的命名规则:

Ling是基础的大语言模型;Ring是推理模型,类似GPT的O系列;Ming系列,代表多模态模型,下分视频、音频等不同的子系列。

在模型的规模和性能方面,除了今天看到的1T版本外,还有mini、flash、lite,覆盖了从10B到1T的不同尺寸,以服务不同的场景需求。

比如蚂蚁前段时间发了一个16B的高性能推理模型,Ring-mini-2.0,就是以Ling-mini-2.0-base为基础训练的。在蚂蚁的MoE架构支持下,激活 1.4B 参数,即可达到 10B 级别以下 dense 模型的综合推理能力。

而像Ming-lite-omni,则是社区少有的全模态大模型,在2.8B激活参数下,多模态能力可以比肩gpt-4o。

在HuggingFace上,蚂蚁的Inclusion AI有14个collection以及数十个跟模型相关的产品和工具,涵盖了Ling、Ring、Ming、世界模型和具身等多个技术领域。

这意味着百灵家族形成了一个大模型构建的能力金字塔,可以为蚂蚁集团乃至整个开源生态,构建支撑不同场景的能力与梯度化部署。

1

迈向 AGI 全景

蚂蚁很早就提出了三大战略,AI First、支付宝双飞轮、加速全球化。

不过蚂蚁CEO韩歆毅曾对媒体表示,蚂蚁的最终目标是做AI的落地应用,“如果聚焦AI应用,还要不要做基础大模型?”但管理层在思考以后答案是,“一定要。”

他说,“因为如果基于AI做服务和应用,就像训练一个人去做事。追求智能上限,会让这个人更加聪明,能够做更多、更好的服务。我们很坚定去探索AGI、探索智能上限。”

但我们从这个表态可以理解,蚂蚁大模型的路径:

蚂蚁想要追求智能上限,推动AI能力的收敛。所以它几乎所有的发布模型都是开源的,而且是高开放性、没有任何等待期的“真开源”。

拥抱开源的好处是显而易见的,它拒绝重复造轮子,不断探索人类大模型的技术边缘。在某种意义上,开源可以推动更多的“范式级”的进一步探索,比如刚才我们提到的“Ling Scaling Law”。

换言之,蚂蚁想要追求的是一个丰富的AI智能生态,希望这个生态能够快速繁荣。在这个基础上,蚂蚁可以收获更多的技术经验,然后重注更多的AI场景。

围绕上述逻辑的第二个蚂蚁特色的路径是:蚂蚁的Agent产品和大模型是同步推进的。

蚂蚁在此前推出了三大AI管家,作为目前的Agent系列产品,分别是AI健康管家AQ、AI理财管家蚂小财、AI生活管家。

与 “AI+”不完全相同,蚂蚁尽可能地推出的是AI原生属性的Agent。

其中,AQ有自己独立的APP,蚂小财在蚂蚁财富APP有入口。其实在此之前,支付宝内也有大量本地入口+chatbot窗口实践,但蚂蚁选择了对这几个业务设立独立app作为试验田。

从这个角度来说,蚂蚁将Agent作为全新的场景形态来看待。它随着智能的发展和产品形态的演进,未来会变成区别于今天产品形态的“新物种”。

在生态侧,蚂蚁也有智能体开发平台“百宝箱”。百宝箱尝试将不同的agent智能体聚合、调度,进行做多智能体的协同尝试。此外,蚂蚁还推出了原生的AI社区 InclusionAI。

今天很多人说AI进入下半场,其实讲的是两件事情:智能增长放缓+场景落地爆发的前期。

蚂蚁所做的事情,与AGI的发展的诉求也是刚好一致的:

深耕智能涌现的超大参数模型、拥抱开源社区、构建智能体平台和AI 社区、招募AI原生人才,目的是推动智能上限的进一步增长。

多智能体联动、三大Agent战略布局,目的是探索场景落地的产品范式,跑通原生AI交付的产品能力。

Ling2.0系列的万亿超参模型落地,可以被视作是蚂蚁对AGI业务布局理解的某种延伸:

它既实现了开源社区智能上限潜力的进一步挖掘,高效MoE架构和模型的梯度化部署能力,又给应用层生态更丰富的工具的选择。

而不仅对于蚂蚁的AI战略如此。对于整个AGI生态来说,这也是模型发展的意义所在。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
何超琼不愧是丰腴美人,穿白色低胸连衣裙凹凸有致,老了更撩人!

何超琼不愧是丰腴美人,穿白色低胸连衣裙凹凸有致,老了更撩人!

蓓小西
2026-03-17 08:39:55
美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

让心灵得以栖息
2026-03-26 05:03:07
谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

温读史
2026-03-26 10:41:06
伊朗拒绝美国停战方案并提出伊方5项条件

伊朗拒绝美国停战方案并提出伊方5项条件

新京报
2026-03-25 23:58:14
甘油三酯"祸首"被发现,是猪油的12倍?专家叹息:还有人天天在吃

甘油三酯"祸首"被发现,是猪油的12倍?专家叹息:还有人天天在吃

芳芳历史烩
2026-03-23 11:04:46
为何伊朗突然变得这么强大呢?

为何伊朗突然变得这么强大呢?

农夫史记
2026-03-24 20:10:11
宋喆直播卖枣笑塌全网!百万流量零成交,满屏王宝强弹幕扎心到爆

宋喆直播卖枣笑塌全网!百万流量零成交,满屏王宝强弹幕扎心到爆

誮惜颜a
2026-01-13 01:12:10
中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

策略述
2026-03-26 18:23:11
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

快科技
2026-03-25 10:14:04
最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

火山詩话
2026-03-24 17:32:57
刚开业一周,上海德云社竟然被投诉了!

刚开业一周,上海德云社竟然被投诉了!

天津人
2026-03-26 11:12:18
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

福建平子
2026-03-26 09:00:29
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

老马拉车莫少装
2026-03-24 22:55:20
港口管控升级!滞留中国巴拿马船暴涨3倍,巴拿马政府吃不消了

港口管控升级!滞留中国巴拿马船暴涨3倍,巴拿马政府吃不消了

肖兹探秘说
2026-03-26 20:07:23
一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

潮鹿逐梦
2026-03-21 11:54:42
突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

石辰搞笑日常
2026-03-26 17:28:25
曾经世界上最大的城市,差点取代北京成为中国首都,如今怎样?

曾经世界上最大的城市,差点取代北京成为中国首都,如今怎样?

抽象派大师
2026-03-14 14:00:04
2026-03-26 23:52:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
手机
房产
军事航空

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版