蚂蚁 Ling-1T 开源：基础语言模型、1T参数、MoE架构｜所有信息都在这了|推理|语料|预训练|大模型|蚂蚁ling

蚂蚁 Ling-1T 开源：基础语言模型、1T参数、MoE架构｜所有信息都在这了

2025-10-09 10:37:17　来源: 赛博禅心

北京举报

分享至

蚂蚁的 Ling-1T 终于发了，大半夜的

中文叫百灵，1T 参数，Instruct 版本、非推理、MoE架构

HuggingFace：https://huggingface.co/inclusionAI/Ling-1T

GitHub：https://github.com/InclusionAI/Ling

在线体验：ling.tbox.cn（有 API）

对于海外用户/开发者，还有个神奇的网站

ZenMux：https://zenmux.ai/inclusionai/ling-1t

国庆期间，提前玩了玩，素质ok

说这模型之前，容我先说蚂蚁：

这个蚂蚁，就是「蚂蚁森林」、「支付宝」的那个蚂蚁
蚂蚁的AI组织，叫 InclusionAI
蚂蚁的模型，统称为百灵大模型，不是阿里的 Qwen
- Ling：语言模型，L 取自 Linguistics
- Ring：思考模型，R 取自 Reasoning
- Ming：多模态模型，M 取自 Multi-modality

理清这些很重要，别搞混了

小声逼逼

蚂蚁下个模型可以叫 King

King 和 Qwen 组 CP

Ling-1T 发布

这款模型，官方定位是「旗舰级非思考模型」，基本信息如下：

1T MoE，51B 激活
128K 上下文
20T+ token 语料预训练

注意，这里有个关键词：非思考模型

最开始的时候，大家的模型都是「非推理」的

比如原始的 ChatGPT：你提问，模型答，没有思考

但从去年这时候开始，各家都在卷思考模型（你也可以叫它「推理模型」，就是 Reasoning Model），最早是 OpenAI 的 o1，然后是大火的 DeepSeek-R1...

思考模型是这样：

给模型更多时间、中间 token，让他用更长的推理链来提升准确率

你问它一道数学题，它会输出几千甚至上万 tokens 的内部思考，然后给你答案

Ling-1T 的目标不一样：

在有限的输出 token 下，直接给出高质量的推理结果

看一组来自官方的对比，在 AIME 25，也就是美国 25 年的高中数学竞赛中：

Ling-1T：准确率 70.42%，平均推理长度约 4300 tokens
Gemini-2.5-Pro（开 thinking 模式）：准确率 70.10%，平均推理长度约 7000 tokens

准确率差不多，但 Ling-1T 用的 token 少了 40%

对于其他评测，数据如下（图片来自官方），大致就是：开源第一梯队

不过...等等，我看了一眼对比图里的其他模型数据，有点不对劲

比如 GPT-5 的 AIME25 分数，图里显示是 60 多分，但我印象里 OpenAI 发布的时候不是说 90+ 吗？

然后我专门去查了下 OpenAI 的官方发布记录...

Hhhhh 什么神奇的障眼法

GPT-5 裸出结果（不开思考模式）的前提下

AIME 2025 的官方分数只有 61.9%

月之暗面前段时间发布 K2，也是 1T 参数，我拉来了里面的跑分

...OpenAI 在图里的分数是 37?

仔细一看，月之暗面选取的是 GPT-4.1

其实吧...一点毛病没有

虽然现在的 K2，版本号是 0905，GPT-5 已经出来

但 K2-instruct 发布的时候是 7月11日，GPT-5 还没出

在当时，OpenAI 家当时最强模型，确实是 GPT 4.1

（顺道吐槽，GPT的发布顺序 4.5->4.1->5）

各家对比的时候，选的参照模型版本都不一样

但不管怎么说，Ling-1T 在非思考模型里的表现确实不错

技术实现

有关这个模型的训练，我来简单说一下吧

分架构、预训练和后训练三块

架构

Ling-1T 用的是 MoE 架构：

1T 总参数
256 个专家
每次激活约 51B 参数

有个细节：前几层用的是密集结构（Dense），后面才切换到 MoE。这种设计能在保证基础能力的同时，通过稀疏激活降低推理成本

至于为什么...说实话，我理解的不够深

于是问了这个模型的负责人，表示说：

first k dense 的设计，主要是为了降低浅层网络的负载不均衡；

浅层如果是 moe 的话，专家路由不均衡度会很高

改成前k个dense，后面再接moe，可以缓解这个问题

预训练

在预训练中，有三个阶段：

1.Pretrain Stage 1（10T token）：高知识密度语料
2.Pretrain Stage 2（10T token）：高推理密度语料，整体推理语料占比超过 40%
3.Mid-training：扩展上下文到 128K，加入思维链语料

这里的思路是：从一开始就训练推理能力

另外，Ling-1T 全程用的是 FP8 精度训练，这是目前最大规模的 FP8 训练。相比 BF16，FP8 能省显存、提升训练速度，而且在 1T token 的对比实验中，Loss 偏差只有 0.1%

后训练

蚂蚁提出了 LPO 方法（Linguistics-Unit Policy Optimization），并表示：对于推理任务，句子是更符合语义逻辑的动作单元

不同方法的训练效果，百灵团队提供

另外的，对于这些方法，这里做个小的辨析：

GRPO：按 token 优化
GSPO：按整个序列优化
LPO：按句子优化

实测

我得说，这个模型是超出我的预期的，比如我让他去做一个粒子波浪

当然，还可以再来个宇宙演化史

对于常规任务，比如信息卡片，也不在话下，内容就是他自己

有一说一，美术风格很讨喜，个人觉得甚至比 Claude Sonnet 4.5 好

对此，蚂蚁的朋友跟我说：

前端之前有专门优化过，也还在持续优化中

而对于 svg 的任务，也ok的，比如我让他

画一个 svg 动画：百灵鸟在尽情歌舞

给到了这个，还是可以的，甚至还有伪 3D

（但微信里面传不了这么复杂的 svg，这里放个 gif）

我让 Claude 也画了个，大概是这样

百灵鸟在尽情歌舞

但也要控制预期：

指令理解这块，Ling 比 Claude 还是有差距的

蚂蚁的 AI

老实说，很多人可能不知道：蚂蚁还在训模型

从 2023 年开始，蚂蚁就确立了「AI First」战略，闷声搞事情

从底层，到应用，搞了一整套的完整生态

模型层，有三个系列：

Ling（语言模型）：这次发的 Ling-1T 就是这个系列
Ring（思考模型）：对标 o1、R1 那种，之后会发
Ming（多模态模型）：就像 Ming-lite-omni v1.5，能处理图像、文档、视频、语音
以及...这里还有个实验版本 LLaDa-MoE，是行业内首个 MoE 的扩散语言模型

框架层，开源了两个东西：

AWorld：多智能体系统框架，在 GAIA benchmark 上拿了开源项目第一，77.08 分
AReaL：专门为 LLM 推理和 Agent 优化的强化学习框架

应用层，分 C 端和 B 端

C 端有三个AI 管家，都在支付宝里：

AI 健康管家AQ：连接全国近百万医生，能找医生、读报告、陪看诊、问医保
AI理财管家蚂小财：提供行情分析、持仓诊断、资产配置和投教陪伴等个性化金融服务
AI生活管家：能帮你规划旅游、查快递、交话费...语音唤起支付宝上的生活服务

B 端也有两个：

数字蚂力：专门成立的公司，做 AI 人机融合的企业服务，涵盖招聘培训、客户服务、技术开发等
百宝箱：智能体开发平台，商家机构可以 0 代码、1 分钟创建专属智能体，发布到支付宝

在这里，蚂蚁的打法有点不一样：没卷陪聊、生产力工具，沿着支付宝构建生活应用

这里做了张分享图，通过 Ling 画的，挺好看的

最后

在国庆假期的时候，和蚂蚁的技术人员也聊了聊，感觉很扎实

蚂蚁家的模型，这次是 Instruct 先发，思考模型 Ring 之后也会来

对于即将要发的 Ring，跑分暂时是这样（还在提升ing）

而 Ling，现在正式发布了，也有 API 能用，感兴趣的可以去跑跑看

HuggingFace：https://huggingface.co/inclusionAI/Ling-1T

GitHub：https://github.com/InclusionAI/Ling

在线体验：ling.tbox.cn（提供 API）

声明：包含AI生成内容

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.