国产万亿参数模型开源，FP8训练，性能超DeepSeek V3.1|编程|fp8训练|深度思考模型|deepseek

国产万亿参数模型开源，FP8训练，性能超DeepSeek V3.1

2025-10-09 15:42:14　来源: 智东西

北京举报

分享至

智东西
作者王涵
编辑漠影

智东西10月9日消息，昨日夜间，蚂蚁集团正式开源Ling 2.0系列中首个旗舰级非思考模型Ling-1T，参数量达到1T（1万亿）！

Ling-1T-base基于Ling 2.0架构构建，在超20T token的语料上完成预训练，支持最高128K上下文窗口。

Ling-1T全程采用FP8混合精度训练，是目前已知规模最大的使用FP8训练的基座模型。通过“中训练+后训练”的演进式思维链（Evo-CoT）技术，该模型的高效推理能力得到有效提升。

Ling-1T在推理、数学以及编程等基准测试中取得22项SOTA表现，部分基准测试超越DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905，复杂推理能力可媲美闭源API。

Ling-1T现已在Hugging Face和魔搭社区全面开源。

开源地址：

HuggingFace：

https://huggingface.co/inclusionAI/Ling-1T

ModelScope：

https://modelscope.cn/models/inclusionAI/Ling-1T

Ling chat（国内用户）：

https://ling.tbox.cn/chat

ZenMux（海外开发者，提供Chat测试与API等能力）：

https://zenmux.ai/inclusionai/ling-1t

一、数学推理能力SOTA，超越Gemini-2.5-Pro和DeepSeek-V3.1-Terminus

Ling-1T在7项有关数学以及推理能力的基准测试中获得SOTA表现。在MultiPL-E、LiveCedeBenchi2408-25051、CadeForces-raling以及FullStack Bench等编程能力基准测试中，Ling-1T超越DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905以及闭源的GPT-5-main、Gemini-2.5-Pro。

在AIME 25基准测试中，Ling-1T拓展了推理精度与推理长度的帕累托边界，展示了其在“高效思考与精准推理”方面的优势。

Ling-1T结合了深度语义理解与精准代码合成，在视觉推理与前端代码生成任务中表现较好。研究团队引入混合语法-功能-美学奖励机制，使模型不仅能生成正确且功能完整的代码，还展现出精致的视觉美感。

在AI代码生成评测标准ArtifactsBench上，Ling-1T在开源模型中排名第一，且本文中的基准可视化内容实际均由Ling-1T自身生成。在BFCL V3工具使用基准测试中，Ling-1T仅通过轻度指令微调即实现约70%的工具调用准确率，尽管训练期间未接触大规模轨迹数据。

Ling-1T能够解析复杂自然语言指令，将抽象逻辑转化为功能化视觉组件，还能生成跨平台兼容的前端代码，以及生成创作风格受控的营销文案与多语种文本，这些能力构成了通用协作人机智能的基础。

例如，让Ling-1T开发一个展示《三体》主要人物关系及阵营的图谱页面，并提供详细的视觉效果要求（配色、风格、鼠标悬停效果等）。

让Ling-1T根据要求开发Crane云平台网页，其完整实现了用户登录、数据仪表盘、客户管理、设备管理等功能。

再比如，Ling-1T 开发的“在线塔罗牌运势预测”页面，完整实现了首页、占卜流程、运势报告、塔罗数据库、用户评价、塔罗知识小贴士等产品功能。

Ling还可以生成随意控制的六边形+小球运动：

指令：写一个HTML脚本，展示1个小球在旋转的六边形内弹跳碰撞，需要满足如下要求：
1. 六边形大小可以实时调整
2. 六边形旋转速度可以实时调整
3. 小球大小可以实时调整
4. 小球和六边形间的碰撞符合物理规律，需要考虑重力、摩擦力、反弹力等等

还可以要求Ling-1T开发一个展示其自身不同写作风格能力的应用，包括前端页面和后端服务调用脚本。

Ling-1T可以根据提示词要求，对六种常见的优化问题（线性规划、旅行商问题、车辆路径问题、作业调度、最大流求解、交互式数独）进行求解并同时用pygame生成教学演示动画。

更日常一些，Ling-1T能够根据给定信息和要求（酒店、目的地坐标，步行为主，停留时长等）进行上海一日游行程规划，并开发页面，利用mapbox地图引擎展示整个行程。

Ling-1T还能玩扫雷游戏。

二、1万亿总参数、500亿激活参数，Ling-1T预训练推理语料占比超40%

Ling 2.0架构基于Ling缩放定律指导，确保了即使在1e25–1e26 FLOPs计算量下仍保持架构与超参数的可扩展性。

关键架构创新包括：

1、1万亿总参数/500亿激活参数，混合专家激活比为1/32；

2、MTP层用于增强组合推理；

3、无辅助损失、S型函数评分专家路由与零均值更新；

4、QK归一化实现完全稳定收敛。

Ling-1T全程采用FP8混合精度训练，是目前已知规模最大的使用FP8训练的基座模型。FP8混合精度训练可以实现15%以上的端到端加速，提升内存效率，并在1万亿token训练中保持与BF16精度损失偏差≤0.1%。

由于Ling 2.0的层间异构架构容易导致流水线负载不均，研究团队将interleaved 1F1B pipeline改进为异构细粒度pipeline，实现了更精细的流水线编排与更低的空泡率，带来超过40%的端到端加速。

此外，研究团队还在算子融合、通信优化、重计算、Checkpoint 存储、仿真训练与细粒度监控等方面进行了系统性优化。其研究团队透露，其中大量设计思路和技术方案源自开源社区。

训练阶段，Ling-1T使用了超过20万亿个高质量token，研究团队在第二阶段（后10T token）的预训练中引入了高推理密度语料，使整个预训练过程中推理相关语料的占比超过40%。

在中训练（Mid-training）阶段，研究团队进一步加入了高质量的思维链推理语料，这一策略能够有效实现模型推理能力的 “预激活”，为后训练阶段提供更高的推理上限和更稳定的思维基础。

与Ling-mini-2.0、Ling-flash-2.0类似，Ling-1T也采用了自研的WSM （Warmup-Stable and Merge）LR scheduler。通过mid-training checkpoint merging来模拟LR decay，进一步获得下游任务的整体提升。

基于训练中期的推理激活基础，Ling-1T的后训练阶段采用进化思维链（Evo-CoT）方法，在可控成本下实现渐进式推理增强。该技术持续拓展推理精度与效率的帕累托边界，特别适合反射式非思考模型。

强化学习方面，研究团队提出LPO，即语言学单元策略优化，是一种创新的句子级策略优化方法。研究团队认为，对于推理任务而言，句子是更符合语义逻辑的动作单元。

与GRPO（token级）或GSPO（序列级）算法不同，LPO以句子为自然语义动作单元，实现奖励信号与推理行为的精准对齐。实证表明，LPO在推理任务中具有更优的训练稳定性与泛化能力。

结语：Ling-1T在自动化开发、智能编程助手等场景具有落地潜能

蚂蚁集团通过开源Ling-1T，为开源社区带来了首个万亿参数级别的旗舰非思考模型。凭借Evo-CoT演进式思维链、LPO句子级强化学习等创新技术，Ling-1T在保持高效能的同时，实现了与闭源顶级模型相媲美的复杂推理能力。

从应用前景看，Ling-1T在前端代码生成、视觉理解等场景展示的实用能力，以及仅通过轻度指令微调就能实现约70%工具调用准确率的表现，使其在自动化开发、智能编程助手等场景具有应用落地潜能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.