网易首页 > 网易号 > 正文 申请入驻

国产万亿参数模型开源,FP8训练,性能超DeepSeek V3.1

0
分享至


智东西
作者 王涵
编辑 漠影

智东西10月9日消息,昨日夜间,蚂蚁集团正式开源Ling 2.0系列中首个旗舰级非思考模型Ling-1T参数量达到1T(1万亿)

Ling-1T-base基于Ling 2.0架构构建,在超20T token的语料上完成预训练,支持最高128K上下文窗口。

Ling-1T全程采用FP8混合精度训练,是目前已知规模最大的使用FP8训练的基座模型。通过“中训练+后训练”的演进式思维链(Evo-CoT)技术,该模型的高效推理能力得到有效提升。

Ling-1T在推理、数学以及编程等基准测试中取得22项SOTA表现,部分基准测试超越DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905,复杂推理能力可媲美闭源API。


Ling-1T现已在Hugging Face和魔搭社区全面开源。

开源地址:

HuggingFace:

https://huggingface.co/inclusionAI/Ling-1T

ModelScope:

https://modelscope.cn/models/inclusionAI/Ling-1T

Ling chat(国内用户):

https://ling.tbox.cn/chat

ZenMux(海外开发者,提供Chat测试与API等能力):

https://zenmux.ai/inclusionai/ling-1t

一、数学推理能力SOTA,超越Gemini-2.5-Pro和DeepSeek-V3.1-Terminus

Ling-1T在7项有关数学以及推理能力的基准测试中获得SOTA表现。在MultiPL-E、LiveCedeBenchi2408-25051、CadeForces-raling以及FullStack Bench等编程能力基准测试中,Ling-1T超越DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905以及闭源的GPT-5-main、Gemini-2.5-Pro



在AIME 25基准测试中,Ling-1T拓展了推理精度与推理长度的帕累托边界,展示了其在“高效思考与精准推理”方面的优势。


Ling-1T结合了深度语义理解与精准代码合成,在视觉推理与前端代码生成任务中表现较好。研究团队引入混合语法-功能-美学奖励机制,使模型不仅能生成正确且功能完整的代码,还展现出精致的视觉美感。

在AI代码生成评测标准ArtifactsBench上,Ling-1T在开源模型中排名第一,且本文中的基准可视化内容实际均由Ling-1T自身生成。在BFCL V3工具使用基准测试中,Ling-1T仅通过轻度指令微调即实现约70%的工具调用准确率,尽管训练期间未接触大规模轨迹数据。

Ling-1T能够解析复杂自然语言指令,将抽象逻辑转化为功能化视觉组件,还能生成跨平台兼容的前端代码,以及生成创作风格受控的营销文案与多语种文本,这些能力构成了通用协作人机智能的基础。

例如,让Ling-1T开发一个展示《三体》主要人物关系及阵营的图谱页面,并提供详细的视觉效果要求(配色、风格、鼠标悬停效果等)。

让Ling-1T根据要求开发Crane云平台网页,其完整实现了用户登录、数据仪表盘、客户管理、设备管理等功能。

再比如,Ling-1T 开发的“在线塔罗牌运势预测”页面,完整实现了首页、占卜流程、运势报告、塔罗数据库、用户评价、塔罗知识小贴士等产品功能。

Ling还可以生成随意控制的六边形+小球运动:

指令:写一个HTML脚本,展示1个小球在旋转的六边形内弹跳碰撞,需要满足如下要求:
1. 六边形大小可以实时调整
2. 六边形旋转速度可以实时调整
3. 小球大小可以实时调整
4. 小球和六边形间的碰撞符合物理规律,需要考虑重力、摩擦力、反弹力等等

还可以要求Ling-1T开发一个展示其自身不同写作风格能力的应用,包括前端页面和后端服务调用脚本。

Ling-1T可以根据提示词要求,对六种常见的优化问题(线性规划、旅行商问题、车辆路径问题、作业调度、最大流求解、交互式数独)进行求解并同时用pygame生成教学演示动画。

更日常一些,Ling-1T能够根据给定信息和要求(酒店、目的地坐标,步行为主,停留时长等)进行上海一日游行程规划,并开发页面,利用mapbox地图引擎展示整个行程。

Ling-1T还能玩扫雷游戏。


二、1万亿总参数、500亿激活参数,Ling-1T预训练推理语料占比超40%

Ling 2.0架构基于Ling缩放定律指导,确保了即使在1e25–1e26 FLOPs计算量下仍保持架构与超参数的可扩展性。

关键架构创新包括:

1、1万亿总参数/500亿激活参数,混合专家激活比为1/32

2、MTP层用于增强组合推理;

3、无辅助损失、S型函数评分专家路由与零均值更新;

4、QK归一化实现完全稳定收敛。


Ling-1T全程采用FP8混合精度训练,是目前已知规模最大的使用FP8训练的基座模型。FP8混合精度训练可以实现15%以上的端到端加速,提升内存效率,并在1万亿token训练中保持与BF16精度损失偏差≤0.1%

由于Ling 2.0的层间异构架构容易导致流水线负载不均,研究团队将interleaved 1F1B pipeline改进为异构细粒度pipeline,实现了更精细的流水线编排与更低的空泡率,带来超过40%的端到端加速。

此外,研究团队还在算子融合、通信优化、重计算、Checkpoint 存储、仿真训练与细粒度监控等方面进行了系统性优化。其研究团队透露,其中大量设计思路和技术方案源自开源社区。


训练阶段,Ling-1T使用了超过20万亿个高质量token,研究团队在第二阶段(后10T token)的预训练中引入了高推理密度语料,使整个预训练过程中推理相关语料的占比超过40%

在中训练(Mid-training)阶段,研究团队进一步加入了高质量的思维链推理语料,这一策略能够有效实现模型推理能力的 “预激活”,为后训练阶段提供更高的推理上限和更稳定的思维基础。

与Ling-mini-2.0、Ling-flash-2.0类似,Ling-1T也采用了自研的WSM (Warmup-Stable and Merge)LR scheduler。通过mid-training checkpoint merging来模拟LR decay,进一步获得下游任务的整体提升。

基于训练中期的推理激活基础,Ling-1T的后训练阶段采用进化思维链(Evo-CoT)方法,在可控成本下实现渐进式推理增强。该技术持续拓展推理精度与效率的帕累托边界,特别适合反射式非思考模型。

强化学习方面,研究团队提出LPO,即语言学单元策略优化,是一种创新的句子级策略优化方法。研究团队认为,对于推理任务而言,句子是更符合语义逻辑的动作单元。

与GRPO(token级)或GSPO(序列级)算法不同,LPO以句子为自然语义动作单元,实现奖励信号与推理行为的精准对齐。实证表明,LPO在推理任务中具有更优的训练稳定性与泛化能力



结语:Ling-1T在自动化开发、智能编程助手等场景具有落地潜能

蚂蚁集团通过开源Ling-1T,为开源社区带来了首个万亿参数级别的旗舰非思考模型。凭借Evo-CoT演进式思维链、LPO句子级强化学习等创新技术,Ling-1T在保持高效能的同时,实现了与闭源顶级模型相媲美的复杂推理能力。

从应用前景看,Ling-1T在前端代码生成、视觉理解等场景展示的实用能力,以及仅通过轻度指令微调就能实现约70%工具调用准确率的表现,使其在自动化开发、智能编程助手等场景具有应用落地潜能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

界面新闻
2026-03-26 16:51:04
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

智东西
2026-03-26 20:49:23
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

毒舌NBA
2026-03-26 13:11:59
中国移动官宣!4月30日起全国统一执行,事关所有手机号

中国移动官宣!4月30日起全国统一执行,事关所有手机号

Thurman在昆明
2026-03-26 13:35:46
偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

TVB的四小花
2026-03-24 12:22:03
最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

魔都姐姐杂谈
2026-03-24 20:50:19
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

财联社
2026-03-26 18:29:05
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
恭喜!“CBA第一恶人”许钟豪,正式上任主教练,曾帮广厦夺冠

恭喜!“CBA第一恶人”许钟豪,正式上任主教练,曾帮广厦夺冠

吴朑爱游泳
2026-03-26 23:22:01
2026-03-27 00:43:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11443文章数 117016关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
亲子
本地
公开课
军事航空

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

亲子要闻

看看把孩子吓得哈哈哈

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版