网易首页 > 网易号 > 正文 申请入驻

独家|对话蚂蚁 Ling 团队:聊聊用国产卡降本这回事儿

0
分享至

作者 | 王一鹏

3 月 7 日,蚂蚁团队开源了两个 MoE 模型 Ling-Lite 和 Ling-Plus(中文名称为“百灵”),并发布了技术论文《Every Flop Counts》。其中 Ling-Lite 共有 168 亿参数,激活了 27.5 亿参数; Ling-Plus 共有 2900 亿参数,激活了 288 亿个参数。蚂蚁团队的研究方向是通过优化模型架构和训练过程、改进异常处理的训练方法、提高模型评估效率进一步降低模型的预训练成本。其尤为突出的一点是,使用规格相对较低的国产硬件,即可完成预训练工作,成本比使用更高规格的 NV 硬件,还要低 20%,是个非常因地制宜的技术方案。

不过,当该技术论文经由外媒报道,传回国内,围绕一些关键数据,却出现了误读——有报道称 Ling-Plus 模型使用低规格硬件的预训练成本为 508 万人民币,远低于 DeepSeek。但实际上,论文中提到的成本是在训练 1T token 的前提下实现的,与消耗了 14.8T Token (技术报告口径)的 DeepSeek V3 并不匹配 。

蚂蚁团队的工程师后续也在朋友圈进行了辟谣:“我们还没有做到比 DeepSeek 低”,并在知乎发布了补充性的技术解读内容:《关于我们抠 FLOPS 的一些点滴》。另有蚂蚁团队专家对 InfoQ 表示:DeepSeek V3/R1 的成本优化,是在 NV Hopper 卡上的极致优化;DeepSeek V3 的报告里展示了用 FP8 精度软硬件协同优化,和算法配合,得到了让人印象非常深刻的单次训练成本。

而 Ling-Plus 的成本优化工作,主要反映了 AI 基础设施的工程能力,要能持续运作、减少中断。这里的成本比较是从基础设施的角度进行的,经过优化组织、加入容错机制,相比于国外硬件,能更好的配合国产卡,实现更低的工程成本。

InfoQ 也与蚂蚁 Ling 团队做了一场简单的对话,希望能在上述技术材料外,给大家更多信息参考。以下为对话原文,在保持原意的清况下,略有删改。

InfoQ:能否帮我们简单回顾下《Every Flop Counts》论文里,我们实现的技术成绩?

Ling 团队:目前大模型研发领域比较公认的实践是,MoE 架构模型的训练与稠密模型相比,会困难很多,训练过程中的稳定性比较差,尤其是一些新架构,均衡难度较大。

在 Ling 这个 300B 的 MoE 模型的训练过程中,我们对此也深有体会,特别是当使用可以借鉴的材料更少的非 NVIDIA 加速卡的时候,我们“被迫”解决了很多问题。

很难说这些问题和解决方法算是成绩,但是我们分享出来的这些问题和解决方法、思路,对其他着手尝试这些加速卡的团队应该也有一定借鉴作用,大概能帮他们节省点时间。

InfoQ:具体是怎样的新思路?

Ling 团队:其实在国产卡上训练 300B 甚至更大量级的 MoE 模型,据我了解,并不只有蚂蚁一家在做,大家应该都不同程度地遇到了很多困难。

当我们看到,在不同算力平台上能跑出一模一样的 loss 曲线,我们非常兴奋。所以在我们完成一个大阶段的训练后,就第一时间把 Ling 开源了出来,同时分享了我们的一些思考、方法和经历。

我觉得这里面像 MoE 的 scaling law 分析、跨平台训练的一整套解决方案、还有一些 bitter lesson,对行业都有一定的借鉴意义。当然,无论从模型尺寸还是 benchmark 效果来看,Ling 都不是最顶尖的,业界还有很多优秀团队的模型效果值得我们去努力追赶。

当前 AI 领域的创新是以“天”记的,春节都不放假,我们对其他天才团队都很尊重。在实现 AGI 的路上,大家有竞争,但更重要的是在彼此印证、互相鼓励、共同进步。

InfoQ:如果对应着 R1 参数规模所消耗的 Token 量,Ling-Plus 的训练成本大概处于什么水平?怎么衡量?

Ling 团队:如果是在 Hopper 架构 GPU(比如 H800)上,DeepSeek V3(R1 的预训练模型)针对该架构优化得非常极致(比如 FP8 混合精度训练),再加上硬件成本也低,整体的训练成本要比 Ling 低不少。

但我觉得关于成本大家可能有一个误解,Ling 在训练上主要考虑的问题是如何实现非 Hopper 架构 GPU 上的训练,确保正确性,同时尽量降低成本,所以像 FP8 这种 Hopper 架构独有的特性,我们并没有考虑在内。在这个大的思路下,通过我们的一些技术努力,可以在国产加速卡上实现相当甚至更低的训练成本。但我个人觉得能不能训比成本高低要更重要。

另外,不管是 DeepSeek V3 还是 Ling,技术报告上提到的成本,都是参考价格和单次训练,其实并不是真实和完整开销,比如前期的技术预研,也都是巨大的投入。

InfoQ:为什么使用 NV 算力和国产算力,可以最终实现 loss 接近。通过软件优化,真的可以弥补硬件差距吗?

Ling 团队:实现 loss 非常接近,是软硬件一体的事情。国产算力在 TFLOPS 上虽然不如 NVIDIA 最高端的芯片,但至少在我们使用的这些平台上,硬件的计算精度本身都是没有问题的。而硬件稳定性来看,国产算力确实也还有差距。因此我们做了不少技术努力,比如训练监测框架 XPUTimer、loss 和 grad 尖刺监控机制等,来努力确保训练的稳定。

再看软件,国产算力的软件生态相比 NVIDIA 也有明显差距,在我们完成 loss 对齐的过程中,确实需要付出很多努力来进行算子、框架等的对齐,也非常庆幸最后努力没有白费。

InfoQ:各型号加速卡测试下来,综合体验如何?

Ling 团队:我们不方便点名所有用到的卡,但在训练过程中,我们确实尝试了不同厂家的不同型号的加速卡,具体限制很多,但这个限制也让我们体验到了国产加速卡的进步,作为模型研发团队,我们的首要目标肯定是训练出能力更强、效能更高的模型,既然异构问题客观存在,就要克服这些问题。

InfoQ:在 loss 对齐工作上,我们之前提到,团队曾定下了严苛标准:“基础算子(除符合预期的精度误差)完全对齐 + 分布式训练框架前后向计算完全对齐 + 大规模训练长跑 loss 差异低于 0.1%”,读者应该怎么形象地理解这个指标的严苛程度?

Ling 团队:把 MacOS 改成 Windows?我也不知道应该怎么比喻。实际就是把算子和训练框架几乎所有细节都摸了个遍。我在知乎文章也有提到,同时我们在做的 scaling law 研究发现:不训练直接预测 loss 的误差都能做到 0.5% 以内。这一定程度上说明 LLM 的 loss 是一个非常确定的东西,这么看的话,0.1% 也没有很苛刻吧。

InfoQ:AReaL 也开源了,能否简单聊聊 AReaL ?与《Every Flop Counts》的工作相比,该怎么衡量 AReaL 工作的重要性?

Ling 团队:AReaL 是蚂蚁和清华团队合作的一项工作,是使用强化学习方法进行推理模型训练的工作,之前开源了 0.1 版,0.2 版本正在研发中,应该很快也会发出。强化学习的方法也是最近很火的 DeepSeek-R1 的方法。非常理解大家想看一个简单的相互 PK,但在整个 AI 的历史进程中,使用优质数据(答案)的训练,和使用奖励机制的强化学习方式经常是交替被采纳的,没有预训练推进到一定程度,强化学习模型就很难取得成果,但一旦训练数据达到瓶颈的时候,强化学习方法就又回归视线,人的学习可能也是这样一个过程,从复读式学习,到从得到的正负反馈成长。

InfoQ:该如何描述大模型发展和高端算力的关系?目前 LLM Arena 里排名靠前的模型,还是靠着大规模 N 卡集群训练出来的。

Ling 团队:其实用国产算力做后训练和推理还是比做预训练要成熟不少的,Ling 的后训练也是在国产算力上完成的。

峰值算力、显存量、卡间互联带宽、还有一些新特性,比如低精度支持等,肯定都是多多益善,对提升训练效率或者训练成本都是非常有用的。

整体来看,NVIDIA GPU 的生态目前确实还是领先的,这个领先不仅体现在硬件性能更优秀,很大程度也体现在软件生态更成熟,以及相关的尝试经验更多。

这次我们开放出来的 Ling 就是国产万卡集群训练的结果,随着时间积累,相信很快就会有更多基于国产大规模集群的成果开放出来,这些经验的交流和累积,对于生态的成熟应该会有巨大帮助,这也是开源的意义之一。

InfoQ:团队接下来还有什么进一步规划?

Ling 团队:Ling 团队接下来在下一代基座模型、推理模型、多模态大模型上都会持续投入,我们近期就会开源一个基于 Ling-lite 蒸馏训练得到的长推理模型。

在基座模型方面,虽然目前 Ling 开源的模型最大尺寸是接近 300B,但实际上,更大尺寸的模型在国产卡上也是可以训练的。我们希望可以尽快可以跟大家分享新的基座模型成果,比如更高效的模型架构、更低成本的训练方法、更大尺寸的模型等等。

会议推荐

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
FIFA主席现场观战!伊朗男足含泪展示遇难儿童照 5-0横扫世界第51

FIFA主席现场观战!伊朗男足含泪展示遇难儿童照 5-0横扫世界第51

风过乡
2026-04-01 07:45:07
上汽集团:2025年度净利润约101.06亿元,同比增加506.45%

上汽集团:2025年度净利润约101.06亿元,同比增加506.45%

每日经济新闻
2026-04-01 20:35:05
出大事了,伊朗导弹精准斩首!大批美军官被抬走?英法德俄失声

出大事了,伊朗导弹精准斩首!大批美军官被抬走?英法德俄失声

二大爷观世界
2026-04-01 07:18:05
我在西藏旅游,一个喇嘛见我后突然跪下:活佛,我们等了您百年

我在西藏旅游,一个喇嘛见我后突然跪下:活佛,我们等了您百年

千秋文化
2026-01-29 21:35:02
蒙古国发达到啥程度了?我住了20天才知道现实没那么简单

蒙古国发达到啥程度了?我住了20天才知道现实没那么简单

复转这些年
2026-03-30 12:41:41
俄罗斯不卖油了!普京禁令一下,最惨的不是欧洲,而是两个邻国

俄罗斯不卖油了!普京禁令一下,最惨的不是欧洲,而是两个邻国

兴史兴谈
2026-03-31 13:25:58
货拉拉全新车型“多拉3米8”“多拉小货”亮相,携手五菱新能源深度定制

货拉拉全新车型“多拉3米8”“多拉小货”亮相,携手五菱新能源深度定制

华夏时报
2026-03-31 16:59:03
两种葬礼,两种人生,李昌钰和张雪峰的身后事,差距真是一目了然

两种葬礼,两种人生,李昌钰和张雪峰的身后事,差距真是一目了然

探源历史
2026-04-01 10:08:16
今夜贵州的天气又要搞事情!明天局地暴雨+强对流!

今夜贵州的天气又要搞事情!明天局地暴雨+强对流!

鲁中晨报
2026-04-01 19:05:16
科曼:这张红牌是可判的,若裁判不判可能都去不了世界杯执法

科曼:这张红牌是可判的,若裁判不判可能都去不了世界杯执法

懂球帝
2026-04-01 06:33:08
他是梁山最完美的好汉,除了贪色别无缺点,宋江也从不敢招惹他

他是梁山最完美的好汉,除了贪色别无缺点,宋江也从不敢招惹他

耳东文史
2026-03-31 00:07:19
真没想到!喀麦隆将士、媒体眼中的国足,竟是这样的!

真没想到!喀麦隆将士、媒体眼中的国足,竟是这样的!

五姑娘台球
2026-04-01 11:46:49
王曼昱3比0阿库拉 国乒六女将均进澳门世界杯16强

王曼昱3比0阿库拉 国乒六女将均进澳门世界杯16强

体坛周报
2026-04-01 20:02:18
二选一!湖人首轮对手基本锁定,一只脚已经踏进半决赛了

二选一!湖人首轮对手基本锁定,一只脚已经踏进半决赛了

寒律
2026-04-01 19:13:39
捷克主帅赛后落泪:赛前我告诉球员,今天要终结20年无缘世界杯的噩梦

捷克主帅赛后落泪:赛前我告诉球员,今天要终结20年无缘世界杯的噩梦

懂球帝
2026-04-01 14:21:17
年度最猛画面,早该拍了,终于拍了

年度最猛画面,早该拍了,终于拍了

吐槽电影院
2026-03-31 10:36:45
炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

乒乓助手
2026-03-24 00:05:50
雷迪克连续两个赛季率队50胜 成湖人队史自禅师之后首位主教练

雷迪克连续两个赛季率队50胜 成湖人队史自禅师之后首位主教练

北青网-北京青年报
2026-04-01 19:58:10
股市大局已定:不出意外的话,2026年起中国A股将迎来3大变化

股市大局已定:不出意外的话,2026年起中国A股将迎来3大变化

财经保探长
2026-03-30 23:34:02
孙俪“土味”小院火上热搜!不秀豪宅只种菜,网友羡慕:向往生活

孙俪“土味”小院火上热搜!不秀豪宅只种菜,网友羡慕:向往生活

东方不败然多多
2026-04-01 20:23:22
2026-04-01 21:11:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1402文章数 144关注度
往期回顾 全部

科技要闻

甲骨文血洗3万人,47人团队仅留3人

头条要闻

张雪妻子:从同学到夫妻 丈夫为了家哭着去工厂上班

头条要闻

张雪妻子:从同学到夫妻 丈夫为了家哭着去工厂上班

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

宋宁峰人设崩塌!带娃偷情+反向索赔

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

艺术
亲子
旅游
数码
公开课

艺术要闻

Alexandra Manukyan油画选刊(二)

亲子要闻

自从知道出扶梯要抬脚之后,娃子早早就做好了准备

旅游要闻

春假首日,江苏各大景区人气爆棚“青春力”拉满

数码要闻

OPPO K15 Pro 系列发布,新一代疾风散热引擎 首销2464元起售

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版