网易首页 > 网易号 > 正文 申请入驻

摩尔线程S5000实现Qwen3-0.6B端到端无中断训练,精度超越基线

0
分享至

近日,北京智源人工智能研究院(简称:智源研究院)正式发布重磅验证成果:六款AI芯片、三大模型、同构+异构千卡——众智FlagOS以统一技术栈完成AI训练“全要素”验证。

作为本次验证的核心参与厂商之一,摩尔线程基于旗舰级AI训推一体全功能GPU智算卡MTT S5000,完整适配了FlagOS训练全要素软件栈——包括FlagScale系统调度决策框架、Megatron-LM分布式训练框架、Transformer Engine加速库、FlagGems与Triton算子库,以及FlagCX通信库。

在此次严苛的验证中,MTT S5000面向Qwen3-0.6B语言模型完成了1T Tokens从头训练验证,实现连续6天以上、超过14000步的无中断稳定训练。训练所得模型 Loss 曲线与基线高度一致,平均相对误差控制在0.82%以内;在标准下游任务评测中,较行业标杆基线提升1.65个百分点,充分验证了全功能GPU算力在大模型端到端训练中的稳定性与有效性。



长周期高负载验证:

4机32卡无中断,6+天稳定训练

此次FlagOS全要素适配与验证工作,旨在检验多元AI算力在统一软件栈下的端到端训练能力。摩尔线程与智源团队紧密协作,高效完成了底层适配与系统调优,并于春节前正式启动全流程训练验证。

在实际训练中,摩尔线程采用4机32卡配置,面向 Qwen3-0.6B语言模型开展训练。在超过6天的连续训练周期内,系统稳定完成 1T Tokens 数据量的超过14000步迭代,期间未发生任何软硬件中断。这一结果回应了业界对国产算力大规模训练稳定性的核心关切,也进一步证明了基于MTT S5000构建的训练集群在长时间、高负载场景下的可靠性,充分验证国产算力已具备支撑企业级大模型预训练任务的能力。

精度稳定对齐:

Loss曲线高度一致,评测效果优于基线

大模型训练的核心诉求,不仅在于算力规模与性能,更在于训练过程中的稳定性、收敛效果和最终模型质量。其中,训练精度是基石,下游任务评测效果则是检验训练成效的关键指标。

在FlagOS统一软件栈的调度下,采用完全对齐的数据集和训练参数,基于MTT S5000集群的训练过程呈现出与国际主流产品基线高度一致的Loss收敛曲线平均相对误差控制在0.82%以内。与此同时,在标准的下游任务评测中,基于MTT S5000训练的模型,取得了比行业标杆基线高出1.65个百分点的结果表现。

与基线评测偏差的计算方法(后面的计算方式类似):



Qwen3-0.6B评测结果(正数是优于基线)



这一结果表明,开发者基于公开的模型结构与数据集,即可在摩尔线程MTT S5000算力平台上,获得与国际主流平台精度相当,并在部分评测指标上实现更优表现的大模型训练效果。

此外,摩尔线程基于MTT S5000的训练能力已在更大规模场景中得到验证。今年1月,依托摩尔线程MTT S5000千卡智算集群FlagOS成功完成智源自研具身大脑模型RoboBrain 2.5的全流程训练与优化验证。结果显示,其Loss曲线与国际主流产品基线高度一致,最终结果相对误差小于0.62%;在64卡至1024卡规模区间内,多组实验均实现超过90%的线性扩展效率。该案例表明,摩尔线程基于MTT S5000的训练能力不仅可支撑长周期端到端验证,也具备向更大规模、更复杂模型场景持续延展的能力。

RoboBrain2.5模型评测效果



端到端训练Loss曲线



软硬创新协同:

打造高质量大模型训练底座

此次验证成绩的取得,离不开摩尔线程在芯片架构、通信能力、计算单元协同以及FP8训练支持等方面的持续打磨。基于MTT S5000,摩尔线程正不断完善面向大模型训练的软硬件能力,为训练稳定性、精度表现和规模扩展提供坚实支撑。

▼架构级精度优化:深入打磨矩阵乘法(GEMM)算子

矩阵乘法(GEMM)是大模型训练中的核心算子之一,其数值精度直接影响Loss曲线的收敛表现与最终模型效果。围绕这一关键环节,摩尔线程团队在MTT S5000的架构设计阶段,便针对浮点运算的舍入模式、累加路径等关键计算链路进行了精细化优化。这种来自架构层面的持续打磨,使得MTT S5000在长时间训练过程中保持更稳定的数值表现,为模型训练精度对齐及下游评测效果提升提供了坚实的底层保障。

▼ACE异步通信引擎:让计算与通信更高效并行

在大规模分布式并行训练中,卡间通信往往会与计算任务争抢带宽及核心资源,成为制约扩展效率的瓶颈。MTT S5000创新性地内置了ACE(Asynchronous Communication Engine,异步通信引擎),作为独立的硬件通信单元,能够在不占用计算核心资源的情况下,高效完成跨卡间的all_reduce、all_gather等集合通信操作。得益于ACE,通信与计算得以更深度地并行协同——当Tensor Core(张量计算核心)在进行繁重的矩阵运算时,ACE已在后台并行完成梯度同步,为大规模训练带来更高的资源利用效率。摩尔线程在千卡规模训练中能保持超过90%的线性扩展效率,正是这一设计优势的重要体现。

▼多计算单元协同:Tensor Core与Vector Core高效配合

为了更好适配大模型训练中多样化的计算负载,MTT S5000在算力单元的设计上,对Tensor Core与Vector Core(向量计算单元)进行了针对性的配置与协同优化。在实际调度中,密集的矩阵运算交给Tensor Core处理,而LayerNorm、Softmax、激活函数等偏向内存或带宽密集型算子则交由Vector Core高效执行。基于这一硬件特性,摩尔线程联合智源团队对FlagOS进行了深度的软件栈调优,最终在FlashAttention等关键算子上实现了超过90%的计算资源利用率,进一步释放了平台的训练潜力。

▼原生FP8支持:协同MT-Megatron稳定高效释放Grouped GEMM潜力

随着模型参数规模迈入千亿甚至万亿级别,低精度训练已成为提升训练效率的重要方向。MTT S5000在硬件层面原生支持FP8数据精度,为更高吞吐的大模型训练提供了基础能力。通过底层算子库的高效优化,其FP8 Grouped GEMM性能在实际场景中取得了超过700TFLOPs的性能表现。同时,摩尔线程对MT-Megatron分布式训练框架进行了深度适配与优化,进一步提升了FP8训练在主流大模型上的稳定性与可收敛性,能够为包括DeepSeek-V3在内的大模型训练提供有效支撑。

从训练稳定性、收敛精度到下游任务效果,摩尔线程基于 MTT S5000 交出的这份成绩单表明,在统一技术栈下,国产全功能GPU不仅验证了大模型端到端训练的可用性,也展现出在实际训练效果上持续提升的潜力。

北京智源人工智能研究院副院长兼总工程师林咏华表示:“长期以来,‘对齐CUDA’只是行业在缺乏替代方案下‘不得已为之’的对齐标准。但如果能获得比CUDA更优的实际训练效果,才是产业界共同的期待,才能让系统架构百花齐放、勇于创新。摩尔线程在训练实测中超过了国际主流产品的表现,证明了这种期待已经有实现的可能性了。”

未来,摩尔线程将继续深化与智源研究院及生态伙伴的合作,以自主创新的全功能GPU算力底座,推动多元算力从“普适”走向“普惠”,为中国大模型研发提供开放、高效、可规模化复制的“国产算力训练范式”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
FBI点名3类中国App:1条权限能扒光你通讯录

FBI点名3类中国App:1条权限能扒光你通讯录

我是一个粉刷匠2
2026-04-03 22:29:41
伪造学历插班风波升级! 湖南大学中国留学生提起诉讼抗议驱逐出境令

伪造学历插班风波升级! 湖南大学中国留学生提起诉讼抗议驱逐出境令

新浪财经
2026-04-05 16:34:32
前31轮11负,加斯佩里尼是意甲3分制时代罗马主帅第二人

前31轮11负,加斯佩里尼是意甲3分制时代罗马主帅第二人

懂球帝
2026-04-06 05:00:15
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

医学科普汇
2026-01-29 06:25:03
狂揽千亿!全球巨头想不通:一个中国县城凭啥能配齐整辆车零件?

狂揽千亿!全球巨头想不通:一个中国县城凭啥能配齐整辆车零件?

毒sir财经
2026-04-05 20:54:41
新中国成立后,清政府遗留7.3亿两白银烂账,主席一招便成功化解

新中国成立后,清政府遗留7.3亿两白银烂账,主席一招便成功化解

唠叨说历史
2026-01-07 14:51:34
领导上班都在干嘛?网友说:老总搞了个包房经理和人事轮流去陪他

领导上班都在干嘛?网友说:老总搞了个包房经理和人事轮流去陪他

黯泉
2026-04-05 20:47:13
离谱!曝郭艾伦及家人遭熟人诈骗千万 已向公安机关报案

离谱!曝郭艾伦及家人遭熟人诈骗千万 已向公安机关报案

狼叔评论
2026-04-05 21:26:06
原来真的会“吓不长”!那些童年被吓到崩溃的孩子,后来都怎样了

原来真的会“吓不长”!那些童年被吓到崩溃的孩子,后来都怎样了

日落于西
2026-03-20 12:23:08
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
史上最愚蠢营救行动,造成大量人员伤亡,事后拒不道歉……

史上最愚蠢营救行动,造成大量人员伤亡,事后拒不道歉……

极品小牛肉
2024-08-24 19:35:51
女子赴发小婚礼穿瑜伽裤,打扮过于火辣,网友直呼跟没穿似的

女子赴发小婚礼穿瑜伽裤,打扮过于火辣,网友直呼跟没穿似的

一盅情怀
2026-03-16 17:28:45
世界杯奖金榜:王楚钦夺冠62万,陈幸同12万第9

世界杯奖金榜:王楚钦夺冠62万,陈幸同12万第9

吴锎旅行ing
2026-04-06 05:32:31
coco曝完谢家丑闻后,张柏芝转头独自照顾四个孩子

coco曝完谢家丑闻后,张柏芝转头独自照顾四个孩子

君笙的拂兮
2026-03-22 07:13:00
这才是女性最耐看的长相,体型也拥有丰腴之美

这才是女性最耐看的长相,体型也拥有丰腴之美

小椰的奶奶
2026-04-05 12:50:29
别让腰痛毁掉你的下半生!每天10分钟,腰板直得像20岁

别让腰痛毁掉你的下半生!每天10分钟,腰板直得像20岁

徐孟医生说疼痛
2026-04-03 07:00:15
闹崩了!浪姐直播紧急叫停,姐姐们集体抗议:熬不动了

闹崩了!浪姐直播紧急叫停,姐姐们集体抗议:熬不动了

手工制作阿歼
2026-04-06 01:31:11
前英超球星纳斯里逃税翻车!一年212次巴黎外卖出卖了他

前英超球星纳斯里逃税翻车!一年212次巴黎外卖出卖了他

仰卧撑FTUer
2026-04-05 13:00:06
热搜第2!郭艾伦出事了,被骗近千万,2年白干,赵探长说得很透彻

热搜第2!郭艾伦出事了,被骗近千万,2年白干,赵探长说得很透彻

萌兰聊个球
2026-04-05 21:52:07
董宇辉:买到AB货那恭喜你,按照平台是要退一赔十的

董宇辉:买到AB货那恭喜你,按照平台是要退一赔十的

映射生活的身影
2026-04-05 10:23:45
2026-04-06 07:16:49
爱集微 incentive-icons
爱集微
集微网官方账号
109318文章数 98341关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗军方:过去两天击落美军12架战机

头条要闻

伊朗军方:过去两天击落美军12架战机

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

手机
数码
亲子
本地
军事航空

手机要闻

OPPO Find X9s Pro银色哈苏专业增距镜亮相:观赛神器 颜值拉满

数码要闻

大胆复古美学,海盗船推出原子紫配色K65 PLUS WIRELESS机械键盘

亲子要闻

小英自曝给女儿剪短发原因!怕头发抢营养长不高,想剃光头太真实

本地新闻

跟着歌声游安徽,听古村回响

军事要闻

美飞行员获救细节:美伊发生激烈交火 至少4死1伤

无障碍浏览 进入关怀版