网易首页 > 网易号 > 正文 申请入驻

凭借三大核心技术,壁仞科技完成Qwen3旗舰模型训练适配与优化

0
分享至

近日,在高效适配Qwen3系列模型推理后,壁仞科技宣布完成旗舰版Qwen3-235B-A22B模型的训练适配和优化。由此,壁仞科技已实现Qwen3系列模型在国产GPU平台的高效全栈式训练与推理支持。

4月29日,阿里巴巴通义千问正式发布并开源8款新版Qwen3系列“混合推理模型”。从官方披露的数据来看,旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1等顶级模型相比,表现出极具竞争力的结果。

壁仞科技在Qwen3发布后数小时内完成了全系列模型的推理支持。受益于前期适配DeepSeek-V3满血版训练的关键技术和成功经验,壁仞科技进一步升级快速实现Qwen3-235B-A22B旗舰版最大参数量模型的训练适配与优化支持。基于壁仞科技自研Megatron-LM-BR训练插件,用户可实现大模型零代码修改下无缝运行,开箱即用。

值得关注的是,Megatron-LM-BR融合了壁仞科技自主知识产权的三大核心技术:虚拟层+动态重排、Async Offload、多维算子融合,实现了适配通用性与训练性能的双重保障。

业界首创"虚拟层+动态重排"技术,显著降低流水线气泡

阿里开源的Pai-Megatron-Patch发布了Qwen3 MoE 模型的最佳实践,但Qwen3-235B-A22B模型包含94个Transformer Layer,其默认的策略如PP8无法均衡切分Layer导致无法使用Interleave with Virtual Pipeline高效流水线机制,因此造成流水线等待问题。壁仞科技基于Megatron-LM-BR自主研发了"虚拟层+动态重排"技术:通过插入两个虚拟层将总层数扩展至96层,实现均匀切分以支持Interleave with Virtual Pipeline机制;同时对部分Layer进行动态重排,使流水线计算通信负载均衡,从而显著降低流水线气泡率。

业界首创Async Offload技术,实现精度无损极速预训练

为发挥算力优势和提升显存效率,壁仞科技自主研发Async Offload(异步卸载)机制:将大量激活张量和优化器状态异步迁移至CPU内存,仅使用64张GPU卡即可支持Qwen3-235B-A22B精度无损的全参模型高效预训练;而业界其他已发布案例至少需要256卡,另外其他方案如FP8可以降低显存消耗,但容易对精度产生影响。壁仞科技同时还支持智能重计算策略,动态识别显存瓶颈层,实现"算力换空间"智能决策。通过Async Offload和重计算显存优化双擎技术,壁仞科技实现了算力开销和显存节约的最佳均衡。

融合算子多维加速体系,充分释放算力潜能

针对GroupedMLP、Permutation、Unpermutation等关键耗时算子,壁仞科技基于其GPU架构特点实现了泛化的图算/通算融合优化。支持多计算操作极致的片上融合、张量处理器与矢量处理器极致异步融合、多级缓存的流水融合、以及计算与通信融合,并进一步引入自动化的Kernel Selection技术,基于硬件计算/通信/访存建模的Cost Model针对不同工作负载自适应选择最优内核实现,将芯片综合能效发挥到极致,同时也确保了通用的泛化能力。在保持精度无损的同时,达成计算效率、硬件利用率与内存带宽的多维度协同优化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多名院士研究发现:吃一根玉米,就等于给血脂添一次堵,真假?

多名院士研究发现:吃一根玉米,就等于给血脂添一次堵,真假?

王医生健康讲坛
2026-06-21 18:20:13
日本毫米级门线悬案:门将极限扑救 VAR认定没有进球

日本毫米级门线悬案:门将极限扑救 VAR认定没有进球

快科技
2026-06-22 00:26:11
色欲焚心屠尽邻家三姐妹,8轮审讯滴水不漏,南宁特大碎尸案始末

色欲焚心屠尽邻家三姐妹,8轮审讯滴水不漏,南宁特大碎尸案始末

易玄
2026-06-12 01:24:52
千万别在健身房穿灰色裤子运动!这也太尴尬了...

千万别在健身房穿灰色裤子运动!这也太尴尬了...

健身迷
2026-06-09 17:37:16
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

番外行
2026-02-26 19:53:05
一个妓女从业10年后的职场领悟:见过太多的男人,比心理专家还懂得人性

一个妓女从业10年后的职场领悟:见过太多的男人,比心理专家还懂得人性

心理观察局
2026-06-14 06:57:02
菲防长要完蛋?中方制裁不到十天,又被国内质疑:你是哪国防长?

菲防长要完蛋?中方制裁不到十天,又被国内质疑:你是哪国防长?

削桐作琴
2026-06-22 00:29:14
雷军回应“早餐摆拍被吐槽”:大家看到这些报道,笑一笑就好

雷军回应“早餐摆拍被吐槽”:大家看到这些报道,笑一笑就好

新浪财经
2026-06-21 16:40:23
反转!顺德渔村起诉避雨母子?庄庄删号!

反转!顺德渔村起诉避雨母子?庄庄删号!

布丁冰淇淋
2026-06-21 22:00:01
热刺快签费尔南德斯!皇马补腰计划遭重击

热刺快签费尔南德斯!皇马补腰计划遭重击

赛场速报局
2026-06-21 00:16:31
南美第2天塌了!世界杯两轮仅拿1分 末轮不赢德国便出局

南美第2天塌了!世界杯两轮仅拿1分 末轮不赢德国便出局

球事百科吖
2026-06-21 10:47:47
罗伊·基恩炮轰英格兰太太团:穿球衣秀恩爱,一年后多半分手

罗伊·基恩炮轰英格兰太太团:穿球衣秀恩爱,一年后多半分手

星河漫山野
2026-06-22 00:08:59
伊朗队主教练:球员在上场前体能已透支

伊朗队主教练:球员在上场前体能已透支

新快报新闻
2026-06-21 23:07:03
根据马云对未来房价预测:300万的房子,到2030年还能值多少钱?

根据马云对未来房价预测:300万的房子,到2030年还能值多少钱?

专业聊房君
2026-05-14 07:30:29
钱再多有什么用?50岁功成名就的撒贝宁,还是要为82岁父亲操碎心

钱再多有什么用?50岁功成名就的撒贝宁,还是要为82岁父亲操碎心

寒士之言本尊
2026-06-21 15:39:50
濒临破产时投2000万,如今赚了4000倍

濒临破产时投2000万,如今赚了4000倍

灰度测试中
2026-06-21 01:12:43
最无解的顶级人格:城府极深,却极度坦诚

最无解的顶级人格:城府极深,却极度坦诚

书窗小记
2026-06-19 15:15:13
俄国内普遍呼吁对乌克兰动真格!升级为全面战争!普京在担心什么

俄国内普遍呼吁对乌克兰动真格!升级为全面战争!普京在担心什么

流年顛簸
2026-06-22 00:13:10
172cm黑裙封神!大长腿美出天际线

172cm黑裙封神!大长腿美出天际线

阿废冷眼观察所
2026-06-20 04:10:43
马筱梅带儿子逛商场!花7万给汪小菲买父亲节礼物,汪宝亲自刷卡

马筱梅带儿子逛商场!花7万给汪小菲买父亲节礼物,汪宝亲自刷卡

锅锅爱历史
2026-06-21 23:37:32
2026-06-22 01:08:49
爱集微 incentive-icons
爱集微
集微网官方账号
109799文章数 98362关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

媒体:两大核武国家“水仗”升级 巴基斯坦陷入恐慌

头条要闻

媒体:两大核武国家“水仗”升级 巴基斯坦陷入恐慌

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

“床垫界的特斯拉”破产了

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

家居
游戏
旅游
本地
房产

家居要闻

绿意盎然 自然之境

《STRANGER THAN HEAVEN》游先看试玩报告:散装拳脚,也可以很爽"/> 主站 商城 论坛 自运营 登录 注册 《STRANGER THA...

旅游要闻

音乐节“加持”一小时文旅生活圈

本地新闻

龙腾资江 韵动邵阳

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

无障碍浏览 进入关怀版