网易首页 > 网易号 > 正文 申请入驻

效率跃升1.71倍,字节再降MoE训练成本,为何AI玩家接连开源最新技术?

0
分享至

训练大模型的成本之高一直是行业痛点,各路玩家都在思考如何用技术创新把成本“打”下来。

3月10日,字节跳动豆包大模型团队发布了针对MoE(混合专家模型)架构的通信优化系统COMET,该方案通过细粒度计算-通信重叠技术,助力大模型训练优化。据豆包大模型团队介绍,COMET已实际应用于万卡级生产集群,累计节省了数百万GPU(图形处理器)小时资源。此外,COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合,实现协同优化。

“在万卡集群上做测试的这个经验,国内很少能有。”一位头部大模型算法工程师在接受《每日经济新闻》记者采访时表示,“目前很可能只有字节有这一经验,而且还分享出来了。虽然现在国内大部分公司都没有万卡,但随着行业往后发展,这一技术和先行经验是很重要的。”

可以看到的是,自DeepSeek的开源模型R1在全球范围内“爆红”以来,国内更多大模型玩家以更高的频率进行着技术开源。对此,北京市社会科学院副研究员王鹏向《每日经济新闻》记者表示,大模型公司选择优秀技术开源,对于扩大市场份额、吸引合作伙伴构建生态、提升公司的品牌形象和知名度等方面均有帮助。

MoE训练效率提升1.71倍,字节开源COMET技术

3月1日,DeepSeek在知乎发布了“开源周”后的“彩蛋”,首次公布了模型降本增效的技术细节以及理论上高达545%的利润率。

DeepSeek通过MoE架构的创新让激活参数比大幅下降,使得同等效果的大模型所需的算力明显下降。“671B的模型,在处理每个问题时,被调用激活的专家模型参数仅约37B,算力需求起码降低到原来的约二十分之一。”阿里云无影事业部总裁张献涛曾在接受《每日经济新闻》记者采访时表示。

而豆包团队注意到,MoE架构的稀疏特性导致计算和通信间的依赖动态且复杂,其分布式训练仍面临着跨设备通信开销巨大的成本挑战。

3月10日,豆包大模型团队发布了针对MoE模型的通信优化系统COMET。据介绍,COMET具体通过共享张量依赖解析机制,将共享张量沿Token维度或隐层维度切割,使通信与计算的最小单元对齐;同时通过动态负载分配算法,根据输入规模和硬件环境实时调整线程块分配,消除跨设备通信带来的等待延迟。

一位豆包大模型的技术人员告诉《每日经济新闻》记者,COMET和DeepSeek的DualPipe(双向并行流水线技术)都用于降低MoE的通信开销,但方法不同。记者了解到,DualPipe通过创新的双向流水线并行技术,大幅提高模型的训练效率。

豆包大模型团队称,COMET这一创新在大规模MoE模型上可达到单层1.96倍加速,端到端平均1.71倍效率提升。目前,COMET已实际应用于万卡级生产集群,助力MoE模型高效训练,并已累计节省了数百万GPU小时资源。

“用100张卡测试的波动可能很少,因为(显卡)出问题的概率较小,但1万张卡的波动就会大很多。”一位头部大模型算法工程师向《每日经济新闻》记者表示,此次字节将这一成果开源,为整个行业提供了不可多得的万卡集群实验经验,“国内有1万张卡的企业也就几家。”此外,豆包大模型还表示,COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合,实现协同优化。

《每日经济新闻》记者2月11日从豆包大模型团队了解到,团队已经提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2-6倍,推理成本最高可降低83%。

图片来源:视觉中国 VCG211550173673

争夺“源神”,为何AI玩家接二连三开源最新技术?

从在全球范围内引起热议的DeepSeek-R1到开源周的“大放送”,DeepSeek因持续开源核心技术被业内称为“源神”。基于DeepSeek的动作,国内大模型厂商纷纷跟进并加速了开源行动。

2月18日,阶跃星辰首次开源其Step系列基座模型。该模型分别是目前全球范围内参数量最大的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。MiniMax也在1月15日发布并开源新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。

除了头部的AI初创公司外,重投大模型的多家互联网巨头也在紧跟开源这股热潮,其中阿里一直是坚定的“开源派”。3月3日,开源社区Hugging Face最新榜单显示,开源仅6天的阿里万相大模型已反超DeepSeek-R1,登顶模型热榜、空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。3月6日凌晨,阿里再度抛出新的开源成果。阿里云通义千问官微宣布发布并开源最新的推理模型QwQ-32B。据介绍,这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。

“开源优秀技术可以获得更多声量,也可以吸引更多企业、开发者进行二次开发,有助于生态构建。”一位豆包大模型的技术人员向《每日经济新闻》记者表示。

同样,王鹏也认为,开源模式能促进技术发展、创新,既可帮助大模型公司扩大其在全球AI市场的影响力和份额,也可以吸引到更多参与者加入到生态系统的共建中,从而降低自身研发成本。

不过,也有不同的声音,大模型公司选择开源模式究竟是为了名还是利?“如果开源的技术比闭源的更好用,免费的技术比收费的更好用,那么谁还用闭源和收费的?”工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者采访时表示,“实际上是以DeepSeek为代表的开源应用,在性能上追平了竞争对手。这导致很多大模型选择了开源的路径来应对。开源对于企业来说,并不能创造利润,但能带来用户,互联网流量为王,利润次之。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

奇思妙想草叶君
2026-03-25 13:12:39
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
近期“热播剧”排个名:逐玉倒数,冬去春来第三,第一杀疯了!

近期“热播剧”排个名:逐玉倒数,冬去春来第三,第一杀疯了!

无处遁形
2026-03-26 07:18:10
公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

小怪吃美食
2026-03-24 17:29:52
京东外卖亏了466亿,但刘强东笑了

京东外卖亏了466亿,但刘强东笑了

新浪财经
2026-03-25 10:04:53
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

谛听骨语本尊
2026-03-25 16:26:02
谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

温读史
2026-03-26 10:41:06
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
72年毛主席会见叶剑英,提及邓小平回京,叶剑英:我只有一个要求

72年毛主席会见叶剑英,提及邓小平回京,叶剑英:我只有一个要求

大运河时空
2026-03-24 17:45:03
上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上观新闻
2026-03-24 13:32:07
全新塞纳实车曝光!2.4T混动+超250马力

全新塞纳实车曝光!2.4T混动+超250马力

沙雕小琳琳
2026-03-26 01:58:11
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
大气!火箭不敌森林狼,杜兰特主动揽责:罚球不中+6失误是主因

大气!火箭不敌森林狼,杜兰特主动揽责:罚球不中+6失误是主因

熊哥爱篮球
2026-03-26 19:58:46
人心不足蛇吞象!刘晓庆供外甥留学,买房买车,却被外甥造谣去世

人心不足蛇吞象!刘晓庆供外甥留学,买房买车,却被外甥造谣去世

悦君兮君不知
2026-03-26 19:16:21
詹姆斯愿降薪2000万!为留里夫斯+争冠布局41岁老詹主动让出顶薪

詹姆斯愿降薪2000万!为留里夫斯+争冠布局41岁老詹主动让出顶薪

阿晞体育
2026-03-25 13:01:56
我发现老天爷很公平:单位里那些不争不抢的老实人,真的吃亏是福

我发现老天爷很公平:单位里那些不争不抢的老实人,真的吃亏是福

风起见你
2026-02-23 19:09:41
他已任武汉市政府党组成员,安徽桐城人

他已任武汉市政府党组成员,安徽桐城人

文都桐网
2026-03-26 15:45:13
外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

中国网
2026-03-26 17:29:03
古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

铭记历史呀
2026-03-26 11:22:56
高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

安安说
2026-03-25 11:00:02
2026-03-26 20:15:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1518917文章数 2724760关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
时尚
旅游
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版