网易首页 > 网易号 > 正文 申请入驻

做空英伟达的又一理由?蚂蚁集团发布最新AI成果:无需高端GPU,计算成本降低20%,训练1万亿Token只需508万元

0
分享至

每经记者:宋欣悦 每经编辑:兰素英

长久以来,英伟达凭借高性能芯片构筑起“算力霸权”,在AI模型训练领域占据主导地位。这一局面在DeepSeek问世后遭遇到不小的冲击,如今又面临着新的挑战。

3月初,由蚂蚁集团首席技术官何征宇带领的Ling团队发表了一篇技术成果论文。

论文显示,该团队开发了两款百灵系列开源混合专家(MoE)模型Ling-Lite(总参数为16.8B)和Ling-Plus(总参数为290B)。相比之下,据《麻省理工科技评论》,GPT-4.5总参数为1.8T,DeepSeek-R1总参数为671B。

而惊艳之处在于,Ling团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低约20%,训练1万亿Token成本从635万元降至508万元,最终取得了与使用高性能芯片(如英伟达H100、H800等)的模型相当的效果。

蚂蚁集团有关人士告诉《每日经济新闻》记者,在模型训练过程中,他们既使用了国产芯片,也采用了英伟达芯片。

但百灵系列混合专家模型的横空出世,让市场再次质疑英伟达的“算力信仰”。HuggingFace工程师Tiezhen Wang在社交媒体上表示,“做空英伟达的又一理由?”

Tom's Hardware发表评论称,蚂蚁集团此次的技术突破清晰展现出中国正坚定地朝着技术独立方向迈进。

针对此事,3月24日蚂蚁集团回应媒体称,蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。

图片来源:蚂蚁集团Ling团队最新论文


蚂蚁重大突破:不使用高端GPU的情况下将计算成本降低20%

目前,蚂蚁集团Ling团队的技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》已发表在预印本平台arXiv上。

蚂蚁Ling团队认为,正如DeepSeek开源发布中分析的“昼夜推理负载不均”问题,在推理服务高峰期,高性能资源同样面临短缺。在长期科研实践中,许多机构都持续面临着高端AI加速卡供应不足的问题。相比之下,性能较低的加速器更易获得,且单价更低。因此,模型需要能在异构计算单元和分布式集群间切换的技术框架,同时在AI Infra部分,在跨集群、跨设备的兼容和可靠层面进行性能优化。

该团队的实验结果表明,参数规模为300B左右的混合专家模型可以在性能较低的设备上有效训练,并在性能上达到与同规模的其他模型相当的水平。

以Ling-Plus模型为例,在实验中,该模型在五种不同硬件配置下完成9万亿Token的预训练任务。经测算,使用高性能硬件设备训练1万亿Token,预计成本高达635万元人民币,而使用低规格硬件系统,成本则可控制在约508万元,节省近20%。

图片来源:蚂蚁集团Ling团队最新论文

在英语理解能力上,Ling-Lite模型在一项关键基准测试中的表现与Qwen2.5-7B相当,优于Llama3.1-8B和Mistral-7B-v0.3。

在中文理解能力上,Ling-Lite和Ling-Plus模型表现明显优于海外模型Llama3.1-8B和Mistral-7B-v0.3。在部分基准测试中,Ling-Plus表现略优于DeepSeek-V2.5,与Qwen2.5-7B相当。

在数学和代码基准测试方面,Ling-Lite的表现与Qwen2.5-7B-Instruct相当,优于Llama3.1-8B和Mistral-7B-v0.3。Ling-Plus的表现优于DeepSeek-V2.5,接近Qwen2.5-72B的水平。

图片来源:蚂蚁集团Ling团队最新论文

在工具使用方面,大多数情况下,Ling-Plus和Ling-Lite在基准测试中均取得了最佳成绩。而工具使用对于大语言模型来说是一项重要且具有挑战性的任务。工具使用能力使模型能够作为AI代理工作、控制机器人系统并与众多软件工具集成。

此外,在安全性方面,Ling-Plus和Qwen2.5-7B表现突出,而Ling-Plus在错误拒绝方面表现更佳。

提高大模型的无害性(harmlessness)通常会导致其有用性(helpfulness)的降低。测试结果表明,Ling-Plus在安全性和错误拒绝之间整体平衡性上表现最佳

据悉,蚂蚁百灵大模型Ling-Plus和Ling-Lite将计划开源,并应用于医疗、金融等行业领域。


打破英伟达“算力霸权”?

有分析称,百灵系列混合专家模型的推出标志着蚂蚁集团加入AI领域的竞赛。自DeepSeek展示出能够以远低于OpenAI和谷歌投入的数十亿美元成本训练出强大模型以来,这一竞争加速升级。

此前,DeepSeek在技术论文中表示,DeepSeek-V3模型(总参数671B,激活参数37B)总训练成本为557.6万美元,完整训练消耗了278.8万个GPU小时,几乎是同等性能水平模型训练所需的十分之一,堪称“榨干”GPU,也因此引发了资本市场的恐慌。

对此,英伟达CEO黄仁勋在公开场合多次赞美DeepSeek,但其认为,DeepSeek-R1等更高效的模型出现,反而会刺激计算需求增长。

然而,蚂蚁集团正在探索一条新的路径——在无高端GPU的情况下扩展模型训练能力

百灵系列混合专家模型的横空出世,让市场再次质疑英伟达的“算力信仰”。HuggingFace工程师Tiezhen Wang在社交媒体上表示,“做空英伟达的又一理由?”

图片来源:X

著名硬件媒体Tom's Hardware指出,如果蚂蚁集团此次技术突破意味着实现了(与DeepSeek)类似的AI训练效率飞跃,这极有可能成为(中国)降低对西方技术依赖进程中的又一重要里程碑。

蚂蚁集团有关人士告诉《每日经济新闻》记者,在模型训练过程中,他们既使用了国产芯片,也采用了英伟达芯片。

Tom's Hardware发表评论称,蚂蚁集团此次技术突破清晰展现出中国正坚定地朝着技术独立方向迈进

彭博资深商业智能分析师罗伯特·李(Robert Lea)同样指出,蚂蚁集团的研究展示了中国在AI创新方面的快速进步,也显示出本土企业正朝着AI自给自足的方向迈进。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
U17国足胜卡塔尔惊险晋级亚洲杯淘汰赛,中国足球时隔21年重返世界大赛

U17国足胜卡塔尔惊险晋级亚洲杯淘汰赛,中国足球时隔21年重返世界大赛

文汇报
2026-05-13 07:48:10
特朗普专机落地!抵达北京开启访华行程

特朗普专机落地!抵达北京开启访华行程

看看新闻Knews
2026-05-13 20:44:02
最新消息:社保缴费基数与工资必须一致,税务开始落实了——

最新消息:社保缴费基数与工资必须一致,税务开始落实了——

叶初七
2026-05-13 11:52:21
关窗!关窗!关窗!

关窗!关窗!关窗!

江苏警方
2026-05-13 19:51:17
豆包收费了!大模型将告别免费时代?有何考量?

豆包收费了!大模型将告别免费时代?有何考量?

大象新闻
2026-05-13 10:26:14
凌晨行刑!德黑兰29岁航天天才被处决,临行前喊冤:不是美国间谍

凌晨行刑!德黑兰29岁航天天才被处决,临行前喊冤:不是美国间谍

知法而形
2026-05-13 19:13:52
太突然!香港80后“地产女王”烧炭身亡,曾向朋友发信息称要自杀!她草根出生,做过百亿级收购,生前已陷入严重财务困境

太突然!香港80后“地产女王”烧炭身亡,曾向朋友发信息称要自杀!她草根出生,做过百亿级收购,生前已陷入严重财务困境

每日经济新闻
2026-05-13 19:54:12
最新研究表明,维生素B12可能是健康老龄化的关键,真相来了!

最新研究表明,维生素B12可能是健康老龄化的关键,真相来了!

岐黄传人孙大夫
2026-05-12 20:10:03
被两个老外拐跑的出租车司机

被两个老外拐跑的出租车司机

南风窗
2026-05-13 13:18:49
老了才看透:父弱母强的家庭,养出来的孩子,大多是这两种结局

老了才看透:父弱母强的家庭,养出来的孩子,大多是这两种结局

心理观察局
2026-05-11 10:00:27
懂王阵仗真大!又是野兽,又是特勤,看来在美国被打怕了

懂王阵仗真大!又是野兽,又是特勤,看来在美国被打怕了

魔都姐姐杂谈
2026-05-13 21:44:11
邪门!少了30多万中国人消费,日本的旅游收入反而比以前多了

邪门!少了30多万中国人消费,日本的旅游收入反而比以前多了

壹只灰鸽子
2026-05-13 10:44:56
日本乒协没想到,世乒赛惨败中国队后,最先扛不住的,是张本智和

日本乒协没想到,世乒赛惨败中国队后,最先扛不住的,是张本智和

揽星河的笔记
2026-05-13 20:40:58
为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

老特有话说
2026-05-12 15:41:08
CNN报道:向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

CNN报道:向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

戗词夺理
2026-05-13 18:07:23
“67岁产女妈妈卧床” 老伴回应:系半月前在老家突发脑梗 女儿今年将上小学

“67岁产女妈妈卧床” 老伴回应:系半月前在老家突发脑梗 女儿今年将上小学

红星新闻
2026-05-13 13:54:49
创业板历史新高!外资集体重仓6家低价算力股,最高8元,最低5元

创业板历史新高!外资集体重仓6家低价算力股,最高8元,最低5元

长风价值掘金
2026-05-13 15:44:04
特朗普已经抵达北京,美媒发现不对劲:中国人为啥一点都不期待?

特朗普已经抵达北京,美媒发现不对劲:中国人为啥一点都不期待?

深析古今
2026-05-14 00:18:09
5月,遇到这水果别手软,一次买20斤,晒干后美味翻倍,营养解馋

5月,遇到这水果别手软,一次买20斤,晒干后美味翻倍,营养解馋

阿龙美食记
2026-05-13 14:06:46
华南理工男生上课偷录女生裙底:全程30分钟,现场画面,细节曝光

华南理工男生上课偷录女生裙底:全程30分钟,现场画面,细节曝光

李晚书
2026-05-13 18:02:04
2026-05-14 04:43:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1568028文章数 2725947关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

教育
手机
亲子
游戏
公开课

教育要闻

排名极好却被骂水的两所英国大学!

手机要闻

iOS 27新功能全面爆料!相机App界面支持定制,Siri将彻底重塑

亲子要闻

农村童趣日常,树上果糖拌奶吃,一口下去太解馋

LOL迎来史诗级改动,GEN被削废T1获利!GEN老板:为谁改的版本?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版