网易首页 > 网易号 > 正文 申请入驻

蚂蚁通过(异构计算)优化训练 1 万亿 token:节省 127 万元

0
分享至

2025 年 3 月 24 日,《彭博社》报道, 蚂蚁集团使用国产半导体来开发用于训练 AI 模型的技术,有望将成本降低 20%。

蚂蚁集团使用国产芯片,采用“混合专家”机器学习方法训练模型。 其得到的结果与英伟达芯片(比如 H800)的结果相似。

蚂蚁集团仍在使用英伟达 GPU 进行 AI 开发,但现在其最新模型主要依赖替代芯片,包括来自 AMD 的芯片和国产芯片。

自从 DeepSeek 展示了如何以远低于 OpenAI 和谷歌数十亿美元的投入训练功能强大的模型以来,这场竞争愈演愈烈。

蚂蚁集团本月发表了一篇研究论文,声称其模型在某些基准测试中有时优于Meta Platforms。

混元(DeepSeek)对论文的解读:

蚂蚁集团大幅降低了推理或支持 AI 服务的成本。

随着诸多公司向 AI 领域投入大量资金,混合专家模型已成为一种流行的选择,因谷歌和 DeepSeek 等公司使用而获得了认可。这项技术将任务划分为更小的数据集,就像在一支专家团队中每个专家专注于工作的一部分,从而使整个过程更高效。蚂蚁在电子邮件声明中拒绝发表评论。

然而,混合专家模型的训练通常依赖高性能芯片,就像英伟达销售的 GPU。

蚂蚁集团一直在研究如何更有效地训练 LLM ,并克服这一限制。

论文标题明确了这一点,因为该公司设定的目标是“不使用高级 GPU”来扩展模型。

这与英伟达的思路背道而驰。

英伟达 CEO 黄仁勋认为,即使出现了像 DeepSeek 的 R1 这样更高效的模型,计算需求也会增长。他认为公司需要更好的芯片来创造更多收入,而不是需要更便宜的芯片来削减成本。他坚持奉行制造拥有更多处理核心、晶体管和更庞大内存容量的大型 GPU 这一策略。

蚂蚁集团表示,使用高性能硬件训练 1 万亿个 token 的成本约为 635 万元人民币(88 万美元),但其经过优化的方法使用低规格硬件就有望将这一成本降至 508 万元人民币。

token 是模型为了解世界并为用户查询提供实用响应而获取的信息单位。

蚂蚁集团计划利用其为工业 AI 解决方案(包括医疗和金融)开 发的大语言模型 : Ling-Plus 和 Ling-Lite 方 面 的最新突破。

蚂蚁集团今年收购了中国在线平台好大夫,以加强其在医疗保健领域的 AI 服务。它还有一款名为支小宝的 AI“生活助手”应用程序和金融咨询 AI 服务蚂小财。

蚂蚁集团在论文中表示,在英文理解方面,与 Meta 的 Llama 模型之一相比,Ling-Lite 模型在一项关键基准测试上表现更胜一筹。

Ling-Lite 模型和 Ling-Plus 模型在中文基准测试中均优于 DeepSeek 的同类模型。

蚂蚁集团已开放了 Ling 模型的源代码。

Ling - Lite 包含 168 亿个参数,这些参数是可调整的设置,就像旋钮和表盘一样,以控制模型的性能。

Ling-Plus 有 2900 亿个参数,在语言模型领域被认为比较大。

相比之下,据《麻省理工技术评论》报道,专家估计 ChatGPT 的 GPT-4.5 有 1.8 万亿个参数,DeepSeek-R1 则有 6710 亿个参数。

蚂蚁集团在模型训练的一些方面面临挑战,包括稳定性。

论文指出,哪怕硬件或模型结构的小小变化也会导致问题,包括模型错误率上升。

开源链接:https://huggingface.co/inclusionAI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
油价引爆运费,多家快递公司涨价

油价引爆运费,多家快递公司涨价

新浪财经
2026-03-22 19:54:08
武汉新宇集团张文俊带近30人暴力抢夺商场,声称已到政府部门备案

武汉新宇集团张文俊带近30人暴力抢夺商场,声称已到政府部门备案

灵溪枕石
2026-03-23 14:21:40
A股大跌,之后呢?

A股大跌,之后呢?

谭谈财经
2026-03-23 14:51:12
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
疯狂小杨哥直播杀疯了!开播22分钟狂破8000万,顶流网红名不虚传

疯狂小杨哥直播杀疯了!开播22分钟狂破8000万,顶流网红名不虚传

大鱼娱乐观
2026-03-23 14:35:02
3·15曝光:成本40元液化气卖130元,农村咋就成垄断高价重灾区?

3·15曝光:成本40元液化气卖130元,农村咋就成垄断高价重灾区?

复转这些年
2026-03-22 15:13:18
天,没有不测风云

天,没有不测风云

新华社
2026-03-23 11:29:04
尼克松访华撞见“打倒美帝”标语当场愣住,毛主席一句话让他从尴尬到大笑

尼克松访华撞见“打倒美帝”标语当场愣住,毛主席一句话让他从尴尬到大笑

寄史言志
2026-03-22 22:36:19
李鹏晚年亲口澄清身世:说我是周总理养子?这话其实不准确

李鹏晚年亲口澄清身世:说我是周总理养子?这话其实不准确

老杉说历史
2026-03-21 16:56:05
3-2、3-1夺冠,日本滨田一辉被打哭,中国小将翟家乐3-0登顶!

3-2、3-1夺冠,日本滨田一辉被打哭,中国小将翟家乐3-0登顶!

好乒乓
2026-03-23 12:20:58
日本台湾油价接连下跌,大陆油价却疯涨至9元,真实原因一目了然

日本台湾油价接连下跌,大陆油价却疯涨至9元,真实原因一目了然

谈史论天地
2026-03-23 06:52:51
27岁女老师拍“小视频”后续:赚了24万罚款25万,判3年悔不当初

27岁女老师拍“小视频”后续:赚了24万罚款25万,判3年悔不当初

江山挥笔
2026-03-23 08:51:19
西贝焖面有趣一幕:超大砂锅里面只装着薄薄一层的面条

西贝焖面有趣一幕:超大砂锅里面只装着薄薄一层的面条

另子维爱读史
2026-03-20 19:34:33
随着萨巴伦卡2-0,16强全部出炉!郑钦文大战头号种子,时间如下

随着萨巴伦卡2-0,16强全部出炉!郑钦文大战头号种子,时间如下

侃球熊弟
2026-03-23 08:56:19
难以置信!网传上海一对小夫妻结婚仅半年,却因美甲一事火速离婚

难以置信!网传上海一对小夫妻结婚仅半年,却因美甲一事火速离婚

火山詩话
2026-03-23 06:42:44
有4种鱼已经上“黑榜”了,卖鱼的自己都不碰,但还有人经常吃!

有4种鱼已经上“黑榜”了,卖鱼的自己都不碰,但还有人经常吃!

房产衫哥
2026-03-22 20:22:30
大家要做好准备,若不出意外的话,下个月中国楼市将迎来4大转变

大家要做好准备,若不出意外的话,下个月中国楼市将迎来4大转变

混沌录
2026-03-22 23:18:11
跌麻了!段永平这样应对危机

跌麻了!段永平这样应对危机

证券之星
2026-03-23 16:26:10
塞尔维亚若买下这60架歼-10C和5架空警500,整个欧洲都要多看一眼

塞尔维亚若买下这60架歼-10C和5架空警500,整个欧洲都要多看一眼

达文西看世界
2026-03-22 12:21:40
上海这个区要起飞了?直达宁波,最快40分钟!中国最长跨海大桥安排上!

上海这个区要起飞了?直达宁波,最快40分钟!中国最长跨海大桥安排上!

上观新闻
2026-03-22 15:06:17
2026-03-23 18:32:49
云头条 incentive-icons
云头条
引领科技变革,连接技术与商业。
19351文章数 27295关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

特朗普向伊朗发出48小时"最后通牒" 中方表态

头条要闻

特朗普向伊朗发出48小时"最后通牒" 中方表态

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

沪指险守3800点!真正的恐慌盘出现了?

汽车要闻

"拒绝"豪车税 新款Panamera尽享版99.8万元起精准入局

态度原创

艺术
亲子
房产
旅游
公开课

艺术要闻

如此美妙的光影,安静而温暖,真令人折服!

亲子要闻

五年级女生在课堂上尿裤子妈妈作法让很多人敬佩

房产要闻

440亿!海南又一城城更计划曝光!TOP10房企巨头突然杀入!

旅游要闻

这里是上海|浦江郊野公园 邂逅“小王子”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版