网易首页 > 网易号 > 正文 申请入驻

蚂蚁通过(异构计算)优化训练 1 万亿 token:节省 127 万元

0
分享至

2025 年 3 月 24 日,《彭博社》报道, 蚂蚁集团使用国产半导体来开发用于训练 AI 模型的技术,有望将成本降低 20%。

蚂蚁集团使用国产芯片,采用“混合专家”机器学习方法训练模型。 其得到的结果与英伟达芯片(比如 H800)的结果相似。

蚂蚁集团仍在使用英伟达 GPU 进行 AI 开发,但现在其最新模型主要依赖替代芯片,包括来自 AMD 的芯片和国产芯片。

自从 DeepSeek 展示了如何以远低于 OpenAI 和谷歌数十亿美元的投入训练功能强大的模型以来,这场竞争愈演愈烈。

蚂蚁集团本月发表了一篇研究论文,声称其模型在某些基准测试中有时优于Meta Platforms。

混元(DeepSeek)对论文的解读:

蚂蚁集团大幅降低了推理或支持 AI 服务的成本。

随着诸多公司向 AI 领域投入大量资金,混合专家模型已成为一种流行的选择,因谷歌和 DeepSeek 等公司使用而获得了认可。这项技术将任务划分为更小的数据集,就像在一支专家团队中每个专家专注于工作的一部分,从而使整个过程更高效。蚂蚁在电子邮件声明中拒绝发表评论。

然而,混合专家模型的训练通常依赖高性能芯片,就像英伟达销售的 GPU。

蚂蚁集团一直在研究如何更有效地训练 LLM ,并克服这一限制。

论文标题明确了这一点,因为该公司设定的目标是“不使用高级 GPU”来扩展模型。

这与英伟达的思路背道而驰。

英伟达 CEO 黄仁勋认为,即使出现了像 DeepSeek 的 R1 这样更高效的模型,计算需求也会增长。他认为公司需要更好的芯片来创造更多收入,而不是需要更便宜的芯片来削减成本。他坚持奉行制造拥有更多处理核心、晶体管和更庞大内存容量的大型 GPU 这一策略。

蚂蚁集团表示,使用高性能硬件训练 1 万亿个 token 的成本约为 635 万元人民币(88 万美元),但其经过优化的方法使用低规格硬件就有望将这一成本降至 508 万元人民币。

token 是模型为了解世界并为用户查询提供实用响应而获取的信息单位。

蚂蚁集团计划利用其为工业 AI 解决方案(包括医疗和金融)开 发的大语言模型 : Ling-Plus 和 Ling-Lite 方 面 的最新突破。

蚂蚁集团今年收购了中国在线平台好大夫,以加强其在医疗保健领域的 AI 服务。它还有一款名为支小宝的 AI“生活助手”应用程序和金融咨询 AI 服务蚂小财。

蚂蚁集团在论文中表示,在英文理解方面,与 Meta 的 Llama 模型之一相比,Ling-Lite 模型在一项关键基准测试上表现更胜一筹。

Ling-Lite 模型和 Ling-Plus 模型在中文基准测试中均优于 DeepSeek 的同类模型。

蚂蚁集团已开放了 Ling 模型的源代码。

Ling - Lite 包含 168 亿个参数,这些参数是可调整的设置,就像旋钮和表盘一样,以控制模型的性能。

Ling-Plus 有 2900 亿个参数,在语言模型领域被认为比较大。

相比之下,据《麻省理工技术评论》报道,专家估计 ChatGPT 的 GPT-4.5 有 1.8 万亿个参数,DeepSeek-R1 则有 6710 亿个参数。

蚂蚁集团在模型训练的一些方面面临挑战,包括稳定性。

论文指出,哪怕硬件或模型结构的小小变化也会导致问题,包括模型错误率上升。

开源链接:https://huggingface.co/inclusionAI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京胜山东!麦基+3后卫齐发挥,山东首发没法看,克里斯复出低迷

北京胜山东!麦基+3后卫齐发挥,山东首发没法看,克里斯复出低迷

篮球资讯达人
2026-04-17 21:32:45
神舟二十一号航天员乘组在轨时间将延长一个月!啥原因要推迟返回

神舟二十一号航天员乘组在轨时间将延长一个月!啥原因要推迟返回

阿纂看事
2026-04-17 18:32:38
油尽灯枯,菲律宾第一个倒下!

油尽灯枯,菲律宾第一个倒下!

李荣茂
2026-04-17 19:05:55
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

哄动一时啊
2026-03-26 17:34:56
西安事变时,如果杀掉了蒋介石,中国后来会有什么变化?

西安事变时,如果杀掉了蒋介石,中国后来会有什么变化?

冰雅忆史
2026-03-28 08:54:54
许家印亲自面试女大学生!建恒大歌舞团目的曝光:贵宾房非常恐怖

许家印亲自面试女大学生!建恒大歌舞团目的曝光:贵宾房非常恐怖

风过乡
2026-04-17 07:14:57
纪委不会查这3种情况,很多人不知道,要切记!

纪委不会查这3种情况,很多人不知道,要切记!

细说职场
2026-04-16 15:27:18
北方稀土:2025年净利润同比增长124.17% 拟10派1.3元

北方稀土:2025年净利润同比增长124.17% 拟10派1.3元

证券时报
2026-04-17 18:53:02
里沙利松:世界杯后多次想开车撞墙,但我妻子的出现拯救了我

里沙利松:世界杯后多次想开车撞墙,但我妻子的出现拯救了我

懂球帝
2026-04-17 19:44:25
开国第一少将、第一中将、第一上将、第一大将、第一元帅都是谁

开国第一少将、第一中将、第一上将、第一大将、第一元帅都是谁

兴趣知识
2026-03-21 18:56:40
郭富城开车载着方媛被偶遇,方媛胖了不少,从侧面看像50多岁的!

郭富城开车载着方媛被偶遇,方媛胖了不少,从侧面看像50多岁的!

乐悠悠娱乐
2026-04-17 09:54:47
熊磊与杜新枝胜诉,许敏使出杀手锏,晒出聊天记录,律师称会上诉

熊磊与杜新枝胜诉,许敏使出杀手锏,晒出聊天记录,律师称会上诉

金哥说新能源车
2026-04-17 13:54:38
最有资历评元帅的9位高级将领

最有资历评元帅的9位高级将领

祁州校尉
2026-04-01 09:00:33
48岁奥地利前国门曼宁格去世:驾驶车辆与火车相撞 曾效力3大足球豪门

48岁奥地利前国门曼宁格去世:驾驶车辆与火车相撞 曾效力3大足球豪门

快科技
2026-04-17 08:58:04
官媒也玩标题党?请守住“说人话”的底线

官媒也玩标题党?请守住“说人话”的底线

迷世书童H9527
2026-04-16 16:21:00
这场中东冲突的最大意外:一直上蹿下跳的印度,已是彻底凉凉了

这场中东冲突的最大意外:一直上蹿下跳的印度,已是彻底凉凉了

音乐时光的娱乐
2026-04-17 19:11:32
深圳“9元1斤”旧书店:有人一次性买走1吨,更有小朋友淘书开心到转圈圈

深圳“9元1斤”旧书店:有人一次性买走1吨,更有小朋友淘书开心到转圈圈

封面新闻
2026-04-17 19:04:05
美国敢抓马杜罗、敢炸哈梅内伊,为什么偏偏不敢动金正恩?

美国敢抓马杜罗、敢炸哈梅内伊,为什么偏偏不敢动金正恩?

贱议你读史
2026-04-12 21:40:28
马斯克突然断网:1.5亿用户平台说关就关

马斯克突然断网:1.5亿用户平台说关就关

晚风也遗憾
2026-04-17 08:20:05
中国女子在澳遭小孩挑衅后被其母殴打,中使馆:已第一时间联系澳大利亚警方,要求彻查严惩

中国女子在澳遭小孩挑衅后被其母殴打,中使馆:已第一时间联系澳大利亚警方,要求彻查严惩

观威海
2026-04-16 10:20:07
2026-04-17 22:56:49
云头条 incentive-icons
云头条
引领科技变革,连接技术与商业。
19857文章数 27301关注度
往期回顾 全部

科技要闻

7家头部平台被罚没35.97亿元

头条要闻

中国博士后遭美方盘问后自杀 去世当天论文在顶刊发表

头条要闻

中国博士后遭美方盘问后自杀 去世当天论文在顶刊发表

体育要闻

中超-泰山1-1海港 杨希处子球克雷桑任意球扳平

娱乐要闻

刘德华挚友潘宏彬离世 曾一起租房住

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

又快又稳的开挂动力! 阿维塔06T全系搭分布式电驱

态度原创

家居
艺术
游戏
手机
公开课

家居要闻

法式线条 时光静淌

艺术要闻

中国建筑中标阿联酋首个高铁项目

卡普空翻车!《识质存在》玩低俗梗 玩家红温狂喷

手机要闻

OPPO Find X9s Pro爆料汇总,猜猜定价多少?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版