网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

2024-12-27 10:18:17　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子好困

【新智元导读】600万美金训出击败GPT-4o大模型，竟被中国团队实现了！今天，DeepSeek-V3在全网掀起巨大风暴，仅凭671B参数在数学代码性能上，堪比国外大模型Claude 3.5 Sonnet。

一夜之间，来自中国的大模型刷屏全网。

DeepSeek-V3，一个拥有671B参数的MoE模型，吞吐量每秒高达60 token，比上一代V2直接飙升3倍。

在多项基准测试中，V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

在数学代码方面，DeepSeek-V3完全碾压GPT-4o。尤其是中文能力，全面领先国外的领先大模型。

就看这闪电般的推理速度，就知道模型有多强了。

值得一提的是，DeepSeek-V3在14.8T高质量token上完成了训练，模型和论文100%开源。

论文地址：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

新模型惊艳出世，彻底掀翻了整个AI圈。业界多位AI大佬，纷纷对此表示震惊，将重点转向其训练成本GPU之上。

论文中，明确提出了DeepSeek-V3仅使用2048块GPU训练了2个月，并且只花费了557.6万美金。

Karpathy惊叹道，「作为参考，要达到这种级别的能力，通常需要约1.6万个GPU的计算集群。不仅如此，当前业界正在部署的集群规模甚至已经达到了10万个GPU。

比如，Llama 3 405B消耗了3080万GPU小时，而看起来更强大的DeepSeek-V3却只用了280万GPU小时（计算量减少了约11倍）。

到目前为止，模型在实际应用中的表现相当出色——不仅在LLM竞技场名列前茅，而且从Karpathy本人的快速测试来看，结果也都很不错。

这说明，即便是在资源受限情况下，模型也能展现出令人印象深刻的研究和工程能力。

这是否意味着前沿LLM不需要大型GPU集群？不是的，但这表明，你必须确保不浪费已有的资源，这个案例很好地证明了在数据和算法方面还有很大的优化空间」。

另外，贾扬清针对推理提出了几点自己的思考：

首先最重要的是，我们正式进入了分布式推理时代。一台单GPU机器（80×8=640G）的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型，但不论如何，都需要分布式推理来保证性能和未来扩展。
即使在单个模型中，也需要关注MoE的负载均衡，因为每次推理只有大约5%的参数激活。
论文中特别提到引入「redundantexpert」概念，正是为了解决这个问题。这已经不再是「一个模型多个副本」的问题、而是「每个模型子模块都有多个副本」，然后独立扩缩容。
输入token很容易实现盈利。根据个人专业判断，需要大量优化才能使输出token盈利或实现收支平衡。但如果我们相信「软件摩尔定律」，这就不是问题：每18个月单token成本减半。
需要进行分块（tile）或块（block）级别的量化。
等硬件支持FP4以后，肯定还有不少可以玩的花样冷知识：FP4乘法实际上就是个16×16的table lookup等等……

中国模型一夜击败GPT-4o，100%开源

DeepSeek-V3不俗表现，是在上一代V2进一步升级和迭代。

在基准测试中，数学领域MATH 500上，DeepSeek-V3拿下了90.2高分，比Claude 3.5 Sonnet、GPT-4o超出10分还要多。

同理，在AIME 2024测试中，DeepSeek-V3也取得了领先优势，飙升近20分。

在代码Codeforces基准上，新模型以51.6分刷新SOTA，比国外大模型高出30分左右。

在软件工程SWE-bench Verified基准上，DeepSeek-V3略显逊色，Claude 3.5 Sonnet以50.8分碾压所有模型。

另外，在多语言能力（MMLU-Pro）方面，V3提升并不明显。知识问答基准（GPQA-Diamond）上，V3也是仅次于Claude 3.5 Sonnet。

如下这张图表，更详细地展示了DeepSeek-V3在各种基准测试中的结果。

53页技术报告中，特比强调了V3的训练成本取得了最大的突破。

团队特意强调了，新模型的完整训练仅需要2.788M个GPU小时。即便如此，它在训练过程中非常稳定，没有遇到过任何不可恢复的loss突增，也没有执行任何rollback操作。

DeepSeek-V3训练成本如下表1所示，这是背后团队通过优化算法、框架、硬件协同设计最终实现的。

在预训练阶段，模型每训练1万亿token仅需要180K个GPU小时，即在配备2048个GPU的集群上只需3.7天。

因此，DeepSeek-V3预训练阶段耗时不到2个月就完成了，总共消耗2664K个GPU小时。

另外，再加上上下文长度scaling所需的119K GPU小时和后训练的5K GPU小时，由此V3完整训练仅消耗2.788M个GPU小时。

团队表示，假设GPU的租用价格为2美元/每GPU小时，DeepSeek-V3总训练成本仅为557.6万美元。

那么，究竟是怎样的技术突破，使得DeepSeek-V3实现了质的飞升？

训练细节

正如开头所述，DeepSeek-V3是一个强大的混合专家模型（MoE），总参数量为为671B，每个token激活37B参数。

它继续采用了多头潜在注意力（MLA）来实现高效推理，以及DeepSeekMoE实现低成本训练。

这两种架构的优势，已经在上一代V2中得到了验证。

除了基本框架之外，研究人员还采用了两个额外的策略，来进一步增强模型的能力：

采用无辅助损失（auxiliary-loss-free）方法来实现负载均衡，目的是最小化负载均衡对V3性能造成的不利影响。
采用多token预测训练目标，结果证明能够提升V3在评估基准上的整体性能。

DeepSeek-V3框架

为了实现高效训练，团队采用了「FP8混合精度训练」，并对训练框架进行了全面优化。

通过支持FP8计算和存储，实现了训练加速和GPU内存使用的减少。

在预训练阶段，DeepSeek-V3在14.8T高质量且多样化的token完成了训练，然后又对模型进行了监督微调、强化学习阶段。

由此，我们才看了DeepSeek-V3在如上评测中，性能超过了其他开源模型，并达到了与领先闭源模型相当的性能水平。

网友炸锅了

DeepSeek-V3现在已经在官方平台上直接可以测试，而且代码全部开源可以直接下载。

国外AI发烧友们纷纷开启了测试，有人直接将4/8个M4 Mac mini堆叠在一起来运行DeepSeek-V3了...

一位开发者惊讶地表示，DeepSeek-V3无需我解释就能如此准确地理解一切，这种感觉真让人毛骨悚然。就好像机器里真的住着一个幽灵似的。

另有开发者通过DeepSeek-V3创建了一个用AI公司logo制作的小行星游戏，分分钟就完成了。

还有的人对用如此低成本，训练出一个强大得模型，难以置信。

Stability AI前CEO表示，以每秒60个token（相当于人类阅读速度5倍）的速度全天候运行DeepSeek v3，每天仅需要2美元。

那么，你是要选择一杯拿铁咖啡，还是一个AI助手呢？

参考资料：

https://x.com/karpathy/status/1872362712958906460

https://x.com/jiayq/status/1872382450216915186

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

刚下飞机行李就没了！杭州姑娘花10多万去南极旅游却崩溃：衣物全靠借

环球网资讯 2026-03-03 08:53:57
5886 跟贴 5886
女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”，网友：四个字认错五个，当事人：没有文化确实不行

扬子晚报 2026-03-06 17:44:56
996 跟贴 996

今年高校毕业生预计1270万

人民网-人民日报 2026-03-07 10:36:14
7827 跟贴 7827

人社部：将加大对外贸、建筑、住宿、餐饮等劳动密集型行业就业扶持

证券时报 2026-03-07 10:51:24
292 跟贴 292
证监会发布短线交易监管新规自2026年4月7日起施行

每日经济新闻 2026-03-07 15:52:02
0 跟贴 0

媒体:美国打仗遇到人口3000万以上国家就没法全身而退

新民周刊 2026-03-07 09:17:30
0 跟贴 0

客场擒冠！河南彩陶坊队2-1力克上海海港，斩获赛季开门红

大象新闻 2026-03-07 22:22:04
14 跟贴 14
比亚迪升级电动车补能战局

界面新闻 2026-03-07 08:56:53
76 跟贴 76

路虎揽胜回应长城汽车董事长魏建军道歉：真诚和担当是最好的代言，坚持原创，祝长城汽车越来越好

中国能源网 2026-03-07 15:29:05
47 跟贴 47
河南一公司连续两年妇女节给近2000名女员工发160万元红包，员工：过年领的2100元还没用完，又发800元，太幸福了

极目新闻 2026-03-07 20:45:42
122 跟贴 122
突然爆火！超多人抢着要，上门服务500元一次，有人称赚了26万，专家：先冷静

浙江之声 2026-03-07 14:01:40
346 跟贴 346
阿联酋航空暂停所有进出迪拜航班

界面新闻 2026-03-07 15:24:47
222 跟贴 222
宿茂臻透露高准翼伤情：还需等待医院进一步确认

闪电新闻 2026-03-07 20:19:44
23 跟贴 23
所有省份已推行课间15分钟

央视新闻客户端 2026-03-07 11:05:42
19 跟贴 19
教育部：让"班超""校超"燃动校园

央视新闻客户端 2026-03-07 11:17:33
48 跟贴 48
人社部：正研究措施发挥人工智能创造新岗位

新华社 2026-03-07 10:31:07
24 跟贴 24
河北女子吃螺蛳粉被泼红油，当事人回应，原因曝光，恐面临处罚

奇思妙想草叶君 2026-03-07 23:57:51
1 跟贴 1
从“主义之争”到“群体互怼”：为什么中国人永远在争论？

新浪财经 2026-03-07 23:51:39
0 跟贴 0
东莞一工厂停产5个月，打工人哭诉天塌了，路费白花，房租不够！

眼光很亮 2026-03-08 00:17:52
0 跟贴 0
全网催开门！上海一小吃店明天开门营业，老板：5毛钱的水煎包、3元的胡辣汤，新年不涨价

极目新闻 2026-03-07 18:58:33
0 跟贴 0

特朗普脖子被发现异常，瞒不住的白宫承认，总统确实正在接受治疗

特朗普脖子被发现异常，瞒不住的白宫承认，总统确实正在接受治疗

牛锅巴小钒

2026-03-07 15:23:05

12天8个涨停板！股民：好久不见的妖股！

12天8个涨停板！股民：好久不见的妖股！

数据挖掘分析

2026-03-07 15:28:24

特朗普突然发文昭告全球，包括中国俄罗斯在内，一个都跑不掉？

特朗普突然发文昭告全球，包括中国俄罗斯在内，一个都跑不掉？

徐云流浪中国

2026-03-07 23:53:04

伊朗突然不按套路出牌，1200枚导弹打不出一个响？这才是真正杀招

伊朗突然不按套路出牌，1200枚导弹打不出一个响？这才是真正杀招

策前论

2026-03-06 16:25:38

车主注意了！6月起高速无杆通行试点，车主终于能一脚油门通过？

车主注意了！6月起高速无杆通行试点，车主终于能一脚油门通过？

老特有话说

2026-03-06 16:12:20

印度外长证实：出于人道主义考虑，印度允许伊朗军舰紧急停靠其港口

印度外长证实：出于人道主义考虑，印度允许伊朗军舰紧急停靠其港口

环球网资讯

2026-03-07 18:58:16

宇宙出现bug了？117亿光年外，科学家发现了5个一模一样的星系

宇宙出现bug了？117亿光年外，科学家发现了5个一模一样的星系

心中的麦田

2026-03-07 19:22:45

公司发年终奖总监表弟拿140万，我业绩最佳只有一千，我直接休假

公司发年终奖总监表弟拿140万，我业绩最佳只有一千，我直接休假

奶茶麦子

2026-03-07 16:54:25

哇塞，她和关之琳长得好像啊，气质也那么像！

哇塞，她和关之琳长得好像啊，气质也那么像！

草莓解说体育

2026-03-06 19:10:11

无缘世界杯？伊拉克通知国际足联无法参加附加赛 40%球员无法出行

无缘世界杯？伊拉克通知国际足联无法参加附加赛 40%球员无法出行

念洲

2026-03-07 06:17:28

“女吃播三巨头”现状：脸像骷髅、摘除味觉神经，有人已立好遗嘱

“女吃播三巨头”现状：脸像骷髅、摘除味觉神经，有人已立好遗嘱

谈史论天地

2026-02-06 19:00:03

金价一夜大变！今日金价（2026年3月7日）今日黄金价格多少钱一克

金价一夜大变！今日金价（2026年3月7日）今日黄金价格多少钱一克

亿通电子游戏

2026-03-07 10:51:22

李开复谈OpenClaw：“一人公司”的初步演示

李开复谈OpenClaw：“一人公司”的初步演示

金融界

2026-03-07 07:53:05

国家出手抓的3位首富，坑害老百姓、劣迹斑斑，个个不值得原谅

国家出手抓的3位首富，坑害老百姓、劣迹斑斑，个个不值得原谅

老斉科普君

2026-02-19 15:06:15

法国艺术圈地震！芭蕾女神、哲学少女，都被钢琴家送给了爱泼斯坦！

法国艺术圈地震！芭蕾女神、哲学少女，都被钢琴家送给了爱泼斯坦！

新欧洲

2026-02-18 19:44:34

宗教习俗不能扰民：谁给你凌晨敲梆子唤醒的权力？

宗教习俗不能扰民：谁给你凌晨敲梆子唤醒的权力？

西域都护

2026-03-05 22:49:54

吉林女子将丈夫绑椅子上注射6只兽药，临死前哀求：再也不敢了

吉林女子将丈夫绑椅子上注射6只兽药，临死前哀求：再也不敢了

纪实录

2024-07-20 22:29:19

以军超80架战机空袭伊朗军事及基础设施

以军超80架战机空袭伊朗军事及基础设施

界面新闻

2026-03-07 14:15:54

人社部、财政部发布重要消息，2026年养老金上涨定了吗？了解下

人社部、财政部发布重要消息，2026年养老金上涨定了吗？了解下

云鹏叙事

2026-03-07 23:03:02

中央定调，退休新规实施，1970年3月后出生的，60岁退休划算吗？

中央定调，退休新规实施，1970年3月后出生的，60岁退休划算吗？

有范又有料

2026-03-05 09:22:10

AI产业主平台领航智能+时代

14662文章数 66667关注度

往期回顾全部

科技要闻

OpenClaw爆火，六位"养虾人"自述与AI共生

头条要闻

伊朗总统：号召所有伊朗人挺身而出保卫领土

头条要闻

伊朗总统：号召所有伊朗人挺身而出保卫领土

体育要闻

塔图姆298天走完这段路只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料，张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈国家出手了

汽车要闻

逃离ICU，上汽通用“止血”企稳

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

数码

亲子

本地

手机

艺术要闻

1.61亿天价！陈丹青的《牧羊人》如何震撼艺术界？

数码要闻

英特尔 Core Ultra 3 “Panther Lake-H” 结构细节曝光

亲子要闻

有些一个人去产检的孕妇不值得可怜！网友：出事了骂一顿都是轻的

本地新闻

食味印象｜一口入魂！康乐烤肉串起千年丝路香

手机要闻

网曝OPPO Find N6渲染图，或有橙色版本

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版