网易首页 > 网易号 > 正文 申请入驻

中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】600万美金训出击败GPT-4o大模型,竟被中国团队实现了!今天,DeepSeek-V3在全网掀起巨大风暴,仅凭671B参数在数学代码性能上,堪比国外大模型Claude 3.5 Sonnet。

一夜之间,来自中国的大模型刷屏全网。

DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。

在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

在数学代码方面,DeepSeek-V3完全碾压GPT-4o。尤其是中文能力,全面领先国外的领先大模型。

就看这闪电般的推理速度,就知道模型有多强了。

值得一提的是,DeepSeek-V3在14.8T高质量token上完成了训练,模型和论文100%开源。

论文地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

新模型惊艳出世,彻底掀翻了整个AI圈。业界多位AI大佬,纷纷对此表示震惊,将重点转向其训练成本GPU之上。

论文中,明确提出了DeepSeek-V3仅使用2048块GPU训练了2个月,并且只花费了557.6万美金。

Karpathy惊叹道,「作为参考,要达到这种级别的能力,通常需要约1.6万个GPU的计算集群。不仅如此,当前业界正在部署的集群规模甚至已经达到了10万个GPU。

比如,Llama 3 405B消耗了3080万GPU小时,而看起来更强大的DeepSeek-V3却只用了280万GPU小时(计算量减少了约11倍)。

到目前为止,模型在实际应用中的表现相当出色——不仅在LLM竞技场名列前茅,而且从Karpathy本人的快速测试来看,结果也都很不错。

这说明,即便是在资源受限情况下,模型也能展现出令人印象深刻的研究和工程能力。

这是否意味着前沿LLM不需要大型GPU集群?不是的,但这表明,你必须确保不浪费已有的资源,这个案例很好地证明了在数据和算法方面还有很大的优化空间」。

另外,贾扬清针对推理提出了几点自己的思考:

  • 首先最重要的是,我们正式进入了分布式推理时代。一台单GPU机器(80×8=640G)的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型,但不论如何,都需要分布式推理来保证性能和未来扩展。

  • 即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。

  • 论文中特别提到引入「redundantexpert」概念,正是为了解决这个问题。这已经不再是「一个模型多个副本」的问题、而是「每个模型子模块都有多个副本」,然后独立扩缩容。

  • 输入token很容易实现盈利。根据个人专业判断,需要大量优化才能使输出token盈利或实现收支平衡。但如果我们相信「软件摩尔定律」,这就不是问题:每18个月单token成本减半。

  • 需要进行分块(tile)或块(block)级别的量化。

  • 等硬件支持FP4以后,肯定还有不少可以玩的花样冷知识:FP4乘法实际上就是个16×16的table lookup等等……

中国模型一夜击败GPT-4o,100%开源

DeepSeek-V3不俗表现,是在上一代V2进一步升级和迭代。

在基准测试中,数学领域MATH 500上,DeepSeek-V3拿下了90.2高分,比Claude 3.5 Sonnet、GPT-4o超出10分还要多。

同理,在AIME 2024测试中,DeepSeek-V3也取得了领先优势,飙升近20分。

在代码Codeforces基准上,新模型以51.6分刷新SOTA,比国外大模型高出30分左右。

在软件工程SWE-bench Verified基准上,DeepSeek-V3略显逊色,Claude 3.5 Sonnet以50.8分碾压所有模型。

另外,在多语言能力(MMLU-Pro)方面,V3提升并不明显。知识问答基准(GPQA-Diamond)上,V3也是仅次于Claude 3.5 Sonnet。

如下这张图表,更详细地展示了DeepSeek-V3在各种基准测试中的结果。

53页技术报告中,特比强调了V3的训练成本取得了最大的突破。

团队特意强调了,新模型的完整训练仅需要2.788M个GPU小时。即便如此,它在训练过程中非常稳定,没有遇到过任何不可恢复的loss突增,也没有执行任何rollback操作。

DeepSeek-V3训练成本如下表1所示,这是背后团队通过优化算法、框架、硬件协同设计最终实现的。

在预训练阶段,模型每训练1万亿token仅需要180K个GPU小时,即在配备2048个GPU的集群上只需3.7天。

因此,DeepSeek-V3预训练阶段耗时不到2个月就完成了,总共消耗2664K个GPU小时。

另外,再加上上下文长度scaling所需的119K GPU小时和后训练的5K GPU小时,由此V3完整训练仅消耗2.788M个GPU小时。

团队表示,假设GPU的租用价格为2美元/每GPU小时,DeepSeek-V3总训练成本仅为557.6万美元。

那么,究竟是怎样的技术突破,使得DeepSeek-V3实现了质的飞升?

训练细节

正如开头所述,DeepSeek-V3是一个强大的混合专家模型(MoE),总参数量为为671B,每个token激活37B参数。

它继续采用了多头潜在注意力(MLA)来实现高效推理,以及DeepSeekMoE实现低成本训练。

这两种架构的优势,已经在上一代V2中得到了验证。

除了基本框架之外,研究人员还采用了两个额外的策略,来进一步增强模型的能力:

  • 采用无辅助损失(auxiliary-loss-free)方法来实现负载均衡,目的是最小化负载均衡对V3性能造成的不利影响。

  • 采用多token预测训练目标,结果证明能够提升V3在评估基准上的整体性能。

DeepSeek-V3框架

为了实现高效训练,团队采用了「FP8混合精度训练」,并对训练框架进行了全面优化。

通过支持FP8计算和存储,实现了训练加速和GPU内存使用的减少。

在预训练阶段,DeepSeek-V3在14.8T高质量且多样化的token完成了训练,然后又对模型进行了监督微调、强化学习阶段。

由此,我们才看了DeepSeek-V3在如上评测中,性能超过了其他开源模型,并达到了与领先闭源模型相当的性能水平。

网友炸锅了

DeepSeek-V3现在已经在官方平台上直接可以测试,而且代码全部开源可以直接下载。

国外AI发烧友们纷纷开启了测试,有人直接将4/8个M4 Mac mini堆叠在一起来运行DeepSeek-V3了...

一位开发者惊讶地表示,DeepSeek-V3无需我解释就能如此准确地理解一切,这种感觉真让人毛骨悚然。就好像机器里真的住着一个幽灵似的。

另有开发者通过DeepSeek-V3创建了一个用AI公司logo制作的小行星游戏,分分钟就完成了。

还有的人对用如此低成本,训练出一个强大得模型,难以置信。

Stability AI前CEO表示,以每秒60个token(相当于人类阅读速度5倍)的速度全天候运行DeepSeek v3,每天仅需要2美元。

那么,你是要选择一杯拿铁咖啡,还是一个AI助手呢?

参考资料:

https://x.com/karpathy/status/1872362712958906460

https://x.com/jiayq/status/1872382450216915186

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普脖子被发现异常,瞒不住的白宫承认,总统确实正在接受治疗

特朗普脖子被发现异常,瞒不住的白宫承认,总统确实正在接受治疗

牛锅巴小钒
2026-03-07 15:23:05
12天8个涨停板!股民:好久不见的妖股!

12天8个涨停板!股民:好久不见的妖股!

数据挖掘分析
2026-03-07 15:28:24
特朗普突然发文昭告全球,包括中国俄罗斯在内,一个都跑不掉?

特朗普突然发文昭告全球,包括中国俄罗斯在内,一个都跑不掉?

徐云流浪中国
2026-03-07 23:53:04
伊朗突然不按套路出牌,1200枚导弹打不出一个响?这才是真正杀招

伊朗突然不按套路出牌,1200枚导弹打不出一个响?这才是真正杀招

策前论
2026-03-06 16:25:38
车主注意了!6月起高速无杆通行试点,车主终于能一脚油门通过?

车主注意了!6月起高速无杆通行试点,车主终于能一脚油门通过?

老特有话说
2026-03-06 16:12:20
印度外长证实:出于人道主义考虑,印度允许伊朗军舰紧急停靠其港口

印度外长证实:出于人道主义考虑,印度允许伊朗军舰紧急停靠其港口

环球网资讯
2026-03-07 18:58:16
宇宙出现bug了?117亿光年外,科学家发现了5个一模一样的星系

宇宙出现bug了?117亿光年外,科学家发现了5个一模一样的星系

心中的麦田
2026-03-07 19:22:45
公司发年终奖总监表弟拿140万,我业绩最佳只有一千,我直接休假

公司发年终奖总监表弟拿140万,我业绩最佳只有一千,我直接休假

奶茶麦子
2026-03-07 16:54:25
哇塞,她和关之琳长得好像啊,气质也那么像!

哇塞,她和关之琳长得好像啊,气质也那么像!

草莓解说体育
2026-03-06 19:10:11
无缘世界杯?伊拉克通知国际足联无法参加附加赛 40%球员无法出行

无缘世界杯?伊拉克通知国际足联无法参加附加赛 40%球员无法出行

念洲
2026-03-07 06:17:28
“女吃播三巨头”现状:脸像骷髅、摘除味觉神经,有人已立好遗嘱

“女吃播三巨头”现状:脸像骷髅、摘除味觉神经,有人已立好遗嘱

谈史论天地
2026-02-06 19:00:03
金价一夜大变!今日金价(2026年3月7日)今日黄金价格多少钱一克

金价一夜大变!今日金价(2026年3月7日)今日黄金价格多少钱一克

亿通电子游戏
2026-03-07 10:51:22
李开复谈OpenClaw:“一人公司”的初步演示

李开复谈OpenClaw:“一人公司”的初步演示

金融界
2026-03-07 07:53:05
国家出手抓的3位首富,坑害老百姓、劣迹斑斑,个个不值得原谅

国家出手抓的3位首富,坑害老百姓、劣迹斑斑,个个不值得原谅

老斉科普君
2026-02-19 15:06:15
法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

新欧洲
2026-02-18 19:44:34
宗教习俗不能扰民:谁给你凌晨敲梆子唤醒的权力?

宗教习俗不能扰民:谁给你凌晨敲梆子唤醒的权力?

西域都护
2026-03-05 22:49:54
吉林女子将丈夫绑椅子上注射6只兽药,临死前哀求:再也不敢了

吉林女子将丈夫绑椅子上注射6只兽药,临死前哀求:再也不敢了

纪实录
2024-07-20 22:29:19
以军超80架战机空袭伊朗军事及基础设施

以军超80架战机空袭伊朗军事及基础设施

界面新闻
2026-03-07 14:15:54
人社部、财政部发布重要消息,2026年养老金上涨定了吗?了解下

人社部、财政部发布重要消息,2026年养老金上涨定了吗?了解下

云鹏叙事
2026-03-07 23:03:02
中央定调,退休新规实施,1970年3月后出生的,60岁退休划算吗?

中央定调,退休新规实施,1970年3月后出生的,60岁退休划算吗?

有范又有料
2026-03-05 09:22:10
2026-03-08 00:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14662文章数 66667关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

伊朗总统:号召所有伊朗人挺身而出 保卫领土

头条要闻

伊朗总统:号召所有伊朗人挺身而出 保卫领土

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

艺术
数码
亲子
本地
手机

艺术要闻

1.61亿天价!陈丹青的《牧羊人》如何震撼艺术界?

数码要闻

英特尔 Core Ultra 3 “Panther Lake-H” 结构细节曝光

亲子要闻

有些一个人去产检的孕妇不值得可怜!网友:出事了骂一顿都是轻的

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

手机要闻

网曝OPPO Find N6渲染图,或有橙色版本

无障碍浏览 进入关怀版