网易首页 > 网易号 > 正文 申请入驻

大模型界拼多多,手握万卡的AI新“黑马”,95后天才刚被雷军挖走

0
分享至

一款国产开源大模型,最近在国内外AI界出圈。

“这是在资源受限的情况下,对研究和工程的一次令人印象深刻的展示。”AI大神、OpenAI创始成员Andrej Karpathy(安德烈·卡帕西)发文称,会仔细阅读这篇非常棒的技术论文。

他提到的这篇论文,用53页的篇幅介绍了一款开源大模型DeepSeek-V3,其由国内AI公司DeepSeek(深度求索)研发推出。

“综合评估表明,DeepSeek-V3已成为目前最强大的开源模型,性能可与GPT-4o和 Claude-3.5-Sonnet等领先的闭源模型相媲美。”该论文表示。

不止安德烈,多位AI大牛,如阿里前副总裁贾扬清、MetaAI科学家田渊栋、英伟达高级研究科学家Jim Fan等,纷纷对这款模型点赞。

有网友认为这是“全球最佳开源大模型”,甚至认为这将推动AGI将比预期更早且能以更低成本实现。

让这些AI大牛点赞的更大原因在于,这款模型仅用了2000多张GPU、训练成本不到600万美元,远远低于OpenAI、Meta等在万卡规模上训练的模型成本。

此前,大模型被认为是需要依靠Scaling Law而迭代演进,但现在这家低调的中国公司可能提供了另一种可能。最近,小米雷军亲自挖95后天才,也让这家公司受到更多关注。

媲美全球最强模型

训练成本仅有GPT-4o的1/18

DeepSeek-V3是一款自研的MoE(混合专家架构)模型,参数规模从前代的2360亿提升到6710亿,在14.8 T tokens上进行了预训练,上下文长度为128K。

评测结果显示,DeepSeek-V3的性能已经成为目前最强大的开源模型,同时在多个主流评测基准上可媲美目前最强大的闭源模型,特别是在代码和数学方面。

在知识能力方面,DeepSeek-V3在MMLU-Pro(综合学科增强版)和GPQA-Diamond(化学、物理和生物)等基准测试超越阿里、Meta等所有开源模型,并领先GPT-4o,但不及Claude-3.5-Sonnet。

在数学、代码和推理能力方面,DeepSeek-V3在MATH500、AIME2024及Codeforces等多个主流基准测试中,不仅碾压阿里和Meta的最新开源模型,同时超越GPT-4o和Claude-3.5-Sonnet。

深度求索还提到,DeepSeek-V3甚至还在特定基准测试上超过强化推理能力的o1-preview(预览版),如MATH-500,展示其出强大的数学推理能力。

不过,OpenAI早前发布的o1正式版依然是科学、数学和编码等推理领域的王者。在GPQA-Diamond等多个基准评测上,DeepSeek-V3与o1相比均存在明显差距。

此前,业内不少观点认为,开源模型无法追赶闭源模型。但开源的DeepSeek-V3则证明,开源和闭源模型的差距可以缩小,并完全有希望超越闭源模型。

不过,真正引起一众AI大牛赞叹的是,DeepSeek-V3训练成本竟然只用了不到600万美元——准确说是557.6万美元。该模型在由2048块H800组成的GPU集群上训练3.7天,预训练耗时不到两个月就完成,完整训练仅用了278.8万GPU小时。

不过,深度求索强调,该成本仅包括DeepSeek-V3的官方训练,不包括先前与架构、算法或数据的有关研究和消融实验相关成本。

安德烈用“a joke of a budget”(玩笑般的预算)表达了对成本的惊讶。他提到,Llama-3-405B的训练耗时3080万个GPU小时,而DeepSeek-V3看起来是一个更强大的模型,但用了不到280万个GPU小时,这意味计算量仅有Llama-3-405B的1/1

公开信息显示,Llama-3-405B是在近1.64万块H100 GPU集群上训练,预训练时间为54天,耗时超过2118万GPU小时,成本超过5460万美元,是DeepSeek-V3的10倍多。

此外,类似GPT-4o、Claude-3这样的模型则是在数万块GPU上训练,成本均高达1亿美元,是DeepSeek-V3成本的近18倍。

“这是疯狂的效率,难以置信的进步。”不少网友评价称。Meta AI科学家田渊栋也表示,这是令人赞叹的H800黑客技术,是一项了不起的工作。

不过,需要指出的是,DeepSeek-V3还存在一些局限性,比如英文能力还落后于GPT-4o和Claude-Sonnet-3.5,同时部署要求较高,对小型团队不太友好,且生成速度还有提升潜力。

“我真没法跑,没那么多卡。”有AI博主对旺旺屋提到,FP8框架的模型,磁盘都需要接近1T。“对很多人来说,可能连下载动力都没有。”

DeepSeek在论文中表示,随着更先进硬件的开发,这些局限性有望得到解决。

架构+工程组合创新的胜利

大模型或不再仅靠堆算力

为何DeepSeek-V3能用如此低的成本,训练出可以媲美OpenAI、Meta的最强开闭源模型?

一位从事AI算法工程师对旺旺屋表示,DeepSeek在论文中介绍了在模型架构、训练框架、推理部署、硬件设计、数据构建等方面都进行了组合式的工程创新,提出了很多节约算力、提升效率的策略,并保证了模型效果。

深度求索也在论文中强调,这是基于优化算法、框架和硬件的共同设计而实现。

旺旺屋梳理论文了解到,架构方面,DeepSeek-V3依然基于Transformer框架,但采用了MLA(多头潜在注意力)和独创的DeepSeekMoE(混合专家架构),共同推动了算力成本的下降,这两项创新已在DeepSeek-V2中得到验证。

前述工程师还提到,DeepSeek-V3设计了FP8混合精度训练框架,并验证了可行性和有效性,此前主流选择框架是BF16,这可以说是比较大的突破。同时,通信、内存、硬件等方面也进行了算法设计和协同优化。

此外,DeepSeek-V3还在训练语料库中提高了数学和编程样本的比例,扩展了多语言覆盖范围,在后训练阶段使用了模型生成的数据,并利用强化学习的奖励机制,从而提升了模型性能,尤其是推理能力。

不过,有用户发现,DeepSeek-V3对自己的身份认知出现了错误,称自己是OpenAI创造的模型,引发套壳质疑。业内观点认为,这是由于采用了模型生成的受到污染的训练语料导致。

可以说,DeepSeek-V3持续出圈,是一次架构+工程组合创新的胜利。

贾扬清认为,这是智慧和实用主义在发挥作用:在计算人力限制下,用聪明的研究产生最好的结果。“就像Alex Krizhevsky用2个GPU,而不是超级计算机群,创造出奇迹的AlexNet一样。

英伟达高级研究科学家Jim Fan也提到,资源限制是一件美好的事情,在残酷的AI竞争环境中,生存本能是取得突破的主要动力。

这也引发了对“算力决定论”的质疑,是否意味着前沿大模型不再需要大型GPU集群?

“并不是,但你必须确保不会浪费你所拥有的。但这看起来是一个很好的证明,表明在数据和算法方面还有很多事情要做。”安德烈表示。

有观点认为,这标志着向更精益、更具成本效益的AI开发的转变,通过对底层架构和模型流程的优化,证明了优化算法的发展潜力绝不弱于堆算力。

手握万张GPU储备

“95后天才”刚被雷军挖走

DeepSeek-V3的出圈也让背后公司DeepSeek进一步获得关注。

这家公司位于杭州,成立于2023年7月,创始人是颇为低调的80后梁文锋。他更多为投资圈熟知——量化私募四巨头之一幻方的实控人。

梁文锋本硕就读于浙江大学,学的是电子工程系AI方向。后来,他主要在量化投资领域进行研究,2015年创立幻方量化,其一度成为规模超千亿的量化私募巨头。

据36氪,幻方量化早在2019年就成立了AI团队,为自研的深度学习训练平台萤火投资了十多亿元,是国内除大厂以外少数拥有上万张GPU储备的公司。

随着2023年大模型浪潮爆发,梁文锋把幻方做大模型的团队独立为DeepSeek。但在当时众多创业大佬的光环下,DeepSeek还显得籍籍无名。

直到今年5月,DeepSeek-V2模型开源,并掀起一场持续至今的大模型价格战。因此,DeepSeek被冠以“大模型界拼多多”,并在硅谷成为“神秘的东方力量”。

梁文锋此前在为数不多的采访中强调,DeepSeek追求的是AGI,且不做垂类和应用,短期内也不会融资,“研究和技术创新永远是第一优先级”。

同时,他也非常认可开源的价值,“即使OpenAI闭源,也无法阻止被别人赶超”,希望通过开源,走到技术的前沿,参与到全球创新的浪潮里去,而不是趁机赚一笔。

“可能是2年、5年或10年,总之会在我们有生之年实现。”梁文锋同样信仰AGI,为此押注了自然语言、数学和代码和多模态三个方向。

这也让外界看到了这家公司的人才和创新理念。梁文锋此前表示,公司核心技术岗位基本以应届和毕业一两年的人为主,并尽可能少干预管理,让每个人有自由发挥的空间和试错机会。

DeepSeek-V3论文在最后就列出了约200位贡献者,包括150位研发和工程人员,30多位数据标注人员和18位商业合规人员。

值得注意的是,名单依然写上了10位员工离职,包括最近引发关注的“95后天才”罗福莉。消息称,她已入职小米领导大模型团队,由雷军亲自下场挖人,薪酬或在千万元级别。

罗福莉硕士毕业于北京大学计算语言学研究所,毕业后顶着国际顶会ACL 8篇论文作者的光环加入阿里达摩院,2022年加入幻方量化,后转入DeepSeek参与了DeepSeek-V2的研发。

她曾在社交平台回答“阻碍国内团队研究ChatGPT的障碍”时表示,赞同大家提到的缺乏远见者,但个人认为国内非常缺乏工程型的AI实验室。

“这不是把一堆学术背景好的研发人才放在一起,就能干好的事情,大型工程设计才是核心,目标设定,训练调试,评测反馈,交互体验,数据回流,每一步都需要扎得很深。”

罗福莉还在DeepSeek-V2开源后表示,这是群体智慧的结晶,而做到兼顾模型效果和成本,基本纯靠模型结构创新(MLA+DeepSeekMoE)+超强Infra,“创新力就是第一生产力”。

如今,DeepSeek-V3的进一步出圈,无疑为大模型的发展路径提供了新的可能,并再次验证创新才是实现技术理想的关键。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
影帝这么矮小!五一假期梁朝伟现身南京,身高与随性穿搭引发热议

影帝这么矮小!五一假期梁朝伟现身南京,身高与随性穿搭引发热议

火山詩话
2026-05-02 08:30:27
41岁单核六场晋级!詹皇28+8+7迎里程碑 系列赛得分王不值顶薪?

41岁单核六场晋级!詹皇28+8+7迎里程碑 系列赛得分王不值顶薪?

颜小白的篮球梦
2026-05-02 12:12:34
美国国防部长已下令从德国撤出5000名驻军,撤军工作将在未来6至12个月内完成

美国国防部长已下令从德国撤出5000名驻军,撤军工作将在未来6至12个月内完成

鲁中晨报
2026-05-02 07:55:05
44.4吨钚与9万亿军费:日本“核突破”倒计时,中方已正式出手

44.4吨钚与9万亿军费:日本“核突破”倒计时,中方已正式出手

起喜电影
2026-05-02 12:21:54
51:47!美国投票结果出炉,又一个国家危险了,中国力挺老朋友

51:47!美国投票结果出炉,又一个国家危险了,中国力挺老朋友

近史博览
2026-05-02 10:55:04
雷军估计更绝望了,北京车展181款首发新车,卖给谁呢?

雷军估计更绝望了,北京车展181款首发新车,卖给谁呢?

DearAuto
2026-05-01 11:56:57
美国警告赖清德当局,只要大陆决定武力统一,台湾的结局只有一个

美国警告赖清德当局,只要大陆决定武力统一,台湾的结局只有一个

猫女的小树屋
2026-05-02 10:14:06
4月最后一夜爆雷潮!9龙头亏超百亿,53股巨亏,4大高危板块曝光

4月最后一夜爆雷潮!9龙头亏超百亿,53股巨亏,4大高危板块曝光

慧眼看世界哈哈
2026-05-01 05:59:44
“让我先走,我要去娶我最爱的人,全程1146公里”高速上一车上横幅火了!

“让我先走,我要去娶我最爱的人,全程1146公里”高速上一车上横幅火了!

上观新闻
2026-05-02 10:01:05
商业航天也爆雷!业绩最大降100%,章盟主、社保基金却还在抢筹

商业航天也爆雷!业绩最大降100%,章盟主、社保基金却还在抢筹

长风价值掘金
2026-05-02 11:06:14
火箭惨败出局!乌度卡场下频频摇头 范乔丹气笑了 三分28中5铁哭

火箭惨败出局!乌度卡场下频频摇头 范乔丹气笑了 三分28中5铁哭

颜小白的篮球梦
2026-05-02 12:17:12
新华社消息|商务部:坚决反对美国联邦通信委员会审议通过检测认证和电信领域相关限制措施

新华社消息|商务部:坚决反对美国联邦通信委员会审议通过检测认证和电信领域相关限制措施

新华社
2026-05-01 14:48:10
3亿美元!央视不买世界杯的转播权,没想到球迷一边倒的支持

3亿美元!央视不买世界杯的转播权,没想到球迷一边倒的支持

魔都姐姐杂谈
2026-05-02 08:44:52
陈晓旭的这张照片,真的是护手霜宣传图吗

陈晓旭的这张照片,真的是护手霜宣传图吗

我来我看见
2026-05-02 00:38:35
地球已经装不下追觅这么牛的公司了

地球已经装不下追觅这么牛的公司了

老斯基财经
2026-04-30 11:05:19
俞浩再放狠话:追觅手机要与苹果、三星三分天下

俞浩再放狠话:追觅手机要与苹果、三星三分天下

IT之家
2026-05-02 12:35:08
官方:日本将在北京时间5月31日18点25分和冰岛进行热身赛

官方:日本将在北京时间5月31日18点25分和冰岛进行热身赛

懂球帝
2026-05-01 16:54:06
荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

抽象派大师
2026-04-30 00:16:18
太阳报:哈兰德620万镑购10居豪宅,计划建车库存超跑

太阳报:哈兰德620万镑购10居豪宅,计划建车库存超跑

懂球帝
2026-05-02 13:14:49
上海申花遭暴击!盖伊左脚跟腱断裂,将接受手术,或长期缺席

上海申花遭暴击!盖伊左脚跟腱断裂,将接受手术,或长期缺席

奥拜尔
2026-05-02 10:36:52
2026-05-02 14:32:53
旺旺屋
旺旺屋
电台主持人,歌手,作家等。
1841文章数 672关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子被诊断为疑似肝癌 辗转其他医院检查均无癌症依据

头条要闻

男子被诊断为疑似肝癌 辗转其他医院检查均无癌症依据

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

家居
数码
时尚
亲子
本地

家居要闻

灵动实用 生活艺术场

数码要闻

快睿推出H系列L型热管风冷,至高200W解热能力

聪明女人衣服从来不买太多!这三种精品提前准备好,耐穿又实用

亲子要闻

萌星秀秀:小萌星甜甜朗诵唐诗三首

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版