网易首页 > 网易号 > 正文 申请入驻

起底“大模型界拼多多”:手握万卡的AI新“黑马”,95后天才刚被雷军挖走

0
分享至

出品|搜狐科技

作者|梁昌均

运营编辑|王一晴

审核|孟莎莎

一款国产开源大模型,最近在国内外AI界出圈。

“这是在资源受限的情况下,对研究和工程的一次令人印象深刻的展示。”AI大神、OpenAI创始成员Andrej Karpathy(安德烈·卡帕西)发文称,会仔细阅读这篇非常棒的技术论文。

他提到的这篇论文,用53页的篇幅介绍了一款开源大模型DeepSeek-V3,其由国内AI公司DeepSeek(深度求索)研发推出。

“综合评估表明,DeepSeek-V3已成为目前最强大的开源模型,性能可与GPT-4o和 Claude-3.5-Sonnet等领先的闭源模型相媲美。”该论文表示。

不止安德烈,多位AI大牛,如阿里前副总裁贾扬清、MetaAI科学家田渊栋、英伟达高级研究科学家Jim Fan等,纷纷对这款模型点赞。

有网友认为这是“全球最佳开源大模型”,甚至认为这将推动AGI将比预期更早且能以更低成本实现。

让这些AI大牛点赞的更大原因在于,这款模型仅用了2000多张GPU、训练成本不到600万美元,远远低于OpenAI、Meta等在万卡规模上训练的模型成本。

此前,大模型被认为是需要依靠Scaling Law而迭代演进,但现在这家低调的中国公司可能提供了另一种可能。最近,小米雷军亲自挖95后天才,也让这家公司受到更多关注。

媲美全球最强模型

训练成本仅有GPT-4o的1/18

DeepSeek-V3是一款自研的MoE(混合专家架构)模型,参数规模从前代的2360亿提升到6710亿,在14.8 T tokens上进行了预训练,上下文长度为128K。

评测结果显示,DeepSeek-V3的性能已经成为目前最强大的开源模型,同时在多个主流评测基准上可媲美目前最强大的闭源模型,特别是在代码和数学方面。

在知识能力方面,DeepSeek-V3在MMLU-Pro(综合学科增强版)和GPQA-Diamond(化学、物理和生物)等基准测试超越阿里、Meta等所有开源模型,并领先GPT-4o,但不及Claude-3.5-Sonnet。

在数学、代码和推理能力方面,DeepSeek-V3在MATH500、AIME2024及Codeforces等多个主流基准测试中,不仅碾压阿里和Meta的最新开源模型,同时超越GPT-4o和Claude-3.5-Sonnet。

深度求索还提到,DeepSeek-V3甚至还在特定基准测试上超过强化推理能力的o1-preview(预览版),如MATH-500,展示其出强大的数学推理能力。

不过,OpenAI早前发布的o1正式版依然是科学、数学和编码等推理领域的王者。在GPQA-Diamond等多个基准评测上,DeepSeek-V3与o1相比均存在明显差距。

此前,业内不少观点认为,开源模型无法追赶闭源模型。但开源的DeepSeek-V3则证明,开源和闭源模型的差距可以缩小,并完全有希望超越闭源模型。

不过,真正引起一众AI大牛赞叹的是,DeepSeek-V3训练成本竟然只用了不到600万美元——准确说是557.6万美元。该模型在由2048块H800组成的GPU集群上训练3.7天,预训练耗时不到两个月就完成,完整训练仅用了278.8万GPU小时。

不过,深度求索强调,该成本仅包括DeepSeek-V3的官方训练,不包括先前与架构、算法或数据的有关研究和消融实验相关成本。

安德烈用“a joke of a budget”(玩笑般的预算)表达了对成本的惊讶。他提到,Llama-3-405B的训练耗时3080万个GPU小时,而DeepSeek-V3看起来是一个更强大的模型,但用了不到280万个GPU小时,这意味计算量仅有Llama-3-405B的1/11。

公开信息显示,Llama-3-405B是在近1.64万块H100 GPU集群上训练,预训练时间为54天,耗时超过2118万GPU小时,成本超过5460万美元,是DeepSeek-V3的10倍多。

此外,类似GPT-4o、Claude-3这样的模型则是在数万块GPU上训练,成本均高达1亿美元,是DeepSeek-V3成本的近18倍。

“这是疯狂的效率,难以置信的进步。”不少网友评价称。Meta AI科学家田渊栋也表示,这是令人赞叹的H800黑客技术,是一项了不起的工作。

不过,需要指出的是,DeepSeek-V3还存在一些局限性,比如英文能力还落后于GPT-4o和Claude-Sonnet-3.5,同时部署要求较高,对小型团队不太友好,且生成速度还有提升潜力。

“我真没法跑,没那么多卡。”有AI博主对搜狐科技提到,FP8框架的模型,磁盘都需要接近1T。“对很多人来说,可能连下载动力都没有。”

DeepSeek在论文中表示,随着更先进硬件的开发,这些局限性有望得到解决。

架构+工程组合创新的胜利

大模型或不再仅靠堆算力

为何DeepSeek-V3能用如此低的成本,训练出可以媲美OpenAI、Meta的最强开闭源模型?

一位从事AI算法工程师对搜狐科技表示,DeepSeek在论文中介绍了在模型架构、训练框架、推理部署、硬件设计、数据构建等方面都进行了组合式的工程创新,提出了很多节约算力、提升效率的策略,并保证了模型效果。

深度求索也在论文中强调,这是基于优化算法、框架和硬件的共同设计而实现。

搜狐科技梳理论文了解到,架构方面,DeepSeek-V3依然基于Transformer框架,但采用了MLA(多头潜在注意力)和独创的DeepSeekMoE(混合专家架构),共同推动了算力成本的下降,这两项创新已在DeepSeek-V2中得到验证。

前述工程师还提到,DeepSeek-V3设计了FP8混合精度训练框架,并验证了可行性和有效性,此前主流选择框架是BF16,这可以说是比较大的突破。同时,通信、内存、硬件等方面也进行了算法设计和协同优化。

此外,DeepSeek-V3还在训练语料库中提高了数学和编程样本的比例,扩展了多语言覆盖范围,在后训练阶段使用了模型生成的数据,并利用强化学习的奖励机制,从而提升了模型性能,尤其是推理能力。

不过,有用户发现,DeepSeek-V3对自己的身份认知出现了错误,称自己是OpenAI创造的模型,引发套壳质疑。业内观点认为,这是由于采用了模型生成的受到污染的训练语料导致。

可以说,DeepSeek-V3持续出圈,是一次架构+工程组合创新的胜利。

贾扬清认为,这是智慧和实用主义在发挥作用:在计算人力限制下,用聪明的研究产生最好的结果。“就像Alex Krizhevsky用2个GPU,而不是超级计算机群,创造出奇迹的AlexNet一样。

英伟达高级研究科学家Jim Fan也提到,资源限制是一件美好的事情,在残酷的AI竞争环境中,生存本能是取得突破的主要动力。

这也引发了对“算力决定论”的质疑,是否意味着前沿大模型不再需要大型GPU集群?

“并不是,但你必须确保不会浪费你所拥有的。但这看起来是一个很好的证明,表明在数据和算法方面还有很多事情要做。”安德烈表示。

有观点认为,这标志着向更精益、更具成本效益的AI开发的转变,通过对底层架构和模型流程的优化,证明了优化算法的发展潜力绝不弱于堆算力。

手握万张GPU储备

“95后天才”刚被雷军挖走

DeepSeek-V3的出圈也让背后公司DeepSeek进一步获得关注。

这家公司位于杭州,成立于2023年7月,创始人是颇为低调的80后梁文锋。他更多为投资圈熟知——量化私募四巨头之一幻方的实控人。

梁文锋本硕就读于浙江大学,学的是电子工程系AI方向。后来,他主要在量化投资领域进行研究,2015年创立幻方量化,其一度成为规模超千亿的量化私募巨头。

据36氪,幻方量化早在2019年就成立了AI团队,为自研的深度学习训练平台萤火投资了十多亿元,是国内除大厂以外少数拥有上万张GPU储备的公司。

随着2023年大模型浪潮爆发,梁文锋把幻方做大模型的团队独立为DeepSeek。但在当时众多创业大佬的光环下,DeepSeek还显得籍籍无名。

直到今年5月,DeepSeek-V2模型开源,并掀起一场持续至今的大模型价格战。因此,DeepSeek被冠以“大模型界拼多多”,并在硅谷成为“神秘的东方力量”。

梁文锋此前在为数不多的采访中强调,DeepSeek追求的是AGI,且不做垂类和应用,短期内也不会融资,“研究和技术创新永远是第一优先级”。

同时,他也非常认可开源的价值,“即使OpenAI闭源,也无法阻止被别人赶超”,希望通过开源,走到技术的前沿,参与到全球创新的浪潮里去,而不是趁机赚一笔。

“可能是2年、5年或10年,总之会在我们有生之年实现。”梁文锋同样信仰AGI,为此押注了自然语言、数学和代码和多模态三个方向。

这也让外界看到了这家公司的人才和创新理念。梁文锋此前表示,公司核心技术岗位基本以应届和毕业一两年的人为主,并尽可能少干预管理,让每个人有自由发挥的空间和试错机会。

DeepSeek-V3论文在最后就列出了约200位贡献者,包括150位研发和工程人员,30多位数据标注人员和18位商业合规人员。

值得注意的是,名单依然写上了10位员工离职,包括最近引发关注的“95后天才”罗福莉。消息称,她已入职小米领导大模型团队,由雷军亲自下场挖人,薪酬或在千万元级别。

罗福莉硕士毕业于北京大学计算语言学研究所,毕业后顶着国际顶会ACL 8篇论文作者的光环加入阿里达摩院,2022年加入幻方量化,后转入DeepSeek参与了DeepSeek-V2的研发。

她曾在社交平台回答“阻碍国内团队研究ChatGPT的障碍”时表示,赞同大家提到的缺乏远见者,但个人认为国内非常缺乏工程型的AI实验室。

“这不是把一堆学术背景好的研发人才放在一起,就能干好的事情,大型工程设计才是核心,目标设定,训练调试,评测反馈,交互体验,数据回流,每一步都需要扎得很深。”

罗福莉还在DeepSeek-V2开源后表示,这是群体智慧的结晶,而做到兼顾模型效果和成本,基本纯靠模型结构创新(MLA+DeepSeekMoE)+超强Infra,“创新力就是第一生产力”。

如今,DeepSeek-V3的进一步出圈,无疑为大模型的发展路径提供了新的可能,并再次验证创新才是实现技术理想的关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张家界“爱国贼事件”:傻X式爱国,是个巨大祸害

张家界“爱国贼事件”:傻X式爱国,是个巨大祸害

麦大人
2025-10-13 15:29:56
哈里梅根被逐出美国社交圈!遭名流们“背叛”,特朗普也煽风点火

哈里梅根被逐出美国社交圈!遭名流们“背叛”,特朗普也煽风点火

译言
2026-05-02 09:23:34
国民党通告两岸,台湾最大靠山已浮现,话音刚落,大陆回敬一句话

国民党通告两岸,台湾最大靠山已浮现,话音刚落,大陆回敬一句话

时光在作祟
2026-05-01 11:44:00
全国人民代表大会常务委员会关于批准《中华人民共和国和阿塞拜疆共和国关于刑事司法协助的条约》的决定

全国人民代表大会常务委员会关于批准《中华人民共和国和阿塞拜疆共和国关于刑事司法协助的条约》的决定

金台资讯
2026-05-01 06:31:37
李谷一再婚嫁给肖劲光之子,岳父来作客时,肖:你可是我的保护伞

李谷一再婚嫁给肖劲光之子,岳父来作客时,肖:你可是我的保护伞

凉州辞
2026-05-01 13:45:03
英维克还猛?这家8元低价+液冷+宇树供应商  主力底部暴抢6亿元

英维克还猛?这家8元低价+液冷+宇树供应商 主力底部暴抢6亿元

元芳说投资
2026-05-02 06:00:30
美国举国之力梭哈了

美国举国之力梭哈了

贩财局
2026-05-01 20:46:02
伊朗高层强硬表态,对美国失去信任,伊方将落实霍尔木兹海峡管控

伊朗高层强硬表态,对美国失去信任,伊方将落实霍尔木兹海峡管控

青烟小先生
2026-05-02 09:30:13
抢走王朔,睡遍京圈,定居国外7年的“坏种”徐静蕾,成最终赢家

抢走王朔,睡遍京圈,定居国外7年的“坏种”徐静蕾,成最终赢家

财叔
2026-05-01 08:30:27
脑有没有萎缩,睡觉就知?提醒:睡觉时出现这4个症状,尽早筛查

脑有没有萎缩,睡觉就知?提醒:睡觉时出现这4个症状,尽早筛查

芹姐说生活
2026-04-22 23:45:31
菲律宾万万想不到!精心安排在"仁爱礁"的破船 ,却助力了中国

菲律宾万万想不到!精心安排在"仁爱礁"的破船 ,却助力了中国

泠泠说史
2026-04-11 20:01:18
疯狂!种马男星沃伦睡过12775名女友,性欲成瘾缠着女友不让下床

疯狂!种马男星沃伦睡过12775名女友,性欲成瘾缠着女友不让下床

钱小刀娱乐
2026-04-14 10:39:13
李湘在长沙小区被路人偶遇,整个人瘦到像换了个人,忒美了

李湘在长沙小区被路人偶遇,整个人瘦到像换了个人,忒美了

动物奇奇怪怪
2026-04-30 17:30:48
52岁杨千嬅在杭州咖啡馆被偶遇,个子挺矮的,身材微胖

52岁杨千嬅在杭州咖啡馆被偶遇,个子挺矮的,身材微胖

大中国
2026-05-01 09:07:29
多位省委书记省长密集会见王传福:地方为何争抢比亚迪?

多位省委书记省长密集会见王传福:地方为何争抢比亚迪?

鸟儿太能吃
2026-05-02 08:03:26
今夜,全线暴涨!特朗普,关税突发!

今夜,全线暴涨!特朗普,关税突发!

中国基金报
2026-05-02 00:13:16
台上大谈平安建设,台下主动投案!广西莫君案太讽刺

台上大谈平安建设,台下主动投案!广西莫君案太讽刺

一口娱乐
2026-05-02 09:36:13
老茂承认新阵型不理想 球迷:下课吧 还搞科研呢!王大雷装一辈子

老茂承认新阵型不理想 球迷:下课吧 还搞科研呢!王大雷装一辈子

刀锋体育
2026-05-02 09:41:54
陈亚男风评反转,网友:她根本不想踏实过日子,是想继续吃直播饭

陈亚男风评反转,网友:她根本不想踏实过日子,是想继续吃直播饭

魔都姐姐杂谈
2026-04-30 12:25:20
深圳新政首日:有业主加价100万?这类房子率先涨价成交

深圳新政首日:有业主加价100万?这类房子率先涨价成交

深圳买房计划
2026-05-01 22:30:45
2026-05-02 10:31:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方账号
4798文章数 9190关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

头条要闻

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

教育
本地
游戏
时尚
公开课

教育要闻

从1078人到437人:湖南公费师范生招生大降,释放了什么信号?

本地新闻

用青花瓷的方式,打开西溪湿地

开放世界天花板!IGN:《GTA6》真该学学这款神作

聪明女人衣服从来不买太多!这三种精品提前准备好,耐穿又实用

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版