网易首页 > 网易号 > 正文 申请入驻

R2来之前,DeepSeek又放了个烟雾弹

0
分享至

出品|虎嗅科技组

作者|宋思杭

编辑|苗正卿

头图|视觉中国

5月前后,DeepSeek的动作倒是频繁,却都不是大家期待的R2。不过,一系列前菜已经给R2做足了铺垫。

5月14日,一篇DeepSeek V3论文,揭示了梁文峰是如何做到“极致降本”的。这篇论文也让业界得以一窥这家以技术立身的公司,其“内功”究竟修炼到了何种火候。

与此前发布的V3技术报告不同,这篇论文详细阐述了DeepSeek如何做到在硬件资源的的“紧箍咒”下,通过精妙的“软硬一体”协同设计,将成本效益这笔账算到极致。(虎嗅注:DeepSeek-V3仅使用了2048块英伟达H800 GPU)

在AI大模型这条烧钱的赛道上,算力即权力,但也可能是压垮骆驼的最后一根稻草。DeepSeek V3论文的核心,恰恰点出了一个行业痛点:如何让大模型不再是少数巨头的专属游戏?

论文中,DeepSeek毫不吝啬地分享了其“降本增效”的几大秘籍,这些技术细节,字里行间都透露出对现有硬件潜能的极致压榨,也预示着未来DeepSeek系列模型在性能与效率上的野心:

其一,是给模型的“记忆系统”瘦身。AI处理长文本、多轮对话时,需要记住海量的上下文信息,这部分“记忆”(即KV Cache)对显存的消耗极为惊人。DeepSeek V3祭出了“多头隐注意力机制”(MLA),好比给模型的记忆装上了一个高效压缩软件,能将冗长的信息浓缩成精华,大幅降低显存占用。这意味着,即便是处理越来越长的上下文,模型也能更加从容不迫,这对于解锁更多复杂应用场景至关重要。

其二,是打造“专家各司其职”的团队。面对大模型天文数字般的参数量,传统的“一人生万物”模式难免力不从心。DeepSeek V3沿用并优化了“混合专家模型”(MoE)架构。想象一下,一个庞大的项目被分解给一群各有所长的专家,遇到具体问题时,系统会自动“摇人”,只激活最相关的几位专家协同作战。这样一来,不仅运算效率提升,模型的“有效规模”也能在控制之下,避免了不必要的资源浪费。DeepSeek的优化,让这些“专家”间的沟通更顺畅,协作成本更低。

其三,是大胆拥抱“差不多就行”的数字精度。在AI训练中,数字的精确度并非越高越好。FP8,一种低精度数字格式,就像我们日常生活中算账,有时精确到“角”甚至“元”就已足够,不必非要到“分”。DeepSeek V3在训练中引入FP8混合精度,在对精度不那么敏感的环节“粗略”计算,直接效果就是计算量和内存占用大幅下降,训练速度更快、更省电。关键在于,论文证明了这种“偷懒”并不会明显牺牲模型的最终性能。

其四,是铺设更畅通的“信息高速公路”。大规模训练离不开GPU集群的协同作战,GPU之间的数据交换效率,直接决定了训练的整体速度。DeepSeek V3采用了“多平面网络拓扑结构”,优化了集群内部的数据传输路径,减少了拥堵和瓶颈,确保信息流转如丝般顺滑。

可以说,DeepSeek V3的最新论文,更像是一次技术自信的展示。它传递出一个清晰的信号:即便没有最顶级的硬件配置,通过极致的工程优化和算法创新,依然可以打造出具备行业领先潜力的大模型。这无疑为那些在算力焦虑中挣扎的追赶者们,提供了一条更具可行性的攀登路径。

实际上,4月30日,DeepSeek还上了另一道“前菜”。

当时,DeepSeek Prover V2以671B的参数重磅亮相,要知道,DeepSeek上一次发布V2模型的时候仅有7B。对于DeepSeek Prover V2,行业观察者们普遍认为,这是AI在辅助科学发现,特别是挑战人类智力极限的数学领域迈出的重要一步。

而DeepSeek近期的系列动作,放置于当前AI大模型产业的宏观背景下,更耐人寻味。

一方面,我们看到的是头部厂商在模型参数、多模态能力、应用生态上的全方位“内卷”,技术迭代的速度令人目不暇接,资本的热情也持续高涨。但另一方面,算力成本的持续攀升、商业化路径的尚不清晰、以及“智能涌现”之后如何实现真正的价值创造,这些都是悬在所有从业者头顶的达摩克利斯之剑。

在这样的背景下,DeepSeek V3论文所强调的“成本效益”和“软硬件协同”,以及Prover V2所代表的在特定高壁垒领域的深耕,似乎在传递一种不同的信号:在追求更大、更强的同时,对效率的极致追求和对特定价值场景的深度挖掘,可能成为AI下半场竞争的关键变量。

当“大力出奇迹”的边际效应开始递减,当市场开始从对技术本身的狂热转向对实际应用价值的考量,那些能够更聪明地利用现有资源、更精准地切入真实需求、更深入地理解并解决复杂问题的玩家,或许才能在喧嚣过后,笑到最后。

DeepSeek的这些“前菜”,无疑吊足了市场的胃口。人们期待的,不仅仅是一个性能更强的R2模型,更是一个能够为行业带来新思路、新变量的DeepSeek。在AI的牌桌上,这家以技术为底色的公司,显然还想打出更多意想不到的牌。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4352471.html?f=wyxwapp

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一碗米饭六碗菜,张雪峰这顿饭,藏着他透支身体的真相

一碗米饭六碗菜,张雪峰这顿饭,藏着他透支身体的真相

王二哥老搞笑
2026-03-25 20:09:31
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
侃爷夫妇出街画风猎奇 比安卡银裤辣眼引围观

侃爷夫妇出街画风猎奇 比安卡银裤辣眼引围观

述家娱记
2026-03-23 19:46:51
为啥没第二人称射击游戏,因为玩过的人都疯了

为啥没第二人称射击游戏,因为玩过的人都疯了

街机时代
2026-03-25 16:55:54
宁向美国妥协,也不求助中国?俄罗斯到底在布什么局?

宁向美国妥协,也不求助中国?俄罗斯到底在布什么局?

Hi科普啦
2026-03-26 14:13:23
40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

甜柠聊史
2026-03-26 14:38:54
男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

张晓磊
2026-03-26 11:22:06
不装了摊牌了!白宫承认伊朗拒绝谈判,特朗普准备“释放地狱”!

不装了摊牌了!白宫承认伊朗拒绝谈判,特朗普准备“释放地狱”!

阿芒娱乐说
2026-03-26 14:19:21
越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

岐黄传人孙大夫
2026-03-17 23:25:03
白宫:美国总统特朗普将于5月访华

白宫:美国总统特朗普将于5月访华

辇毂
2026-03-26 05:18:40
谷歌新算法引发美股存储板块集体下挫

谷歌新算法引发美股存储板块集体下挫

金融界
2026-03-26 09:37:28
女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

鱼语昱雨轩
2026-03-25 14:03:47
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

闻香阁
2026-03-26 03:33:51
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
难以置信!一福建男子称,感谢失业后妻子和他离婚,帮他减轻压力

难以置信!一福建男子称,感谢失业后妻子和他离婚,帮他减轻压力

火山詩话
2026-03-20 09:50:39
美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

瑛派儿老黄
2026-03-25 23:46:07
真撑不住了!特朗普,要做重大让步了!

真撑不住了!特朗普,要做重大让步了!

大嘴说天下
2026-03-25 19:16:47
王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

不似少年游
2026-03-25 17:03:59
美内政部长称美国从委内瑞拉“带回”价值1亿美元黄金,引巨大争议

美内政部长称美国从委内瑞拉“带回”价值1亿美元黄金,引巨大争议

环球网资讯
2026-03-26 14:54:16
奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

明镜pro
2026-03-26 09:22:44
2026-03-26 15:36:49
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
25979文章数 687624关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
房产
本地
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版