网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4 前夕再扔王炸!CEO 梁文锋亲自署名,这次要帮全行业把显存价格打下来?

0
分享至

★ 设为星标 | 只讲人话,带你玩转AIGC。

DeepSeek 真的不打算让人休息啊。

最近圈子里疯传:DeepSeek V4 即将在未来几周(春节前后)发布。

虽然官方没说话,但看这架势,大概率是真的。你们看这几周 DeepSeek 有多“反常”:

  • 元旦当天: 刚扔出 mHC 论文,试图拆掉 ResNet 的地基。

  • 上周: 悄悄更新了那篇著名的 DeepSeek-R1 论文。

  • 今天: 还没等大家消化完,又是一篇重磅论文——Engram。

这密集的动作,显然是在为后面的大招清扫障碍。

这种“暴风雨前的狂欢”,让我对传说中的 V4 更加期待了。

这篇论文又是 CEO 梁文锋亲自署名,看样子,这事儿又不简单。


如果说上一篇 mHC 是在动深度学习的“地基”,那这一篇 Engram,就是在试图绕开英伟达昂贵的“硬件壁垒”。

01|英伟达的无奈:算力够了,但脑子装不下了

要看懂 DeepSeek 这次有多狠,我们得先看一眼英伟达(NVIDIA) 最近的动作。

前不久,老黄发布了下一代核弹显卡 Rubin。

参数确实炸裂:推理算力提升了 5 倍,带宽提升了 2.8 倍。

但请注意一个极其尴尬的数据:HBM(高带宽显存)的容量,仅仅提升了 1.5 倍。


图:英伟达 Rubin NVL72 参数提升表

这就是目前 AI 行业的死穴:“显存墙”。

HBM 显存不仅产能被海力士和三星锁死,价格更是贵得离谱(是普通内存的 6-8 倍),关键是容量增长完全跟不上模型变大的速度。

你想把模型做大?不好意思,你得买更多昂贵的显卡,不是因为你需要算力,仅仅是因为你需要把模型塞进去。

这时候,DeepSeek 的“抠门”天赋又爆发了。

他们提出了一个灵魂拷问:谁说大模型的记忆必须塞在昂贵的 HBM 里?我们能不能用便宜的内存条解决问题?

02|明人的“笨功夫”:复活 N-gram

为了省钱,哦不,为了高效,DeepSeek 的工程师把目光投向了二十年前那个被淘汰的“笨小孩”——N-gram(N元语法)。

在深度学习还没火的“远古时代”,N-gram 是统治 NLP 届的王者。

这玩意儿的原理,说白了就是“成语接龙”加上“死记硬背”。

想象一下,你给电脑看了一万本中文书,然后问它:“白日依山尽”后面是什么?

N-gram 不懂什么叫诗情画意,它只会去它的小本本里查统计概率:“哦,以前这五个字后面 99% 跟着‘黄河入海流’。”

它的优点是: 查得飞快,不需要动脑子算。

它的缺点是: 没脑子,只能看眼前,不懂逻辑。

后来,聪明的 Transformer 出现了,N-gram 就被扫进了历史的垃圾堆。

但今天,DeepSeek 又把它捡回来了。

03|给 AI 挂个“外挂硬盘”

DeepSeek 发现,现在的 Transformer 虽然聪明,但也得了一种“富贵病”。

比如你问它:“东汉末年的张仲景是谁?”

模型那昂贵的神经网络大脑开始疯狂运转,动用几百亿参数,经过几十层的向量计算,最后告诉你:“他是医圣”。

这太浪费了! 这就像你雇了一个年薪百万的数学天才,结果你天天让他背诵《新华字典》。

DeepSeek 的 Engram 架构,就是给大模型装了一个“超级外挂字典”:


图:DeepSeek 的 Engram 架构,右侧那个黄色的支路就是传说中的“外挂字典”

移花接木: 他们把“张仲景”、“四大发明”这些固定的知识点,通过 N-gram 机制做成了一个巨大的索引表。

降维打击:重点来了! 因为查表这个动作非常简单确定的,DeepSeek 直接把这个巨大的表(几百亿甚至上千亿参数)丢到了便宜量大的 CPU 内存(RAM)里。


图:红得发紫的地方,就是模型在读到“四大发明”时,正在疯狂翻字典(查表),而不是在动脑子计算

当模型需要用到这些知识时,CPU 会悄悄把数据预取过来,喂给 GPU。

结果炸裂:即使挂载了一个 1000亿参数 的超级字典在 CPU 内存里,利用 DeepSeek 极致的工程优化,整个推理速度的损耗竟然不到 3%。

这意味着,在 HBM 价格上天的今天,DeepSeek 搞出了一种“用白菜价的内存条,干黄金价的显存活儿”的黑科技。

04|不止是省钱,智商还涨了

如果只是省钱,那也就是个工程优化。

但 DeepSeek 最可怕的地方在于:它还顺便把模型变聪明了。

实验数据非常不讲道理:这个装了“外挂硬盘”的模型,不仅记性好了,逻辑推理能力也暴涨。

  • 数学能力(MATH): 提升了 2.4 分。

  • 逻辑推理(BBH): 竟然暴涨了 5.0 分!


为什么?

这就回到了我们刚才的那个比喻。

因为 Engram 把那些死记硬背的“脏活累活”都揽走了,模型深层的神经网络就被解放出来了。

那个“数学天才”终于不用背字典了,可以全心全意地去思考复杂的微积分和逻辑推理题了。

写在最后:算力经济学的新解法

看完这篇论文,我最大的感触是:DeepSeek 正在试图重写大模型的“解剖学”。

在过去的一年里,整个 AI 行业都被 HBM 的产能危机掐住了脖子。

为了抢那几块显存,大厂们不惜溢价 30% 甚至更多。

而 DeepSeek 却冷静地走了一条“少有人走的路”:与其被硬件厂商收“过路费”,不如用算法重新定义硬件。

Engram 的出现证明了,通过极致的算法设计,廉价的 CPU 内存完全可以成为大模型算力的一部分。

这不仅是技术的胜利,更是“算力经济学”的胜利。

如果春节前后发布的 DeepSeek V4 真的集成了 mHC 的高速通路和 Engram 的外挂记忆,那它对行业的冲击,恐怕比我们想象的还要大。

对于这种“反向操作”的技术创新,你怎么看?欢迎在评论区聊聊。

(觉得文章有启发?点个“赞”,点个♥️,假装自己看懂了)

论文地址:https://github.com/deepseek-ai/Engram

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一声嘶吼竟消失!张本智和父子遭双重打击,暗藏一个体坛恐怖警告

一声嘶吼竟消失!张本智和父子遭双重打击,暗藏一个体坛恐怖警告

苏甩甩
2026-01-21 09:53:24
火爆!广东多地民政局已约满

火爆!广东多地民政局已约满

番禺台
2026-02-08 14:19:27
把留学路断了,把主意打到高考上了?网友:孩子学渣,我支持高考

把留学路断了,把主意打到高考上了?网友:孩子学渣,我支持高考

火山诗话
2026-02-08 07:41:34
中国股市:开盘30分钟判断全天涨跌,后悔知道太晚了(建议收藏)

中国股市:开盘30分钟判断全天涨跌,后悔知道太晚了(建议收藏)

股经纵横谈
2026-02-08 17:32:49
拿到儿子亲子鉴定报告,我轻抚妻子头发:你上司的第三个孩子?

拿到儿子亲子鉴定报告,我轻抚妻子头发:你上司的第三个孩子?

晓艾故事汇
2026-02-07 09:19:00
张常宁教练生涯恐中断!丈夫重伤需照顾,江苏女排冲冠前景蒙阴影

张常宁教练生涯恐中断!丈夫重伤需照顾,江苏女排冲冠前景蒙阴影

江湖第一菜鸡
2026-02-08 09:43:03
三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
25名女子在香港卖淫:每次时长不限,价格曝光,多张私密画面流出

25名女子在香港卖淫:每次时长不限,价格曝光,多张私密画面流出

博士观察
2026-02-07 18:06:23
突传死讯!知名影视大亨离世,洗肾多年心脏也做过支架,曾捧红多位艺人

突传死讯!知名影视大亨离世,洗肾多年心脏也做过支架,曾捧红多位艺人

你约电影
2026-02-08 20:32:29
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
战云密布:美大使馆撤侨,德国美军基地24小时超速运转!

战云密布:美大使馆撤侨,德国美军基地24小时超速运转!

松林看世界
2026-02-08 17:30:44
新一波!安德鲁在爱泼斯坦豪宅待9天,各种学生妹进出!爱泼斯坦出面摆平富家孩子杀人案!

新一波!安德鲁在爱泼斯坦豪宅待9天,各种学生妹进出!爱泼斯坦出面摆平富家孩子杀人案!

英国那些事儿
2026-02-07 23:22:21
擒贼先擒王,美方发现不对劲,中方反制巴拿马后,枪口对准了美国

擒贼先擒王,美方发现不对劲,中方反制巴拿马后,枪口对准了美国

霁寒飘雪
2026-02-07 22:16:22
注意 | 天津一事业单位拟注销!

注意 | 天津一事业单位拟注销!

天津人
2026-02-08 07:04:23
少女妈和小笼包共用男友了

少女妈和小笼包共用男友了

毒舌扒姨太
2026-02-08 22:30:12
小年吃饺子,记得:2馅不上桌,3馅端上桌,恭送灶王,欢乐过大年

小年吃饺子,记得:2馅不上桌,3馅端上桌,恭送灶王,欢乐过大年

神牛
2026-02-08 15:13:04
怪不得那么多人都讨厌宝妈群体,我算是明白了,太可怕了!

怪不得那么多人都讨厌宝妈群体,我算是明白了,太可怕了!

夜深爱杂谈
2026-02-08 19:14:30
哈登首秀23+8骑士双杀送国王12连败 米切尔35分威少21+9

哈登首秀23+8骑士双杀送国王12连败 米切尔35分威少21+9

醉卧浮生
2026-02-08 13:27:05
米兰冬奥高山滑雪赛传意外!美国滑雪女神沃恩带伤出赛却重摔送医

米兰冬奥高山滑雪赛传意外!美国滑雪女神沃恩带伤出赛却重摔送医

体育妞世界
2026-02-08 22:02:59
米切尔得知哈登加盟后对未婚妻:把总冠军带回来 然后再娶你

米切尔得知哈登加盟后对未婚妻:把总冠军带回来 然后再娶你

Emily说个球
2026-02-08 21:17:33
2026-02-09 05:03:00
AI范儿 incentive-icons
AI范儿
AI范儿是一个专注于人工智能领域的资讯和学习平台,提供最新的人工智能资讯
658文章数 439关注度
往期回顾 全部

数码要闻

挥别黑盘&蓝盘:闪迪Optimus SSD美国开售,2TB版本999美元

头条要闻

日本选举结果 可能让国家进入相当危险阶段

头条要闻

日本选举结果 可能让国家进入相当危险阶段

体育要闻

“我就是王楚钦” 王楚钦霸气指向球衣背后

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

科技要闻

为实现雄心勃勃的计划,特斯拉开始招人

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

健康
手机
艺术
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

手机要闻

古尔曼:苹果iOS 26.4首个测试版最快2月23日当周发布

艺术要闻

你绝对没见过!法国摄影师的光影人体彩绘震撼呈现

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

捐钱造航母的男孩登上军舰

无障碍浏览 进入关怀版