网易首页 > 网易号 > 正文 申请入驻

梁文锋又掀桌?在省钱这件事上,DeepSeek给V4模型铺垫好了

0
分享至



出品|搜狐科技

作者|常博硕

编辑| 杨 锦

V4发布前夕,DeepSeek的更新真是一个比一个重磅。

元旦前,DeepSeek发了新架构mHC,对深度学习的地基Resnet进行了优化,上周又把那篇R1的论文扩写了64页,详细公开了训练路径,这次发的新论文还准备修一修Transformer,顺便在硬件上再省一笔。


今天凌晨,DeepSeek在Github上甩出了一篇名为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》的论文,直指Transformer架构让模型反复思考,浪费算力资源的缺陷,同时开源了论文中的“记忆模块”Engram。


这篇论文是DeepSeek和北京大学合作完成的,作者栏依然有梁文锋本人署名。


直击Transformer缺陷

2017年,谷歌一篇名为《Attention Is All You Need》的论文正式将Transformer这种深度学习架构呈现在了大家眼前,证明了完全基于自注意力机制(Self-Attention)的模型在机器翻译任务上优于当时的循环神经网络(RNN)和卷积神经网络(CNN)。

这篇论文是深度学习领域,尤其是自然语言处理(NLP)的重要转折点,也被看作是现代人工智能的奠基性论文,甚至成为了21世纪NLP领域被引用次数最多的论文之一。今天,我们能看到的绝大多数大语言模型也都是以Transformer作为核心架构的。

然而,DeepSeek他们发现Transformer并不是神,它有一个非常反人类的缺陷。它没有真正的记忆模块,它的记忆全是靠“算”出来的。

在标准的Transformer架构中,无论一句话多么常见、结构多么固定,模型都会在每一层里反复计算token之间的关系。其实在人的语言和思维里,“固定搭配”这件事是很常见的,比如“中国四大…”后面就得接“发明”,英语里by the后面基本接的就是way。

可是Transformer不是这么思考问题的,四大发明、by the way这种在人类看来固定搭配的词组,在模型内部,仍然被拆成多个token(词元),即使这种组合关系在训练语料里已经被见过成千上万次,但模型还是每次都重新组合和理解。

再复杂一点来说,比如你问大模型一个很简单的问题:东汉末年的张仲景是谁?在现在的Transformer架构下,模型的神经网络大脑就会开始动用几百亿参数,再经过几十层的向量计算,最后说:“是医圣”。

DeepSeek团队就觉得,这太浪费算力了,其实“张仲景是医圣”这件事背下来就行。因为只要涉及计算,那肯定就是非常费脑子的事,对于AI来说,费的就是显存。换句话说就是,太费钱了!

这次的论文提出的记忆模块Engram解决的就是这个事,大模型并不是每一步都需要“算”。

如今,为了更好地节省资源,MoE成为大模型主流架构,但MoE最核心、最本质的架构组件仍然是Transformer,缺少“查表”的能力。

Engram很像是给大模型装了一个外接的大字典,他们把“医圣张仲景”“四大发明”这些固定的知识点,通过N-gram机制做成了一个巨大的索引表。以后遇到新问题,能查表的查表,需要算的再算,两件事分开干。


DeepSeek设计了一个精妙的“门控机制”(Context-aware Gating)。模型会自己判断,遇到“四大发明”“勾股定理”这种死知识,Engram模块直接查表给答案,省时省力。

遇到复杂的逻辑推理或阅读理解,Engram就退后,让Transformer的核心计算层(MoE)去深度思考。

结果就是不仅省力,还变强了。论文中的实验数据显示,这种“查表+推理”的混合模式,比纯粹靠堆参数的MoE模型更强。Engram在知识问答、代码、数学和逻辑推理的能力都有提升。

具体是怎么做到的呢?Engram有一些关键的设计点。

Engram的核心逻辑是构建一个巨大的、外挂式的N-gram嵌入表,并通过精细的机制将其无缝融合到Transformer主干中。

首先是词表压缩,标准的分词器往往会将语义相同但写法微异的词分配不同的ID,比如 “Apple”和“apple”,这就导致N-gram空间极其稀疏且存在冗余。Engram就把tokenizer的id做了压缩,把同义词合并,论文里提到128k词表下能压缩近23%。这就显著提高了语义密度,使得N-gram查表更高效。

Engram还采用了多头哈希的方法。因为直接存储所有可能的N-gram组合是不现实的,那么为了解决哈希冲突,Engram对每个N-gram阶数n使用K个不同的哈希头。每个头使用独立的哈希函数将N-gram映射到嵌入表的一个索引位置。


最终的记忆向量是所有n阶、所有K个头检索出的向量的拼接。

由于查表得到的向量e是静态的,且可能包含哈希冲突带来的噪声。如果直接加到模型里,会干扰上下文。所以Engram还设计了一套门控机制来“过滤”和“融合”这些信息。


想掀硬件厂商的桌?

传统大模型有一个硬约束,参数要参与计算,得在GPU显存里。过去几年,大模型的发展默认接受了一条前提:参数越多,模型越大越好,显存就必须越大。

现在的AI军备竞赛,本质上是在拼HBM,也就是高带宽显存。

无论是H100还是H200,最贵的往往是那块容量有限且速度极快的HBM。所以,为了塞下几千亿参数的大模型,科技公司不得不买成千上万张显卡。

同时受地缘政治与出口管制影响,中国市场能够稳定获得的HBM资源愈发有限,价格也水涨船高。其实英伟达H20等对中国特供版的GPU,最关键的限制基本都落在HBM上,算力反而是次要被约束的。

HBM目前产能基本和SK海力士、三星和美光锁死,已经是供不应求,同时价格也非常昂贵,平均是普通内存价格的7倍左右。

在这样的背景下,把模型全塞进显存这条路线,就越来越不可持续了。DeepSeek这篇论文证明了,其实不需要把所有参数都塞进昂贵的显存里。

可以说,DeepSeek这次其实就是想要正面翻过这道墙。

具体是怎么做到的呢?首先,Engram的记忆访问是可预测的,它不像MoE那样,必须算完这一层才知道下一层要去哪,数据必须都在GPU上待命。Engram的索引只由输入token决定,在推理开始前就可以计算出来。

这意味着系统可以提前把即将用到的记忆,从主机内存异步搬到GPU。

第二,大部分参数其实是“冷的”。自然语言天然遵循 Zipf 分布,极少数短语被反复使用,而绝大多数组合几乎从不出现。Engram正好利用了这一点,将高频记忆放在显存或主内存,低频记忆放在更便宜、更大的存储中。

在论文中,DeepSeek甚至把一个1000亿参数规模的Engram记忆表,完整放在CPU里,仅在需要时预取,结果整个推理速度的损耗甚至低于3%。

在算力和显存都越来越贵、越来越稀缺的当下,Engram给行业提供了一条比较现实的路径,不是所有性能提升都必须用更贵的硬件来换。

至此,稀疏化模型也进入了计算+记忆的时代,如果即将推出的DeepSeek-V4真的把此前发布的mHC和这次发布的Engram落地,那将又是一次架构范式的跃迁,让我们拭目以待吧!



运营编辑 |曹倩审核|孟莎莎




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
血亏466亿,京东亏的到底值不值?

血亏466亿,京东亏的到底值不值?

风声声
2026-03-06 18:21:45
为什么美国的华人华裔地位那么低 网友从各方面分析 真就那样

为什么美国的华人华裔地位那么低 网友从各方面分析 真就那样

侃神评故事
2026-03-06 07:10:03
美伊酣战之际,美国给印度划下底线:绝不允许印度成下一个中国!

美伊酣战之际,美国给印度划下底线:绝不允许印度成下一个中国!

青青子衿
2026-03-06 23:10:23
美以伊冲突7日:伤亡数千,美军行动每天成本数十亿美元

美以伊冲突7日:伤亡数千,美军行动每天成本数十亿美元

网易新闻出品
2026-03-06 21:29:45
金价重现历史了!要有心理准备,下月,金价或将重现2015年历史!

金价重现历史了!要有心理准备,下月,金价或将重现2015年历史!

牛锅巴小钒
2026-03-06 20:23:41
战火下伊朗“红色黄金”面临供应链风险 中国进口商:合作4年的伊朗客户失联了

战火下伊朗“红色黄金”面临供应链风险 中国进口商:合作4年的伊朗客户失联了

极目新闻
2026-03-06 19:51:04
广东一女子不愿上班常年坐街边,因长得好看被路人投喂:又懒又馋

广东一女子不愿上班常年坐街边,因长得好看被路人投喂:又懒又馋

明智家庭教育
2026-03-06 17:19:16
重力炸弹即将大规模上场,波斯面临更大的压力

重力炸弹即将大规模上场,波斯面临更大的压力

高博新视野
2026-03-06 17:49:29
刘国梁忍无可忍,道出与樊振东真实关系

刘国梁忍无可忍,道出与樊振东真实关系

孤傲何妨初
2026-03-07 03:37:55
豪门悲喜夜:巴黎圣日耳曼1-3,拜仁4-1,皇马2-1,利物浦3-1晋级八强

豪门悲喜夜:巴黎圣日耳曼1-3,拜仁4-1,皇马2-1,利物浦3-1晋级八强

侧身凌空斩
2026-03-07 06:10:33
三个人48小时,用了3000元不到,做了部全网5亿流量的爆款AI短剧

三个人48小时,用了3000元不到,做了部全网5亿流量的爆款AI短剧

九千光年
2026-03-06 18:58:09
一份“煮熟的三文鱼”火了,原来低认知的家长,真能搞出人命!

一份“煮熟的三文鱼”火了,原来低认知的家长,真能搞出人命!

妍妍教育日记
2026-03-07 08:45:06
库里未来愿改打替补!以角色球员身份继续发挥作用 盼留勇士退役

库里未来愿改打替补!以角色球员身份继续发挥作用 盼留勇士退役

罗说NBA
2026-03-07 05:26:14
政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

冷观互联网
2026-03-06 11:48:12
中国石油股东赌赢了!数百艘油轮堵在石油海峡,德黑兰突然踩刹车

中国石油股东赌赢了!数百艘油轮堵在石油海峡,德黑兰突然踩刹车

有范又有料
2026-03-06 18:35:54
高铁挤成地铁!广州南站不是最大高铁站,为何客流却全国第一

高铁挤成地铁!广州南站不是最大高铁站,为何客流却全国第一

冒泡泡的鱼儿
2026-03-06 12:53:42
下饭文化杀死了多少中国胃,一碗米饭的阴谋

下饭文化杀死了多少中国胃,一碗米饭的阴谋

富贵说
2026-03-05 15:56:38
伊朗导弹,夜袭美航母

伊朗导弹,夜袭美航母

极目新闻
2026-03-07 07:22:23
难道伊朗背后真有高人指导?纽约时报:他专挑美国弱点下死手!

难道伊朗背后真有高人指导?纽约时报:他专挑美国弱点下死手!

青青子衿
2026-03-06 00:13:50
天生一张娃娃脸都已经46了,你敢想吗

天生一张娃娃脸都已经46了,你敢想吗

童童聊娱乐啊
2026-03-04 05:09:21
2026-03-07 11:08:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方账号
4708文章数 9180关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

媒体:美国打仗遇到人口3000万以上国家就没法全身而退

头条要闻

媒体:美国打仗遇到人口3000万以上国家就没法全身而退

体育要闻

中国象棋,正在被一个越南人攻陷?

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
健康
数码
房产
公开课

家居要闻

暖棕撞色 轻法奶油风

转头就晕的耳石症,能开车上班吗?

数码要闻

英特尔酷睿Ultra 5 250K Plus处理器PassMark跑分曝光

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版