对话科学家马骁腾：DeepSeek在一些技术上至少领先半年|编程|底层逻辑|deepseek

分享至

当外界带着挑剔的目光投向DeepSeek V4，并和上次V3架构带来的全球轰动对照时，一个极易忽略的细节是，华为昇腾芯片第一次支撑起了万亿参数级前沿模型的训练。这可能改变国内算力格局。

“国内第一梯队的模型厂商，预训练已经部分可以用昇腾替换英伟达了，后训练还没到那个程度。”马骁腾告诉我们。

过去两年，模型厂商的能力提升几乎完全受限于团队能拿到多少张英伟达的A100或H800卡。没有算力，再好的算法也是纸上谈兵。

也正因此，Mind Lab首席科学家、清华大学自动化系博士马骁腾和他的团队一直在等待DeepSeek V4的发布。Mind Lab 是专注于后训练的Neo Lab，基于DeepSeek架构模型和Qwen架构模型做后训练。因为要拆解每一款主流新模型，他也和DeepSeek、智谱、Kimi 等厂商的研发高层保持着密切的联系。

DeepSeek V4发布的同一时段，Mind Lab也和国产芯片厂商展开了合作。

不过，现在国产芯片在后训练阶段暂时无法平替英伟达，后训练时，模型需要频繁地在“训练”和“推理”之间高速切换，对芯片的训推一致性和极限响应速度要求更高。马骁腾指出，目前国产卡的生态和算子适配还不够成熟。现阶段可以先用国产的推理卡来承接后训练中的部分推理任务，训练环节暂时还在依赖英伟达。

尽管网上已有许多关于开发人员、创业者对DeepSeek V4的解读，但像马骁腾这样身处一线、又保持第三方视角的解读并不多。

马骁腾看完技术报告的一大感受是，DeepSeek的野心很大，这种野心体现在它没有专注于榜单的追高，也没有像其他模型厂商做局部、单点突破，DeepSeek一直想做架构等全栈的原创突破。

DeepSeek V4发布后，编程能力略显平庸，被认为没有甩开智谱 GLM-5.1和Kimi-2.6，甚至在某些测试中只能勉强打平手。

马骁腾解释称，如果DeepSeek真要死磕编程，完全可以把性能推到业界顶尖水准，但代价必然是牺牲掉在通用任务上的泛化性。DeepSeek V4更强调对通用世界知识和日常写作能力的提升——这类任务恰恰是最难啃的骨头，因为它们不像解数学题、写代码那样有明确的标准答案，无法通过强化学习直接优化。

“这恰恰说明DeepSeek野心很大，它不愿只做一个编程很强的专用工具”。马骁腾说，DeepSeek这次更新的核心就是长文本能力，这对其他大厂可以说是碾压级的。

他还分享了V4跳票背后的一些技术真相，比如V4有一套极其独创的容器技术DSec，速度极快，且具备快照功能。在训练时能随时给整个系统状态“拍一张照片”，一旦后续方向走偏，就能闪回重来。这种工程灵活度，他目前还没在国内第二家公司见过，“DeepSeek在技术上领先了至少半年”。

当 V4 正搅动新一轮牌局之际，我们和马骁腾聊了两小时，以下是和他的对话：

DeepSeek的野心很大

白鲸实验室：你第一次听说DeepSeek V4要发布是什么时候？

马骁腾：大概是去年12月左右，DeepSeek V4 计划在春节前后发，我们当时做了充分的准备，春节就没放假，等着研究V4。后来确定发布计划是大年三十，但还是扑了空。据我所知，临到发布当天，团队内部对模型仍不满意，就不发了。最后我们转而研究智谱的GLM-5和 Kimi 2.5。

白鲸实验室：你对 V4 拖到4月份发是有预期的吗？还是觉得它应该更早发出来？

马骁腾：DeepSeek的节奏不好说，大家都很期待这次V4的发布。毕竟上次V3.1和V3.2都是小版本更新，没有像 R1 那样带来巨大突破。不过，这次看到V4，我个人感觉非常惊艳，由衷钦佩DeepSeek团队。

白鲸实验室：你最关注的是什么？

马骁腾：其实有几点。第一，1.6T 参数的开源模型，是目前国内最大的开源模型。我们Mind Lab的研究定位就是用更大的模型、更少的算力，DeepSeek再次印证了往scaling走的趋势。

第二，更长的上下文窗口。他们这次更新的核心就是长文本能力，这对其他大厂可以说是碾压级的。

第三，工程上做了很多水下功夫，非常琐碎但很关键，外行可能感知不大。比如OPD* 的大规模应用，虽然业界在合成数据时会用类似思路来整合不同专家模型的长处，但DeepSeek是第一个在万亿参数级别把它完整跑通的。这背后需要解决很多工程难题，包括对底层计算核心（Kernel）进行极致的定制化改写、on-disk KV cache*（磁盘KV缓存）等，单独拆开每一件都足够一个团队攻坚，而他们居然在同一个公司里全做到了。

*注：OPD ：On-Policy Distillation，是一种用于在大模型 agent 训练阶段中高效融合专家网络的训练方法，也是过去一年后训练的新范式。

*磁盘KV缓存，是把模型运行时产生的KV缓存，从昂贵的显存搬到了更廉价的硬盘上做持久化存储，对于提升代码仓库等长文档的阅读能力来说很重要。

白鲸实验室：你是说相对于他们的团队人数来说，这很难得？

马骁腾：不。其实不少大模型公司在训练时更“按部就班”，他们可能选择拥抱DeepSeek的架构，但在架构本身上花的原创心思不多，他们更倾向于在优化器、Agent训练方面做单点突破。但DeepSeek V4做了全栈，把很多大家曾习以为常的默认规则，全打碎了。现在应该没有人在看完他们的技术报告后不去研究的吧（笑）。

白鲸实验室：为什么腾讯、阿里都在推 30B 以下的“小”模型，而 V4 是巨大的1.6T？

马骁腾：要想让模型的表现达到最好，参数量就必须足够大，模型才有足够高的“智商”上限。但硬件的物理限制摆在那里，如果想把模型放在本地跑，参数量基本只能控制在 30B（约300亿参数）以内。这就形成了强力拉扯，追求智能就得往上堆参数，想要方便部署就得往下压规模。

所以现在的模型很自然地分成了四个档位：最小的那一档，跑在最基础的硬件上，能说话就行；30B左右可以在个人设备上跑起来；100B到 200B，适合部署在服务器上，用来处理常规的Agent任务；600B到 1T（约1万亿参数），用来解决真正最困难、最复杂的任务。卡在这几档中间的参数规模，定位很尴尬，意义不大。

至于这次V4的1.6T版本，它的意义在于追求极限，去探一探参数规模的天花板到底在哪里。但说实话，目前对绝大多数人来说，它确实很难在实际场景（本地部署）中用起来。反而是DeepSeek-V4-Flash（284B参数）最实用。它既划算，又能在合理的资源下被训练得动，还能真正部署到场景里去。对于任何一个创业者来说，都不会拒绝在200B这个量级的模型上去开展研究工作，它真的很“香”。

白鲸实验室：这次V4 发布，用户端的感知没有R1那么直接了，可以推荐几个测试题，让非技术人员也能体会它的进步吗？

马骁腾：其实大家现在还在用传统思维测模型，比如那些经典的思维陷阱题。但那些题答得好坏，完全不影响代码任务的表现。V4发布后真正有体感的，是把AI用在编程上的人。这次V4在编程上的表现，只能说是跟Kimi 2.6、GLM 5.1打了个平手，这两个模型也非常优秀。最前沿的还是得看GPT 5.5和Claude 4.7。

白鲸实验室：DeepSeek R1是作为“价格屠夫”出圈的，现在的DeepSeek 相比OpenAI、谷歌，有没有找到新的差异化优势？

马骁腾：不能这么单一地看待DeepSeek。R1 本身颠覆性很强，它不仅是当时最大的开源模型，推理能力也足以和OpenAI的O1正面竞争，但它更打动人的是一种“泛化性”，仿佛无所不能。我记得当时各行各业的反馈都是，你跟它聊什么，它都懂一点，还能说到点子上。

这种“万金油”式的通用智能体验，在当时的其他国产开源模型上是相对缺失的。大家普遍更聚焦于如何在某个榜单上刷出更高的性能表现。

其实如果DeepSeek真要死磕编程这一个点，完全可以把性能推到业界顶尖水准，但代价必然是牺牲掉在通用任务上的泛化性表现。但这次V4发布，DeepSeek特别强调了对通用世界知识和日常写作能力的提升。

这类任务恰恰是最难啃的骨头，因为它们不像强化学习（RL）那样，可以通过解数学题、写代码这种有明确“标准答案”的目标来直接优化。这恰恰说明DeepSeek野心很大，它不愿只做一个编程很强的专用工具。

白鲸实验室：所以，在某些编程场景，V4打不过Kimi 2.6，GLM 5.1，这是DeepSeek的选择还是客观差距？

马骁腾：我觉得某种程度上，不追求SOTA榜单也是一种智慧。现在发模型很难，大家的要求都太高了，也都很卷。V4提到了大量对通用知识、更好写作能力的增强，这些都不体现在我们最关注的那几个榜单上。

我个人感觉，可能V4还是有意牺牲掉一部分的。这种对均衡性的追求，恰恰和谷歌、OpenAI这些顶级实验室的长期战略高度对齐。

“DeepSeek在技术上领先了至少半年”

白鲸实验室：在模型架构和训练方法上，V4有哪些重大意义上的突破，值得创业者学习的？

马骁腾：值得说的点太多了。最显而易见的就是长上下文的训练方式。在V4开源方案公开之前，业内绝大多数模型最多只能真实训练到25万token左右的上下文长度。超过这个限度再想支持更长的文本，全靠一种叫“外推”的技术勉强补位。

这就导致很多号称支持超长上下文的模型，一旦输入的文本超过二十多万token，智商就断崖式暴跌。原因就是，外推相当于让模型去猜它没学过的东西，猜着猜着，之前记住的关键信息就丢了。

DeepSeek这次的做法是，干脆一个token都不丢，让模型在训练时就主动去容忍长序列带来的各种误差，硬生生把上下文窗口撑开。这背后牵扯到模型架构的改动，以及QAT技术，也就是量化感知训练。“量化”可以理解为把模型计算时的数字精度压低，来换取更快的运行速度和更低的资源消耗，但这个压缩过程必然带来精度的损失。

常规做法是训练完之后再量化，通常会有性能折损。而QAT在训练阶段就直接“预判”了推理时会产生的量化误差，把这种误差当作训练的一部分，让模型提前去学习和适应这种“有损”的环境，抗干扰能力很强。这套设计非常关键。据我们观察，在类似架构上，如果不做QAT，训练出来的模型性能会下降得非常厉害。

白鲸实验室：最让你惊喜的是什么？

马骁腾：是注意力训练机制。从DeepSeek V3提出了MLA（多头潜在注意力），同样的信息用更少的KV缓存就能记下来。V3.2提出的DSA，是首次实现了可以“主动遗忘”或舍弃一部分不再关键的KV缓存，这在以前是很难想象的。我们团队应该是开源社区里第一个能完整支持DSA训练的，上周才刚刚把这项技术的细节彻底消化，结果这周他们的新论文就又出来了。

这次V4引入的CSA/HCA（混合压缩注意力机制）直接挑战了注意力机制最底层的核心逻辑。过去的优化大多围绕着“如何更高效地管理缓存”做文章，而DeepSeek的新思路是，让模型去“学习”缓存本身该是什么样。这等于是给缓存层也装上了可训练的参数，让它能自己决定该记住什么、忘掉什么。这背后牵涉到的系统复杂度和工程实现难度是暴涨的。

另一个很复杂的工程是KV缓存*的分层管理。前面提到的CSA、HCA（动态稀疏注意力）等新机制，虽然大幅压缩了KV缓存本身的体积，但也带来了一个问题，就是缓存的结构变了。过去一整块可以统一调度的东西，裂变成了不同层级、不同属性的缓存块。为了让它们协同工作，需要一套新的分层管理机制，极其复杂。

*注：KV缓存（Key Value），在Transformer 模型里，指模型把过往的词打上标签，方便快速对应标签底下储存着的详细信息，直接决定大模型能记住多长的上文和推理速度。上下文越长，存的东西越多，显存就被撑得越满。这也是为什么长上下文模型那么难做的核心瓶颈之一。

白鲸实验室：最让你意外的是什么？

马骁腾：还有一个让人印象深刻的细节。DeepSeek 内部有一套极其独创的容器技术DSec，速度极快，而且具备快照功能。就是在训练过程中随时给整个系统状态“拍一张照片”，一旦后续方向走偏，就能瞬间闪回到那个时间点接着重来。

这种工程灵活度，我目前还没在第二家公司见过。

白鲸实验室：国外大厂也没有吗？

马骁腾：我不清楚OpenAI怎么做的，但其他大厂，他们没意识到这个容器技术对Agent训练的重要性，所以DeepSeek在技术上可以说领先了至少半年。

白鲸实验室：V4把上下文一次性“吃”进去，这和Mind Lab的Lora是两条技术路线。你倾向于哪种？V4的方案会不会让长期记忆问题变得不那么重要了？

马骁腾：V4的方案确实缓解了记忆问题，但不是唯一的解法。

目前业界跑通的技术路线，大致可以分成两派。一派是DeepSeek的做法，不断把注意力范围撑大，让模型能在一次处理中直接“吃”进更长的上下文。另一派是OpenAI的路子，他们拼命做压缩——也就是把过往的对话历史，实时提炼成一种高度浓缩的“摘要信息”。

你作为用户，几乎感觉不到它的记忆预算是有限的，聊起来好像它什么都能记住。但说到底，这两套方案主要解决的，其实都是工作记忆的问题，也就是模型在当前对话里处理信息的能力。

真正的问题是，无论哪种方案，只要新开一个会话，它就会从零开始。Lora或者说参数化记忆，永远是长期记忆的终极方案。一个最直接的例子是，掌握一门新的编程语言，你无法把所有语法塞进上下文就指望模型学会。

前段时间，某海外头部芯片厂商的科学家找到我们，他们每代新硬件都要发明新的语言，这是基座模型不会的，所以要寻求一种通过Lora让模型快速学习新知识的方式。而且，Lora今年已经非常明显地适用于当前模型的整个后训练流程技术栈了。各大厂商的训练方式就是基座训练好后，分成各个分支分别去训练专用任务，最后合并，这其实就是非常适合Lora的模式。

白鲸实验室：下一个阶段的竞争核心是在哪？继续在文本、Agent上卷，还是多模态？

马骁腾：我觉得Agent还没卷到头。从技术上讲，如果在文本能力上取得进展，模型的可用范围会明显拓宽。相比之下，视觉能力没有外界想象的那么神秘。它的实现路径已经相对成熟，就是给语言模型外挂一个“视觉编码器”。

现在DeepSeek上线了识图模式，也是一种印证。因为它是图像理解，而不是图像生成。而且智谱和 Kimi 现在接入视觉功能也都很丝滑，但用户并不会因此就觉得这个模型有多厉害，市场真正优先看的，还是它在Agent上的表现。

白鲸实验室：什么情况下，能判断Agent已经卷到头了？

马骁腾：比如GPT 5.5相对于5.4，原来可能需要十句话讲明白的需求，现在一句话就行。AI自己会考虑好如何正确完成，自己把从需求到结果的整个流程闭环，中间需要的人工干预的步骤越少，价值就越高。

现在Agent还有很多工作要做。模型在个性化任务上对人的需求和记忆的理解还是很差。这个不是图像层面的问题，是语言层面的。甚至随着编程能力增强，模型对人的理解能力还下降了，说话越来越有“AI味”，我们在研究里把这叫做“人格漂移”。

模型厂商都开始在预训练用昇腾卡了

白鲸实验室：这次V4在华为昇腾卡上做了训练适配，对你们有启发吗？

马骁腾：目前国内第一梯队的模型厂商，现在已经可以在预训练阶段用华为昇腾卡来替代英伟达芯片了，但后训练阶段还做不到完全平替。目前我们Mind Lab正在积极推动和国产芯片的合作。

白鲸实验室：预训练和后训练适配国产卡，有哪些不同？为什么大家都卡在了后训练？

马骁腾：预训练虽然整体耗时最长，但任务本身非常“单纯”，模型只盯着一个统一的目标（优化一个损失函数），过程稳定且重复性高，目前国产芯片已经可以胜任了。

后训练完全是另一回事。这个阶段包含了指令微调、强化学习等复杂步骤，模型需要频繁地在“训练”和“推理”两种状态之间高速切换，对芯片的训推一致性（即同一张卡在训练和推理时表现都要好，且能无缝衔接）以及极限响应速度要求更高。目前国产卡的生态和算子适配还不够成熟。所以现阶段可以先用国产的推理卡，即专为推理优化的芯片，比如昇腾的推理卡来承接后训练中的部分推理任务，训练环节暂时依赖英伟达。

白鲸实验室：类似DeepSeek和华为的深度合作有筛选门槛吗？

马骁腾：还是有的。毕竟现在能训起这么大模型的实验室团队，全国不超过 10 个。

白鲸实验室：我们能看到大模型后训练完全适配国产芯片的一天吗？

马骁腾：我们现在对国产卡应该燃起充分的希望。国产芯片和英伟达的差距主要是生态，但是原来生态上的不足，现在已经能用 AI 来弥补了。之前模型适配国产芯片，很多底层的基础算子、适配代码，都要靠经验丰富的工程师一行一行写，费时也缺人。

但现在我不会写国产生成卡的适配代码，但AI会写，而且写得越来越好。这等于是给适配过程装上了加速器，效率一下子就提上来了。

白鲸实验室：这种合作给你们带来的最直观好处是什么？成本的大幅下降？

马骁腾：最直观的还是缓解算力紧缺。国产卡的成本优势是很惊人的，现在买卡真的是又贵又难，能用到更多国产卡，对整体生态肯定是更好的。

V4炫技，闭源承压

白鲸实验室：V4发布当天，有AI概念股下跌6%以上。从二级市场到VC圈，有人调侃说DeepSeek还是国产大模型最严厉的父亲，你怎么看待这种现象？

马骁腾：说实话，我个人认为这是短期现象，他们可能并没真正研究过 V4发生了什么。比如coding场景上，现在也不能说DeepSeek就比 GLM 5.1 好。我理解的“严厉”，是DeepSeek做的很坦荡，就是把模型性能做到这个高度，然后彻底开源，任何人都能免费用。

这等于给全行业划下了一条非常高的及格线，你如果选择闭源收费，那你拿出来的东西就不能只比它好一点点，必须得有质的飞跃，好到让用户觉得付费是值得的。

白鲸实验室：说到开源，今年包括Minimax、阿里都出现了闭源趋势，MiniMax 4月推出的M2.7，在传统学术意义上依然是开源模型，但它的许可证版本改为“严禁商业用途”“需要得到授权才能商业化”，阿里Qwen3.5-Omni选择闭源。你如何判断这种战略转向？它背后的逻辑到底是什么？是技术控制权？还是盈利压力？

马骁腾：我们必须尊重“公司要挣钱”这个事实。一家公司能选择走开源这条路，本身就是极其艰难的商业决策。阿里的平衡拿捏得不错，把最强的Qwen Max 闭源，同时把体量小一些的模型开源。但DeepSeek确实会让这种原本的平衡变得尴尬。

不过另一边，大家也看到，即使开源，1.6T的大参数没几个人能在自己电脑上真正跑起来。要把这样的模型部署好、跑得顺、用到业务里，需要海量的工程技巧和配套服务，这本身就是强需求。比如Kimi、智谱、Minimax智谱，他们开源的模型照样卖得很好，因为卖的不只是模型权重，更是大家对于他们技术能力的信任。

白鲸实验室：从第三方评测看，V4更多被强调在代码任务上的“开源断层”和价格屠夫的角色——V4-Flash输出价仅0.28美元/百万token。就在前一天发布的GPT-5.5输出价是30美元/百万token。这种近100倍的价差，在你看来会把AI应用市场带向何方？

马骁腾：其实现在DeepSeek有一种“炫技”的感觉。他想传递的是，极致的低价不全是靠压榨利润换来的，而是可以通过KV缓存优化这类硬核技术，从底层把算力消耗实实在在地省出来。卡省下了，成本自然就降了，价格也就有了更低的空间。背后靠的是技术底子。

目前的模型定价策略，也分成了两条路：一条是朝“更贵、更极致”走，另一条是向“更小、更便宜、更大众”去。像V4的1.6T版本，追求的就是能力的上限，可以为了极致性能牺牲一点速度和等待时间；而flash版本，目标则是敏捷、好用、覆盖更广泛的日常任务，主打速度和性价比。这两者不是对立的，而是搭配着来。

白鲸实验室：V4的低价开源，会压缩做中间态商业模型公司的生存空间吗？

马骁腾：我还是觉得垂直场景很重要。在一个强的基座模型上，即使你再扩大参数，智能收益也是有限的。大厂能拿到的数据很有限，垂域应用厂商下游的真实数据，是有很大护城河的。最典型的例子就是Cursor。

它就只深耕编程这一个垂直领域，后训练做得极好，最近也和SpaceX达成合作并拿到收购期权，估值跟Minimax 这种通用大模型公司平起平坐。这证明了，把后训练这一件事在垂域做好，就能创造出上市级别的价值。

现在行业的问题是，基座模型迭代飞快，但让这些能力在具体场景里落地的推理设施和部署工程，还跟不上。我们就在尝试弥补这个断层，让大家能更好地在基座上释放下游场景的价值。

撰写｜马舒叶

编辑｜刘培

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.