「模型本身,只是高效工程系统自然结出的一个副产品。」——这句话藏在DeepSeek V4-Pro技术报告的第3页,却道破了整个行业的转向。
过去一周,所有人都在聊DeepSeek的估值传闻、国产芯片适配通稿,还有那个「百万上下文」的标签。但如果你只盯着SimpleQA-Verified测试里20个百分点的领先优势,或者Codeforces上追平GPT-5.4的评分,就彻底看偏了。
![]()
这场发布真正的野心,藏在参数表背后:大模型的战争,已经从模型层退场,全面接管系统层。
Pro与Flash:一对反直觉的对照组
行业里看到「Pro」和「Flash」,本能反应是精准刀法——Pro打标杆,Flash做下沉市场,收割中小企业。这种商业包装逻辑,放在V4身上,看偏了。
V4-Pro的配置确实拉满:1.6T总参数,49B激活参数。但真正的大招,是那个只有284B总参数、13B激活参数的V4-Flash。
技术报告里有个数据直接戳破窗户纸:在大量极具挑战性的测试中,13B激活参数的Flash-Base,直接超越了上一代37B激活参数的V3.2-Base。
13B对37B,这不是能力缩水,是一次底层的效率重构。
Flash的意义从来不是证明「我能多省钱」,而是证明「算力霸权是可以被架构重构打破的」。当百万上下文变成所有官方服务的出厂默认值,开源代码已经说明白:这绝对不是靠算力硬堆出来的。
调度能力,正在取代参数规模,成为新的主战场。
这让百万上下文不再是高阶英伟达集群的专属玩具。国产芯片能顺畅接管战局,核心原因就在这里——未来开源模型的分水岭,不再是看谁的底座大,而是看谁能用十分之一的力气干同样的活。
后训练换道:从「和稀泥」到「各管一段」
硬件效率是一面,另一面是软件效率。V4在「后训练」阶段也换了一条路。
行业惯用的混合强化学习(Mixed RL),说的直白点就是和稀泥。想让模型既懂微积分,又会写C++,还能做日常规划?传统做法是把所有参数强行往中间捏。结果是「向均值回归」——特化能力全磨平,最终均值化成平庸的通才。
V4的解法不是改良,是彻底换道。
技术报告交代了新流程:先独立培养专家。数学专家只管算数,代码专家只管编程,把单一维度的能力拉到满。关键在于最后怎么合并——V4不用业内泛滥的参数平均法,而是用了同策略蒸馏(OPD)。
传统的权重合并是一种静态妥协,OPD则是一场动态接管。
统一模型在自己生成轨迹时,遇到数学题,系统精准引入数学专家的梯度来指路;遇到写代码,无缝切给代码专家。大家各司其职,不在参数层面打架。
顺着这条线往下看,V4应用端那个很火的「三种推理模式」(无思考、高强度思考、极限思考),根本不是加了个UI按钮那么简单。它是OPD机制在产品端的直接变现。
极限思考模式下,底层提示词会强制模型分解问题、穷尽边缘情况。这种极其固执的死磕行为,恰恰是在OPD阶段,被「数学专家」和「编程专家」高强度捶打后固化下来的本能。
长上下文的真问题:不是「记得多」,是「算得起」
换完训练方法,换应用场景。长上下文到底能干嘛?
如果只是为了在十万字研报里找一句话,那不叫长上下文,那叫高级检索。真实的商业场景里,Agent要替你重构代码、跨系统验证数据、甚至跑一整晚的流程。
这个过程里最致命的问题是「失忆」。
V3.2有个让工程师头疼的痛点:新消息一进来,模型之前的思考痕迹直接清空。普通聊天这么干没问题,省资源。但如果是跑了三个小时的Agent任务,半路插进去一句话,模型脑子一白,整个状态全部丢失,得从头算。
V4的方案叫「交织思考」。逻辑很冷酷:分场景算账。
只要是带工具调用的长程场景,跨越消息边界,推理链条完整保留。如果是闲聊,继续清空,绝不多浪费一丁点算力。模型开始真正懂得「在什么场合,该记住什么」。
更绝的是快速指令(Quick Instruction)。
以前行业做意图识别,习惯在外面挂个小模型。这意味着每次有新请求进来,不管长短,系统都得把用户的提示词重新嚼一遍——本质上是在白白浪费预填充计算。
V4没这么干。从开源代码可见:直接在输入序列末尾插几个隐式指令。主模型之前算好的海量特征(KV Cache),直接复用。
这其实就是粗暴地砍掉了一次冗余的预填充计算。行业默认一个功能配一个小模型,V4用行动证明:不用。KV Cache复用吃透了,长程Agent才能跑起来。
调度策略的诚实:没有完美方案,只有极限算账
技术报告第17页有个细节:自动生成的kernel,跟手写CUDA逐位比对。不是差不多,是每一位都一样。
这种工程洁癖,业务里少见。有这底线,才敢算部署账。
高并发的百万上下文,拼的根本不是大模型懂不懂人类,拼的是你懂不懂硬件的物理极限在哪。
文档里三种调度策略都列出来了,没有藏着掖着,全是取舍。
想追求计算零冗余?上「完全缓存」。代价是,固态硬盘的I/O通道可能在几秒钟内被高频写入直接挤爆。
想保护硬盘?上「定期检查点」。隔一段距离存一次。硬盘保住了,但GPU得时不时腾出算力,给丢失的尾部数据擦屁股。
干脆不上物理硬盘缓存?选「零缓存」。省下全部存储带宽,全靠长程特征做锚点,碰到问题GPU现场硬算。
这三条路,哪条都不是完美的。这本质上就是一场关于硬件寿命、并发峰值和用户延迟容忍度之间的极限算账。
它把冷冰冰的现实摆在所有人面前:AI早已不是单纯的算法竞赛,而是一场系统工程的总力战。
当1M上下文变成出厂默认值,当13B激活参数能跑赢37B,当KV Cache复用砍掉冗余小模型——这些动作指向同一个结论:大模型的竞争规则,已经从「谁的脑容量大」变成「谁的调度效率高」。
接下来值得观察的是:当效率重构成为新门槛,那些还在堆参数、刷榜单的玩家,会不会突然发现,自己手里的筹码已经贬值了?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.