网易首页 > 网易号 > 正文 申请入驻

DeepSeek从37B降至13B,小代价重构算力效率

0
分享至

过去几天,科技圈的视线全被DeepSeek吸走了。

DeepSeek V4-Pro的分数确实好看。从其技术报告披露的底牌来看,在SimpleQA-Verified测试中,它以20个绝对百分点的优势甩开了所有开源对手;在Codeforces代码竞赛里,预期评分直接追平了GPT-5.4。当然,在世界知识的广度上,它依然略逊于Gemini-3.1-Pro;遇到极高难度的复杂任务,跟Claude Opus 4.6也还有微小的身位差。

但这都不重要。

如果你只盯着榜单排名,就完全看漏了这家机构真正的野心。

大模型的战争,已经从模型层退场,全面接管系统层。

过去几年,行业都在拼脑容量。比谁的参数多,比谁跑分高。但这套玩法到头了。V4的出现,是在定义一套新规矩:模型本身,只是高效工程系统自然结出的一个副产品。

而是机房调度能力。

调度能力从哪看出来?先看V4最反直觉的一个设计:Pro和Flash的共生关系。

行业里一看到“Pro”和“Flash”,第一反应就是精准刀法:Pro用来打标杆,Flash用来做下沉市场,收割中小企业。

这种典型的商业包装逻辑,放在V4身上,看偏了。这两者根本不是算力降级关系,而是验证同一套底层逻辑的对照组。

V4-Pro以1.6T的总参数和49B的激活参数把容量拉到了顶。但真正的大招,是那个只有284B总参数、13B激活参数的V4-Flash。



13B的极小激活代价,绝不是能力缩水,而是一次底层的效率重构。Flash的意义,不是为了证明它能有多省钱,而是为了证明“算力霸权是可以被架构重构打破的”。

参数规模,已经彻底失去决定性意义。

硬件效率是一面,另一面是软件效率。V4在'后训练'阶段也换了一条路。

大模型的“后训练”阶段,过去一直走在一条死胡同里。

行业惯用的混合强化学习(Mixed RL),说的直白点,就是和稀泥。如果你想让模型既懂微积分,又会写C++,还能做日常规划时,传统的做法是把所有的参数强行往中间捏。结果就是“向均值回归”。

强行捏在一起,特化能力全磨平了,最终只会均值化成平庸的通才。

V4换了一条路。不是改良,是彻底换道。技术报告里交代了新解法:先独立培养专家。数学专家就只管算数,代码专家就只管编程。把单一维度的能力拉到满。

关键在于最后怎么合并。V4不用业内泛滥的参数平均法,而是用了同策略蒸馏(OPD)。

传统的权重合并是一种静态妥协,而OPD是一场动态接管。

统一模型在自己生成轨迹时,遇到数学题,系统就精准引入数学专家的梯度来指路;遇到写代码,就无缝切给代码专家。大家各司其职,不在参数层面打架。

顺着这条线往下看,V4应用端那个很火的“三种推理模式”(无思考、高强度思考、极限思考),根本不是加了个UI按钮那么简单。它是OPD机制在产品端的直接变现。



在极限思考模式下,底层提示词会强制模型去分解问题、穷尽边缘情况。这种极其固执的死磕行为,恰恰是在OPD阶段,在“数学专家”和“编程专家”的高强度捶打下固化下来的本能。

OPD不搞平均。遇到数学题,接数学专家;遇到代码,接代码专家。各管一段,不在参数层面打架。

在这个过程里,最致命的问题是“失忆”。

V3.2有个让工程师极其头疼的痛点:新消息一进来,模型之前的思考痕迹直接清空。普通聊天这么干没问题,省资源。但如果是跑了三个小时的Agent任务,半路插进去一句话,模型脑子一白,整个状态全部丢失,得从头算。

这种链条断裂,在实际业务中直接接不住。

V4给出的方案是“交织思考”。逻辑很冷酷,分场景算账。



只要是带工具调用的长程场景,跨越消息边界,推理链条完整保留。如果是闲聊,继续清空,绝不多浪费一丁点算力。模型开始真正懂得“在什么场合,该记住什么”。

更绝的是它的快速指令(Quick Instruction)。

以前行业里做意图识别,都习惯在外面挂个小模型。这意味着每次有新请求进来,不管长短,系统都得把用户的提示词重新嚼一遍。这本质上是在白白浪费预填充计算。

V4没这么干。从其开源代码中可见:直接在输入序列末尾插几个隐式指令。主模型之前算好的海量特征(KV Cache),直接复用。

这其实就是粗暴地砍掉了一次冗余的预填充计算。行业默认一个功能配一个小模型,V4用行动证明:不用。KV Cache复用吃透了,长程Agent才能跑起来。

能跑不代表能卖。

第17页有个细节,自动生成的kernel,跟手写CUDA逐位比对。不是差不多,是每一位都一样。这种工程洁癖,业务里少见。有这底线,才敢算部署账。





想追求计算零冗余?上“完全缓存”。但代价是,固态硬盘的I/O通道可能在几秒钟内被高频写入直接挤爆。

想保护硬盘?上“定期检查点”。隔一段距离存一次。硬盘保住了,但GPU得时不时腾出算力来给丢失的尾部数据擦屁股。

要是干脆不上物理硬盘缓存呢?那就选“零缓存”。省下全部存储带宽,全靠长程特征做锚点,碰到问题GPU现场硬算。

这三条路,哪条都不是完美的。这本质上就是一场关于硬件寿命、并发峰值和用户延迟容忍度之间的极限算账。它把冷冰冰的现实摆在所有人面前:AI早已不是单纯的算力密集型产业,它正在加速变成调度密集型产业。

看DeepSeek V4,如果还停留在跑分榜上,那就连门槛都没摸到。

OPD的能力动态接管,交织思考的记忆保留,砍掉预填充的快速指令,还有那些把硬盘和显存算计到骨头里的落盘策略。

这些枯燥的细节,其实是一根线上的蚂蚱。

大模型在变。

不再是陪聊的玩具。

而是开始接管真实世界的业务链条。

DeepSeek不是在赌未来,它是在建机房。外界还在聊分数,分数只是机房运转时的副产品。

当对手还在为跑分榜上的零点几分沾沾自喜、向市场炫耀那几百亿参数时,DeepSeek已经在算每百万Token的电费。

战局已经很清晰了:

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
52 岁方琼回农村喝喜酒,状态嫩得像 30 岁,独自坐板凳上玩手机

52 岁方琼回农村喝喜酒,状态嫩得像 30 岁,独自坐板凳上玩手机

南万说娱26
2026-04-22 12:10:10
U17国足2-0卡塔尔!从垫底升第二 进亚洲杯8强+21年后重返世界杯

U17国足2-0卡塔尔!从垫底升第二 进亚洲杯8强+21年后重返世界杯

侃球熊弟
2026-05-13 02:02:47
山东通报部分农田现黑色液体:为企业处置畜禽粪污时产生的沼液,将继续深入调查,并依法依规严肃处理

山东通报部分农田现黑色液体:为企业处置畜禽粪污时产生的沼液,将继续深入调查,并依法依规严肃处理

大象新闻
2026-05-12 20:46:22
从灾难到救星:金斯基如何成为热刺保级战英雄

从灾难到救星:金斯基如何成为热刺保级战英雄

绿茵狂热者
2026-05-13 07:06:59
注意控制仓位

注意控制仓位

华西都市报
2026-05-13 02:15:24
刚宣布退出中国,三星就赚翻了?三星给我们上了一堂残酷的课

刚宣布退出中国,三星就赚翻了?三星给我们上了一堂残酷的课

真的好爱你
2026-05-12 14:27:02
“到底是哪个天才想出的在北京种月季?”北京绿化带,强得可怕!

“到底是哪个天才想出的在北京种月季?”北京绿化带,强得可怕!

起喜电影
2026-05-12 17:43:49
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
高校领导交流的潜规则:学院去不了大学,211进不了985

高校领导交流的潜规则:学院去不了大学,211进不了985

教育放大镜
2026-05-12 22:43:04
史无前例!日本拟正式定调:中国是“威胁”,安保政策彻底变天!

史无前例!日本拟正式定调:中国是“威胁”,安保政策彻底变天!

人间无味啊
2026-05-11 19:25:52
《放羊的星星》男演员李威卷入精舍杀人案,被判1年10个月有期徒刑,缓刑5年

《放羊的星星》男演员李威卷入精舍杀人案,被判1年10个月有期徒刑,缓刑5年

蓬勃新闻
2026-05-12 13:02:22
iOS 26.5来了,这个改变让我又爱又恨

iOS 26.5来了,这个改变让我又爱又恨

时光慢邮啊
2026-05-12 06:07:30
电视剧全网热度榜,《主角》跌至第三,第一热度高达77.91

电视剧全网热度榜,《主角》跌至第三,第一热度高达77.91

圆头讲电影
2026-05-12 10:18:18
内塔尼亚胡称“不喜欢中国向伊朗导弹制造提供的支持” 中方回应

内塔尼亚胡称“不喜欢中国向伊朗导弹制造提供的支持” 中方回应

财联社
2026-05-12 15:27:18
离婚1年后,女子再次思念前夫,发了句“在干嘛”,他立马回复:你要是再多说一句话,明天我就找你复婚!

离婚1年后,女子再次思念前夫,发了句“在干嘛”,他立马回复:你要是再多说一句话,明天我就找你复婚!

品读时刻
2026-05-08 09:09:58
干了20年殡葬,我希望所有家属拿到骨灰后,不要把亲人塞进后备箱

干了20年殡葬,我希望所有家属拿到骨灰后,不要把亲人塞进后备箱

千秋文化
2026-05-12 20:21:18
世行前行长:中国必须停止囤积粮食,帮美国解决霍尔木兹海峡危机

世行前行长:中国必须停止囤积粮食,帮美国解决霍尔木兹海峡危机

阿龙聊军事
2026-05-13 06:39:35
惊人的母子定律:原来母亲的样子,直接决定了孩子的一生

惊人的母子定律:原来母亲的样子,直接决定了孩子的一生

一口娱乐
2026-05-11 15:33:57
土方竟是华夏失落的强敌?考古挖出恐怖真相,改写商周历史!

土方竟是华夏失落的强敌?考古挖出恐怖真相,改写商周历史!

优趣纪史记
2026-05-12 18:56:52
下雨、降温!7级大风!江苏最新天气预测

下雨、降温!7级大风!江苏最新天气预测

江南晚报
2026-05-13 03:00:12
2026-05-13 07:23:00
鱼语昱雨轩
鱼语昱雨轩
鱼语昱雨轩
634文章数 147关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

利润再腰斩 京东干外卖后就没过过好日子

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

本地
旅游
艺术
健康
公开课

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

中东战事影响持续,约旦旅游业仍面临挑战

艺术要闻

这位女摄影师的航拍风景照片,简直太美了!

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版