网易首页 > 网易号 > 正文 申请入驻

中信建投:DeepSeek V4等多模型更新 算力需求持续紧张

0
分享至

智通财经APP获悉,中信建投发布研报称,DeepSeek-V4与GPT-5.5同期发布,前者凭借CSA/HCA注意力压缩与mHC网络重构,在性能紧逼闭源旗舰的同时将百万上下文推理成本降至极低水平,并成功跑通国产化算力基座;后者则依靠软硬件强耦合,主攻高复杂度知识工作,延续了高定价匹配高智能的商业模式。同时,基座模型的代际跃升与OpenClaw、Hermes等Agent框架形成共振,通过智能上限拓展与推理成本优化,加速Agent生态向商业化落地发展。

中信建投主要观点如下:

4月24日,DeepSeek-V4正式发布,包含Pro(总参数1.6T,激活49B)与Flash(总参数284B,激活13B)两个版本,原生支持1M上下文长度。

在公开测评集表现上,DeepSeek-V4确立开源新标杆,紧逼顶尖闭源模型。在知识与推理维度,V4-Pro在MMLU-Pro测试中得分达87.5%,在编程竞赛基准Codeforces中获得3206的Rating评分,不仅大幅领先开源竞品,更比肩甚至局部超越了GPT-5.4(3168分)与Gemini 3.1 Pro(3052)。在长文本领域,其MRCR 1M(百万上下文多海捞针)准确率达83.5%。在Agent复杂任务基准中,V4-Pro在SWE Verified(80.6%)、Terminal Bench 2.0(67.9%)以及贴近真实商业场景的GDPval-AA(1554分)评测中,展现出极强的端到端执行与工具调用能力,稳居全球第一梯队。


核心技术方面,DeepSeek-V4主要实现了CSA、HCA与mHC三项关键技术创新:

CSA(压缩稀疏注意力):针对长序列推理中的KV缓存占用问题,V4并未采用传统的KV舍弃或标量量化策略,而是引入了Token级别的压缩机制。CSA通过带学习权重的压缩模块,将多个Token的KV特征映射为一个低维表示。同时,为了防止局部细粒度信息丢失,CSA保留了基于滑动窗口的未压缩KV条目,并内置轻量级的Lightning Indexer进行Top-k检索。这一机制在大幅减少显存占用的同时,维持了模型对关键局部信息的精确召回能力。

HCA(重度压缩注意力):面向百万级上下文的宏观信息处理,V4在CSA的基础上设计了压缩比更高的HCA模块。HCA采用全局汇聚策略,将极长序列重度压缩至数千个高密度特征块(如将百万Token压缩至约8000个节点)。在模型层级设计上,V4将CSA与HCA层进行交替排布。推理时,模型能够兼顾HCA的全局视野与CSA的局部微观精度,最终使百万上下文推理的单Token计算量降至前代V3.2的27%,KV Cache占用锐减至10%。


mHC(流形约束超连接,2025年12月梁文锋挂名的论文提出):随着模型层数加深,传统残差网络极易出现信号传递衰减与激活值方差指数级放大的训练不稳定问题。DeepSeek提出了mHC机制以替代传统残差连接。该机制对层间映射矩阵施加了严格的数学约束,要求其必须满足双随机矩阵(即矩阵所有元素非负,且每行、每列之和均为1)。这种流形约束在理论上确保了矩阵的谱范数严格等于1,从根本上抑制了深层网络的梯度爆炸与数值漂移问题。在工程实现上,mHC利用Sinkhorn-Knopp迭代算法高效完成矩阵归一化,使得构建极深层大规模模型网络成为可能。


此外,在后训练阶段,V4放弃了传统的RLHF,转而采用多教师同策略蒸馏与生成式奖励模型,有效避免了传统强化学习导致的对齐税(对齐带来的模型降智)及模型通用能力退化现象,实现了模型多维能力的高度均一化。

DeepSeek与Kimi在底层技术上相互学习与验证。在长上下文处理路线上,Kimi主张线性注意力机制以降低计算复杂度,而DeepSeek则坚持通过CSA/HCA进行张量压缩。在训练优化器方面,Kimi曾在其K2.6技术报告中率先验证了Muon优化器在大语言模型上的潜力,而DeepSeek在V4中则全面完成了Muon的工程化落地。面对Muon极易引发的训练崩溃与Logits爆炸问题,不同于竞品采用的截断策略,DeepSeek在架构侧引入了Query/KV的RMSNorm操作进行底层规范化处理,成功将Muon稳定应用于万亿参数MoE模型的全量预训练中,大幅提升了模型的收敛效率。

4月24日,OpenAI同样发布最新旗舰模型GPT-5.5。作为全新旗舰模型,GPT-5.5在推理精度、复杂任务规划及系统级自治能力上实现了对当前行业基准的全面超越。在衡量复杂命令行与代码流的Terminal-Bench 2.0测试中,GPT-5.5准确率达到82.7%(相较前代GPT-5.4提升超7个百分点,大幅领先Claude Opus 4.7的69.4%)。在评估真实专业知识工作流的GDPval测试中,GPT-5.5亦取得84.9%的成绩,超越了大部分垂直行业专家基线。


从案例测试看,GPT-5.5自主拆解、多步推理及自我代码审查与纠错能力较强。在面对前端应用开发、3D引擎渲染(如WebGL/Three.js应用重构)及高难度数学证明(如在纯数学领域协作发现拉姆齐数的新证明路径)等复杂任务展现出较好的表现。此外,OpenAI在技术披露中指出,GPT-5.5驱动的Codex系统已能够分析底层数据中心的生产流量日志,并自主编写负载均衡启发式分区算法,使系统Token生成速度提升逾20%。这种模型优化自身基础设施的案例,验证了GPT-5.5在复杂闭环系统中的高度工程自治潜力。

对比DeepSeek-V4和GPT-5.5,二者在演进方向呈现出一定的差异。

在API调用成本上, GPT-5.5的API定价为每百万Token输入5美元/输出30美元,相比前代大幅提升。而DeepSeek-V4凭借CSA/HCA架构带来的推理效率提升,将 Pro 版本定价拉低至每百万 Token 输入1 元(缓存命中)/12元(缓存未命中)、输出24元,并于4月25日起开启限时2.5折特惠;Flash版本则为输入0.2元(缓存命中)/1元(缓存未命中)、输出2元;极低的模型API定价极大地缓解了超长上下文推理场景下的成本约束。

在算力底座上,OpenAI进一步加深了与英伟达核心算力集群的系统级绑定,以定制化硬件支撑模型能力的演进。而DeepSeek-V4则成功在Nvidia GPU与华为昇腾NPU双平台上完成了验证与性能对齐,海光、寒武纪等国产算力厂商亦完成了0Day适配,有望缓解国内算力资源短缺的局部难题。

而和国内模型相比,DeepSeek-V4则依靠成本和国产适配突围:

1)纵向对比V3:在模型体量上,V4-Pro的总参数量从V3的6710亿大幅扩展至1.6万亿,预训练数据量亦由14.8T Tokens翻倍提升至33T Tokens,进一步验证Scaling Law的持续性;CSA与HCA的机制亦成功将上下文窗口从128K突破至原生1M。实测数据显示,在处理百万级长序列时,V4单Token的推理计算量仅为V3的27%,KV缓存占用更被极致压缩至10%。

2)横向对比其他国产模型:当前,以Kimi、智谱、MiniMax、阿里、小米正持续在模型智能上界不断突破。在Artificial Analysis智能指数评测中,DeepSeek-V4-Pro与上述大厂的旗舰模型能力基本相当。DeepSeek-V4的破局点更在于对国内算力资源的支持与极致化的成本,尤其在保持1.6T参数规模(头部模型厂公开最高,低于文心5.0的2.4T)、1M上下文窗口(与小米MiMo-V2.5pro、Qwen3.6-Plus等并列第一),仍保持了基本相当的价格。


全球AI产业迅速发展,大模型底层能力与应用层Agent框架形成强烈共振。年初OpenClaw 的爆火,以及随后Hermes框架的异军突起,标志着通用Agent系统正在加速演进。技术定位来看,OpenClaw作为多渠道交互的网关,具备强大的执行能力,可通过丰富的静态插件生态和严格的安全沙箱边界,解决Agent如何安全、合规地调度各类工具并跨设备执行任务的问题;而Hermes则开创了具备自我进化与技能沉淀(Skill)的闭环学习,解决了Agent如何利用历史经验实现自我优化的问题。

Agent的发展高度依赖于底层基座模型的代际迭代。一方面,模型能力的迭代使Agent能够更精准地执行框架设定的Pipeline,并自主生成高质量的执行框架;另一方面,自主化Agent带来了Tokens的指数级消耗,以DeepSeek-V4为代表的国产模型使推理成本快速下降,使得Agent在全周期运行和大规模记忆检索上具备经济可行性。

总结:DeepSeek-V4与GPT-5.5同期发布,前者凭借CSA/HCA注意力压缩与mHC网络重构,在性能紧逼闭源旗舰的同时将百万上下文推理成本降至极低水平,并成功跑通国产化算力基座;后者则依靠软硬件强耦合,主攻高复杂度知识工作,延续了高定价匹配高智能的商业模式。同时,基座模型的代际跃升与OpenClaw、Hermes等Agent框架形成共振,通过智能上限拓展与推理成本优化,加速Agent生态向商业化落地发展。

投资方向:继续看好推理算力和商业航天产业趋势。

风险提示

(1)宏观经济下行风险:计算机行业下游涉及千行百业,宏观经济下行压力下,行业IT支出不及预期将直接影响计算机行业需求;(2)应收账款坏账风险:计算机多数公司业务以项目制签单为主,需要通过验收后能够收到回款,下游客户付款周期拉长可能导致应收账款坏账增加,并可能进一步导致资产减值损失;(3)行业竞争加剧:计算机行业需求较为确定,但供给端竞争加剧或将导致行业格局发生变化;(4)国际环境变化影响:国际贸易摩擦加剧,美国不断对中国科技施压,对于海外收入占比较高公司可能形成影响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“我女儿敢这样,腿给砸断”,宝妈晒2个女儿出门,装束让人怒了

“我女儿敢这样,腿给砸断”,宝妈晒2个女儿出门,装束让人怒了

番外行
2026-04-15 10:13:21
因为没钱,社会上已经出现了4大“反常现象”,看看你碰到了没?

因为没钱,社会上已经出现了4大“反常现象”,看看你碰到了没?

细说职场
2026-04-26 14:29:20
余承东在发布会被质疑耍大牌,张雪力挺!

余承东在发布会被质疑耍大牌,张雪力挺!

鞭牛士
2026-04-26 16:40:15
三部门发文规范慈善组织募捐成本支出

三部门发文规范慈善组织募捐成本支出

界面新闻
2026-04-27 12:06:58
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
女孩卧铺车求救武警,战士转头装睡,4小时后所有人都愣住了

女孩卧铺车求救武警,战士转头装睡,4小时后所有人都愣住了

萧矹影视解说
2026-04-15 13:08:16
轰炸中,伊朗国宝来到中国

轰炸中,伊朗国宝来到中国

中国新闻周刊
2026-04-27 07:30:21
万万没想到,索马里出手了!比胡塞武装还猛,对以色列颁下禁令

万万没想到,索马里出手了!比胡塞武装还猛,对以色列颁下禁令

潮鹿逐梦
2026-04-27 02:27:00
G4火箭大胜湖人4好消息!阿门展中投,谢泼德+伊森回暖,防守更硬

G4火箭大胜湖人4好消息!阿门展中投,谢泼德+伊森回暖,防守更硬

篮球资讯达人
2026-04-27 12:42:59
油价大降超0.86元/升,由涨变跌后,5月8日汽柴油或“重新上涨”

油价大降超0.86元/升,由涨变跌后,5月8日汽柴油或“重新上涨”

油价早知道
2026-04-25 02:40:15
外媒报道,055大驱当着日本航母的面,直接发射鹰击-20?

外媒报道,055大驱当着日本航母的面,直接发射鹰击-20?

小樾说历史
2026-04-27 10:40:20
4月28日定局!杜特尔特家族全面崩塌,小马科斯终极清算打响

4月28日定局!杜特尔特家族全面崩塌,小马科斯终极清算打响

爱意随风起呀
2026-04-27 12:08:21
5月1日全面严查落地!两类人群抓紧自查整改,拖着不做后果很麻烦

5月1日全面严查落地!两类人群抓紧自查整改,拖着不做后果很麻烦

复转这些年
2026-04-26 18:31:40
1951年,戴笠独子被处决的消息传到台湾,蒋介石给毛人凤下了一条命令

1951年,戴笠独子被处决的消息传到台湾,蒋介石给毛人凤下了一条命令

晓张说
2026-04-27 07:18:18
确定前往伦敦!马龙亲口证实,不为上场只为给王楚钦吃一颗定心丸

确定前往伦敦!马龙亲口证实,不为上场只为给王楚钦吃一颗定心丸

小娱乐悠悠
2026-04-27 09:06:37
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
2013年摊贩杀死两名城管判死刑,其子被伊能静认养,如今怎样了?

2013年摊贩杀死两名城管判死刑,其子被伊能静认养,如今怎样了?

莫地方
2026-04-25 00:10:03
取消户籍限制!教育部突发新规!9月1日起执行:家长再也不用焦虑

取消户籍限制!教育部突发新规!9月1日起执行:家长再也不用焦虑

芳姐侃社会
2026-04-24 22:52:50
婆婆把我的腊肉全搬去给大姑子,第二年我没有再晒,婆婆却找上门

婆婆把我的腊肉全搬去给大姑子,第二年我没有再晒,婆婆却找上门

匹夫来搞笑
2026-04-27 08:21:26
国家出手整治了!花呗、白条将从付款页彻底消失

国家出手整治了!花呗、白条将从付款页彻底消失

吉刻新闻
2026-04-26 13:14:40
2026-04-27 13:43:00
智通财经 incentive-icons
智通财经
全球资本市场财经资讯提供者
1119247文章数 101277关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

白宫枪手路径首披露:房卡放行 在隔间组枪直冲宴会厅

头条要闻

白宫枪手路径首披露:房卡放行 在隔间组枪直冲宴会厅

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

艺术
家居
亲子
时尚
军事航空

艺术要闻

你绝对想不到,摄影能让她成为女神!

家居要闻

江景风格 流动的秩序

亲子要闻

你听懂这3句话,躺平的孩子很快就能好起来了!

比起买大件,这些“小装备”更派得上用场!

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版