最近,美国NIST、AI标准与创新中心CAISI,联合放出了一份对国产DeepSeek V4 Pro大模型的测评报告,给出的结果与深度求索自测的数值不一致——引起了中外网友们的热议。
![]()
一边是研发方,深度求索自己测试的结果,即:DeepSeek V4 Pro只比美国当前最顶尖水平落后3到6个月,基本摸到了GPT‑5.4的水准。
另一边却是美国CAISI的实测结果,DeepSeek V4 Pro模型实际性能只是接近更早的GPT‑5(2025年8月份发布的),与GPT‑5.4有较大的差距。换言之,AI模型的差距不是3个月,也不是6个月,而是有8个月。
一正一反差,差距多出了1个季度——很多人看得云里雾里,要么揪着差距大小争论不休,要么根本没看懂这份测评到底在比什么,更没读懂我国这款AI大模型真正的分量。
先把CAISI这份测评说透,它的确不是网上随便凑点数据集的娱乐评测。
CAISI本身是美国专门做AI能力基准和行业标准的机构,这次测评做得相当严谨,不仅覆盖了网络安全、软件工程、自然科学、抽象推理、数学五大领域,还加入了不少外界拿不到的非公开考题。
比如,专门的抽象推理半私有数据集、他们自己研发的代码移植基准,还有高难度的网络安全攻防题目。
整个评测过程里,模型运行的参数、算力环境、计算资源限制都统一卡死,尽可能排除配置差异带来的干扰,追求的是一份全维度的综合能力打分。
正是因为美国CAISI这一次的测评维度全、标准严,使得这份结果在业内有不小的参考分量——被多家机构评定为“公正、合理”,不是随口给出的结论。
于是,它们纷纷说风凉话了:深度求索这家公司高估了自己,DeepSeek V4 Pro的综合水平,更贴近2025年8月发布的GPT‑5,放到2026年5月这个时间点看,落后大约8个月,差距在扩大。
![]()
但南生有话要说了
深度求索自己测试的结果是“仅落后3至6个月”,而美国CAISI却说是“不止,应是落后8个月”——两组数字看上去针锋相对,似乎有一方没有说真话。
呵呵!其实并不是谁在造假、谁更客观这么简单,核心是两者的评价逻辑从根上就不一样。深度求索自测时,更多是围绕模型的优势场景展开,选的也多是它表现突出的公开测试项。
而CAISI却是不问“你是偏向什么领域的大模型”,全部拉在一起算总账。这个道理其实很好理解,就像拿中科大来说:它是国内顶尖的理工科强校,数理、前沿科研、硬核工程能力几乎是顶尖水平。
可你非要用综合性大学的全科标准去衡量,把文科、商科、医学、艺术全都算进总分,再拿去排综合名次,结果必然会严重低估它真正的实力。即:用一套不匹配的尺子去量,得出的结论自然谈不上公平。
DeepSeek V4本就不是GPT那种全场景通吃的全能模型,从设计之初就聚焦在数学推理、科学计算、软件工程这些硬核方向,属于典型的专长型选手。
在它擅长的数学竞赛题、专业科学推理、工程代码实现这些领域,表现确实亮眼,不少高难度测试的准确率都与GPT‑5.4旗鼓相当或极为接近,个别指标甚至离最新的GPT‑5.5不远,这也是研发方认为它只落后几个月的依据。
但在网络安全、通用抽象推理这些并非研发重点的方向,DeepSeek V4 Pro的表现当然是较差——犹如说“中科大的文科、医科、农科得分低”一样,滑稽。
DeepSeek V4 Pro的强势项目很强,但因为这些弱项一拉分,综合总分自然下去了——CAISI测出来的8个月差距,就是这么来的。换言之,DeepSeek不是全能型大模型,美国人用错测评标准了。
![]()
这场性能争论更值得说的,是很多人没注意到的一个细节:
DeepSeek V4其实早就“做好了”,业内不少消息都提到:模型主体在2025年12月就基本训练完成,原本完全可以更早发布,最后却硬生生推迟了四五个月,直到2026年4月才正式面世。
不是技术卡壳,也不是性能不达标,而是团队选择了一条更难的路——全面适配华为昇腾芯片,彻底摆脱对英伟达硬件和CUDA生态的依赖。
这几个月的延迟背后,是大量的工程适配工作:重写两百多个核心算子,在国产算力集群上做海量精度对齐,还要等昇腾950芯片的量产节奏一步步配合。
也就是说,如果只是为了抢发布时间、把差距数据做得好看,完全可以继续用英伟达的体系,模型2025年底就能上线,和国外顶尖水平的差距会比现在小得多,也不会有8个月这么显眼的数字。
所以,我们回过头再看DeepSeek V4,真的没必要只盯着“原来差距扩大了,落后时间扩张至8个月”这件事不放。
综合能力存在差距是事实,我们不必回避,这也是国产AI需要继续追赶的地方。但这款模型的真正意义,从来不是和国外最先进LLM比参数、比快慢,而是它第一次真正意义上“让一款主流级别的国产大模型,跳出了英伟达的生态枷锁”。
在此之前,全球几乎所有顶尖大模型都长在英伟达的硬件和软件体系上,相当于命脉握在别人手里,一旦外部环境生变,整个研发和落地都可能被卡住。
而DeepSeek V4走的是另一条路:模型从底层设计就面向国产芯片,实现了从算力支撑到模型运行的自主可控。哪怕慢一点,哪怕综合分数没那么亮眼,哪怕为了适配国产算力主动拉开了一点时间差,却换来了不被卡脖子的底气。
我们总习惯盯着性能差距、参数排名,却常常忽略更底层的安全与自主。一时的性能落后可以靠迭代追,但生态上的依赖,却是拖得越久越难翻身。
![]()
DeepSeek V4或许不是全能顶尖的模型,综合测评也确实落后8个月,但它走出的这一步,比单纯追平几个月的技术差,对整个国产AI来说,都要走得更稳、也更有未来。
最后,不得不提一句:便宜啊、开源啊!
评判一款AI大模型,性能的确很重要,但商业上的成功往往更取决于性价比,能让更多人用得上、用得起。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.