网易首页 > 网易号 > 正文 申请入驻

美国说DeepSeek落后8个月!拿综合性大学的标准,去测评中科大?

0
分享至

最近,美国NIST、AI标准与创新中心CAISI,联合放出了一份对国产DeepSeek V4 Pro大模型的测评报告,给出的结果与深度求索自测的数值不一致——引起了中外网友们的热议。



一边是研发方,深度求索自己测试的结果,即:DeepSeek V4 Pro只比美国当前最顶尖水平落后3到6个月,基本摸到了GPT‑5.4的水准。

另一边却是美国CAISI的实测结果,DeepSeek V4 Pro模型实际性能只是接近更早的GPT‑5(2025年8月份发布的),与GPT‑5.4有较大的差距。换言之,AI模型的差距不是3个月,也不是6个月,而是有8个月。

一正一反差,差距多出了1个季度——很多人看得云里雾里,要么揪着差距大小争论不休,要么根本没看懂这份测评到底在比什么,更没读懂我国这款AI大模型真正的分量。

先把CAISI这份测评说透,它的确不是网上随便凑点数据集的娱乐评测。

CAISI本身是美国专门做AI能力基准和行业标准的机构,这次测评做得相当严谨,不仅覆盖了网络安全、软件工程、自然科学、抽象推理、数学五大领域,还加入了不少外界拿不到的非公开考题。

比如,专门的抽象推理半私有数据集、他们自己研发的代码移植基准,还有高难度的网络安全攻防题目。

整个评测过程里,模型运行的参数、算力环境、计算资源限制都统一卡死,尽可能排除配置差异带来的干扰,追求的是一份全维度的综合能力打分。

正是因为美国CAISI这一次的测评维度全、标准严,使得这份结果在业内有不小的参考分量——被多家机构评定为“公正、合理”,不是随口给出的结论。

于是,它们纷纷说风凉话了:深度求索这家公司高估了自己,DeepSeek V4 Pro的综合水平,更贴近2025年8月发布的GPT‑5,放到2026年5月这个时间点看,落后大约8个月,差距在扩大。



但南生有话要说了

深度求索自己测试的结果是“仅落后3至6个月”,而美国CAISI却说是“不止,应是落后8个月”——两组数字看上去针锋相对,似乎有一方没有说真话。

呵呵!其实并不是谁在造假、谁更客观这么简单,核心是两者的评价逻辑从根上就不一样。深度求索自测时,更多是围绕模型的优势场景展开,选的也多是它表现突出的公开测试项。

而CAISI却是不问“你是偏向什么领域的大模型”,全部拉在一起算总账。这个道理其实很好理解,就像拿中科大来说:它是国内顶尖的理工科强校,数理、前沿科研、硬核工程能力几乎是顶尖水平。

可你非要用综合性大学的全科标准去衡量,把文科、商科、医学、艺术全都算进总分,再拿去排综合名次,结果必然会严重低估它真正的实力。即:用一套不匹配的尺子去量,得出的结论自然谈不上公平。

DeepSeek V4本就不是GPT那种全场景通吃的全能模型,从设计之初就聚焦在数学推理、科学计算、软件工程这些硬核方向,属于典型的专长型选手。

在它擅长的数学竞赛题、专业科学推理、工程代码实现这些领域,表现确实亮眼,不少高难度测试的准确率都与GPT‑5.4旗鼓相当或极为接近,个别指标甚至离最新的GPT‑5.5不远,这也是研发方认为它只落后几个月的依据。

但在网络安全、通用抽象推理这些并非研发重点的方向,DeepSeek V4 Pro的表现当然是较差——犹如说“中科大的文科、医科、农科得分低”一样,滑稽。

DeepSeek V4 Pro的强势项目很强,但因为这些弱项一拉分,综合总分自然下去了——CAISI测出来的8个月差距,就是这么来的。换言之,DeepSeek不是全能型大模型,美国人用错测评标准了。



这场性能争论更值得说的,是很多人没注意到的一个细节:

DeepSeek V4其实早就“做好了”,业内不少消息都提到:模型主体在2025年12月就基本训练完成,原本完全可以更早发布,最后却硬生生推迟了四五个月,直到2026年4月才正式面世。

不是技术卡壳,也不是性能不达标,而是团队选择了一条更难的路——全面适配华为昇腾芯片,彻底摆脱对英伟达硬件和CUDA生态的依赖。

这几个月的延迟背后,是大量的工程适配工作:重写两百多个核心算子,在国产算力集群上做海量精度对齐,还要等昇腾950芯片的量产节奏一步步配合。

也就是说,如果只是为了抢发布时间、把差距数据做得好看,完全可以继续用英伟达的体系,模型2025年底就能上线,和国外顶尖水平的差距会比现在小得多,也不会有8个月这么显眼的数字。

所以,我们回过头再看DeepSeek V4,真的没必要只盯着“原来差距扩大了,落后时间扩张至8个月”这件事不放。

综合能力存在差距是事实,我们不必回避,这也是国产AI需要继续追赶的地方。但这款模型的真正意义,从来不是和国外最先进LLM比参数、比快慢,而是它第一次真正意义上“让一款主流级别的国产大模型,跳出了英伟达的生态枷锁”。

在此之前,全球几乎所有顶尖大模型都长在英伟达的硬件和软件体系上,相当于命脉握在别人手里,一旦外部环境生变,整个研发和落地都可能被卡住。

而DeepSeek V4走的是另一条路:模型从底层设计就面向国产芯片,实现了从算力支撑到模型运行的自主可控。哪怕慢一点,哪怕综合分数没那么亮眼,哪怕为了适配国产算力主动拉开了一点时间差,却换来了不被卡脖子的底气。

我们总习惯盯着性能差距、参数排名,却常常忽略更底层的安全与自主。一时的性能落后可以靠迭代追,但生态上的依赖,却是拖得越久越难翻身。



DeepSeek V4或许不是全能顶尖的模型,综合测评也确实落后8个月,但它走出的这一步,比单纯追平几个月的技术差,对整个国产AI来说,都要走得更稳、也更有未来。

最后,不得不提一句:便宜啊、开源啊!

评判一款AI大模型,性能的确很重要,但商业上的成功往往更取决于性价比,能让更多人用得上、用得起。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
F1迈阿密冲刺赛:诺里斯夺冠,迈凯伦包揽前二,乐扣季军

F1迈阿密冲刺赛:诺里斯夺冠,迈凯伦包揽前二,乐扣季军

懂球帝
2026-05-03 00:42:17
万万没想到!美伊大战伤亡悬殊:中东血战40天,真实伤亡数据曝光

万万没想到!美伊大战伤亡悬殊:中东血战40天,真实伤亡数据曝光

兵鉴史
2026-04-28 22:15:15
电影市场,彻底凉凉

电影市场,彻底凉凉

叶秋臣
2026-05-02 23:07:55
毕业动画被盗用参赛拿一等奖,作者举报后,合肥工业大学操作亮了

毕业动画被盗用参赛拿一等奖,作者举报后,合肥工业大学操作亮了

听心堂
2026-05-03 07:43:26
女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

丫头舫
2026-05-01 22:17:59
钱再多有什么用?2个女儿惨死3个儿子反目,资产1250亿也无人送终

钱再多有什么用?2个女儿惨死3个儿子反目,资产1250亿也无人送终

北纬的咖啡豆
2026-04-08 17:09:30
两女共侍一夫,却情同姐妹!死后三人葬同穴,总理只批七个字

两女共侍一夫,却情同姐妹!死后三人葬同穴,总理只批七个字

杰丝聊古今
2026-05-03 07:13:33
朝鲜援俄真实伤亡人数公开,惨烈程度超乎想象!此举换来了什么?

朝鲜援俄真实伤亡人数公开,惨烈程度超乎想象!此举换来了什么?

小杨侃事
2026-05-03 01:25:15
哪种女生‬一眼看上去‬很穷?网友:贫穷这东西是藏不住的

哪种女生‬一眼看上去‬很穷?网友:贫穷这东西是藏不住的

带你感受人间冷暖
2026-05-03 01:11:33
爆冷!史上最拥挤“五一档”:多部影片提前撤档,首日票房1.6亿元创近四年新低,十余部新片难救市

爆冷!史上最拥挤“五一档”:多部影片提前撤档,首日票房1.6亿元创近四年新低,十余部新片难救市

每日经济新闻
2026-05-02 12:30:05
蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

趣文说娱
2026-04-23 19:52:36
沉默了45年,中国第二轮“严打”终于来了!但这次的目标变了

沉默了45年,中国第二轮“严打”终于来了!但这次的目标变了

奇思妙想生活家
2026-05-02 17:55:56
韩国二单惨遭0-2爆冷落败,韩国女羽进军决赛亮起黄灯

韩国二单惨遭0-2爆冷落败,韩国女羽进军决赛亮起黄灯

兰亭墨未干
2026-05-03 00:53:31
墨西哥总统:愿与美国合作,但不会在基本原则上让步

墨西哥总统:愿与美国合作,但不会在基本原则上让步

界面新闻
2026-05-02 10:50:47
为什么15艘美国军舰一堵门,伊朗的“强硬人设”立马就崩了?

为什么15艘美国军舰一堵门,伊朗的“强硬人设”立马就崩了?

老腘的世界视角
2026-04-16 15:23:06
网传印度人借香港永居入籍中国,聊天曝光,评论区戳破印度人美梦

网传印度人借香港永居入籍中国,聊天曝光,评论区戳破印度人美梦

谭谈社会
2026-05-02 22:07:05
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
炎亚纶凌晨发长文清算16年恩怨:决裂汪东城、官宣结婚告别飞轮海

炎亚纶凌晨发长文清算16年恩怨:决裂汪东城、官宣结婚告别飞轮海

一盅情怀
2026-05-01 15:51:15
票房会破5亿?看完《寒战1994》,我敢说:港片的荣光又回来了

票房会破5亿?看完《寒战1994》,我敢说:港片的荣光又回来了

阿废冷眼观察所
2026-05-01 12:25:43
一手好牌打个稀烂,直到张军被调查,才明白,林丹的选择有多清醒

一手好牌打个稀烂,直到张军被调查,才明白,林丹的选择有多清醒

舍长阿爷谈事
2026-04-30 19:58:35
2026-05-03 09:44:49
南生今世说 incentive-icons
南生今世说
关注国内外社会、民生、经贸
8248文章数 45316关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

父母正相互拍照6岁孩子坠崖 掉进离江面仅50公分夹缝

头条要闻

父母正相互拍照6岁孩子坠崖 掉进离江面仅50公分夹缝

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

数码
亲子
本地
房产
公开课

数码要闻

苹果Mac mini最低配置调整为16GB+512GB,起售价上调至5999元

亲子要闻

被困在阳台上的小婴儿

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版