网易首页 > 网易号 > 正文 申请入驻

海外评测DeepSeek-V4:智能体任务排名开源第一,幻觉率上升,Token消耗大

0
分享至

4月24日, DeepSeek-V4预览版正式发布并同步开源,号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。

DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。

两个版本均大幅降低了对计算和显存的需求,将每个标记的推理FLOP降低 73%,并将KV缓存内存占用降低90%。


4月24日,全球最大AI模型应用程序编程接口聚合平台OpenRouter的数据显示,V4-Flash的调用量达270亿Token,V4-Pro为47.9亿Token,但没有登上排行榜。


DeepSeek-V4发布后,主流评测平台进行了能力测试和排名。

Artificial Analysis对DeepSeek-V4进行了推理能力专项测评。结果显示,V4-Pro在人工分析智能指数中斩获52分,相较V3.2版本的42分实现10分跃升,成为仅次于Kimi K2.6的全球第二大开源推理模型。

V4-Flash得分47分,性能弱于V4-Pro,但显著超越DeepSeek-V3.2,综合智能水平对标Claude Sonnet 4.6(全力版),介于顶尖闭源模型与主流中端模型之间。


在智能体任务表现方面,V4-Pro在真实场景智能体工作任务中,性能位居所有开源权重模型首位,得分1554,超越Kimi K2.6(1484)、GLM-5.1(1535)、GLM-5(1402)以及MiniMax-M2.7(1514)。


DeepSeek-V4知识储备升级,但幻觉发生率上升。V4-Pro在全知综合评测指标(AA-Omniscience)中得分为-10,较V3.2推理版提升11分,核心得益于知识回答准确率的显著优化。V4-Flash得分为-23,整体水平与V3.2基本持平。


相较于V3.2的幻觉率(82%),V4两款模型的幻觉问题突出:V4-Pro幻觉率为94%、V4-Flash幻觉率为96%,意味着模型在未知问题场景下,几乎都会强行生成答案。


DeepSeek-V4的运行成本低于顶级闭源模型,高于主流开源模型,较前代大幅上涨。完成全套人工分析智能指数测评,V4-Pro的运行成本为1071美元,仅不到Claude Opus 4.7(4811 美元)的四分之一;但对比同类开源模型仍偏高,高于Kimi K2.6(948 美元)、GLM-5.1(544美元)、DeepSeek-V3.2(71美元)、gpt-oss-120B(67 美元)。DeepSeek-V4-Flash运行成本仅约113美元,成本优势显著。


完成标准测评流程,V4-Pro输出Token消耗量达1.9亿,属于本次测评中Token消耗最高的模型之一;V4-Flash消耗进一步攀升至2.4亿Token。即便定价偏低,高额的Token消耗仍是V4-Pro综合使用成本高于其他开源模型的核心原因。


在其他评测中,大模型竞技场Arena.ai将DeepSeek-V4-Pro定性为“相较DeepSeek-V3.2的重大飞跃”,在其代码竞技场中位列开源模型第3位、综合第14位。DeepSeek-V4-Pro在智能体网页开发任务中与GPT-5.4-high和Gemini-3.1-Pro处于同一水平。在其文本竞技场中,DeepSeek-V4-Pro位列开源模型排名第2、综合第14,与Kimi-2.6持平。DeepSeek-V4-Flash位列开源模型排名第10、综合第14。


另一家测评方Vals AI称,DeepSeek-V4在其Vibe Code Benchmark(氛围代码基准)中以“压倒性优势”拿下开源权重模型榜首,较上代V3.2实现约10倍性能跃升,甚至击败了像Gemini 3.1 Pro这样的顶尖闭源模型。DeepSeek-V4也是唯一一个在Vibe Code Benchmar上突破40%的开源权重模型。


相较于DeepSeek-V4的能力,海外更加关注DeepSeek与华为的合作。

在DeepSeek-V4公布API价格信息的最下方,官方特别标注指出:“受限于高端算力,目前Pro的服务吞吐量十分有限,预计下半年昇腾(Ascend)950超节点批量上市后,Pro的价格会大幅下调。”


DeepSeek在技术报告中称,V4已在NVIDIA GPU和华为昇腾NPUs平台上验证了精细粒度的EP(专家并行)方案,相较于强大的非融合基线,其在通用推理任务上可实现1.50~1.73倍的加速效果,而在对时延敏感的场景(如RL推演和高速代理服务)中则可达到1.96倍的加速效果。

而在V4发布后,华为昇腾也同步宣布“超节点全系列产品支持DeepSeek-V4系列模型”。据悉,昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek-V4模型推理部署。

对于DeepSeek此次与华为合作,市场研究机构Omdia半导体研究主管何辉表示:“这对中国人工智能行业而言意义重大。”

他进一步说道:“华为昇腾芯片是中国自研水平最高、可替代英伟达的产品。DeepSeek-V4大模型适配搭载华为芯片,标志着中国顶级大模型如今已能够实现国产化硬件落地运行。

高盛分析师Christopher Moniz点评称,DeepSeek-V4预览版发布后,GPU及国产芯片板块应声走强。核心关注点之一是支撑V4模型的芯片底层架构:包括模型训练所使用的芯片,以及推理阶段搭载的硬件设备。华为搭载昇腾AI处理器的新一代人工智能计算集群,可适配运行DeepSeek-V4模型。这也意味着,中国自研AI硬件生态,正在为DeepSeek持续迭代前沿大模型提供算力支撑。

DeepSeek此次技术路线转向,也印证了英伟达首席执行官黄仁勋此前的担忧:英伟达正面临失去中国开发者生态的风险。

本月上旬,英伟达创始人黄仁勋在接受Dwarkesh Patel专访时曾言:“如果DeepSeek先在华为平台上发布,那对美国来说将是灾难性的。”在黄仁勋看来,虽然DeepSeek是一款开源模型,同样可被用于英伟达产品上,但如果DeepSeek专门针对华为算力进行优化,在高端算力采购受限等局限下,英伟达将处于劣势。

与DeepSeek-R1不同,DeepSeek-V4并没有引发美国科技股大跌。晨星高级股票分析师Ivan Su表示,DeepSeek-V4很难复刻推理模型R1当初的市场影响力,因为交易市场早已充分消化了预期:中国人工智能技术具备竞争力,且使用成本更低。

Ivan Su还称,DeepSeek此次全新的产品定位,将国内其他开源大模型直接划入竞品行列。

布鲁金斯学会研究员Kyle Chan表示,DeepSeek-V4令人印象深刻,因为它是一个接近最先进水平的模型,具有高效的100万Token上下文长度,并且可以在华为的新芯片上运行。DeepSeek-V4没有复制“DeepSeek-R1时刻”,因为外界对中国AI能力的期望值要比以往高得多。

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老外震惊!中国馒头横扫欧美!不是文化输出,是中国供应链赢麻了

老外震惊!中国馒头横扫欧美!不是文化输出,是中国供应链赢麻了

魔都姐姐杂谈
2026-04-24 11:56:08
史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

柏年说政经
2026-04-25 10:00:08
曝24岁美女谢垚心梗去世,经常跑半马,父亲痛别,带女儿照片看海

曝24岁美女谢垚心梗去世,经常跑半马,父亲痛别,带女儿照片看海

天天热点见闻
2026-04-23 19:23:09
如果马寅初没提出人口论,也没有计划生育,如今我国会怎么样?

如果马寅初没提出人口论,也没有计划生育,如今我国会怎么样?

旧史新谭
2026-04-24 15:49:04
19岁女孩失控的人生:14个月在直播间豪掷1700万公款

19岁女孩失控的人生:14个月在直播间豪掷1700万公款

潇湘晨报
2026-04-24 22:36:30
广州7岁男童无法走路说话,被当脑瘫治疗多年,父母翻病历发现其出生时颅骨骨折疑在医院摔伤,医院否认,一文梳理关键时间线

广州7岁男童无法走路说话,被当脑瘫治疗多年,父母翻病历发现其出生时颅骨骨折疑在医院摔伤,医院否认,一文梳理关键时间线

大象新闻
2026-04-25 16:49:18
这台大众很不大众 解读一汽-大众ID. AURA T6

这台大众很不大众 解读一汽-大众ID. AURA T6

新出行
2026-04-25 14:01:58
广场舞噪音乱入!深圳一演唱会现场遭观众吐槽,官方回应

广场舞噪音乱入!深圳一演唱会现场遭观众吐槽,官方回应

南方都市报
2026-04-25 15:33:03
多名院士调查发现:吃一口放久发酵的腐乳,或等于进一次毒?真假

多名院士调查发现:吃一口放久发酵的腐乳,或等于进一次毒?真假

路医生健康科普
2026-04-25 16:05:03
女大学生泰国旅游被高价转卖缅甸园区,照片流出长这么好看被折磨太惨

女大学生泰国旅游被高价转卖缅甸园区,照片流出长这么好看被折磨太惨

不二表姐
2026-04-24 22:41:14
特朗普还没启程访华,北京先送美国一份重礼,中美之间不只有对抗

特朗普还没启程访华,北京先送美国一份重礼,中美之间不只有对抗

闻识
2026-04-25 11:18:38
德云社墨尔本团建,董事长王惠和郭汾阳都在,郭德纲的庄园真气派

德云社墨尔本团建,董事长王惠和郭汾阳都在,郭德纲的庄园真气派

以茶带书
2026-04-25 15:06:21
猛人是从底层杀出来的

猛人是从底层杀出来的

汉周读书
2026-04-24 17:28:00
250万赔偿不算啥?官方介入,崔丽丽事件“创先河”,释放3大信号

250万赔偿不算啥?官方介入,崔丽丽事件“创先河”,释放3大信号

天天热点见闻
2026-04-25 06:27:01
马齿苋立功!研究发现:其天然成分4周降脂33%,还能减少血管斑块

马齿苋立功!研究发现:其天然成分4周降脂33%,还能减少血管斑块

思思夜话
2026-04-25 11:16:17
“全新以赴”不再是口号 大众在北京车展交出“兑现”答卷

“全新以赴”不再是口号 大众在北京车展交出“兑现”答卷

网上车市
2026-04-25 18:05:49
乌度卡谈最后崩盘:我不知道他们是太年轻,还是惧怕关键时刻

乌度卡谈最后崩盘:我不知道他们是太年轻,还是惧怕关键时刻

懂球帝
2026-04-25 12:18:07
雷克萨斯全新一代ES:不做越级,而做跃级

雷克萨斯全新一代ES:不做越级,而做跃级

网上车市
2026-04-24 21:32:03
泡泡玛特:4月30日发售两款Labubu冰箱,售价5999元,每款全球限量发售999台

泡泡玛特:4月30日发售两款Labubu冰箱,售价5999元,每款全球限量发售999台

鲁中晨报
2026-04-24 20:08:07
霍尔木兹海峡封锁,美国能源出口飙升,二战以来首次接近成为原油净出口国

霍尔木兹海峡封锁,美国能源出口飙升,二战以来首次接近成为原油净出口国

红星新闻
2026-04-25 12:32:20
2026-04-25 20:04:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1550378文章数 2725519关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

现场视频:歼-15挂弹起飞硬刚外军航母编队滋扰

头条要闻

现场视频:歼-15挂弹起飞硬刚外军航母编队滋扰

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

家居
旅游
数码
艺术
公开课

家居要闻

自然肌理 温润美学

旅游要闻

去马登乡寻找杜鹃花海,结果误打误撞,领略了数千亩苹果花的风韵

数码要闻

雷达感应自动开关灯,Yeelight新品来了

艺术要闻

安德烈·皮安科夫斯基:当代俄罗斯画家

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版