网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4 发布 48 小时三榜首秀:开源前 3,综合前 10!

0
分享至

来源:市场资讯

(来源:AI信息Gap)

DeepSeek-V4 的成绩单,出来了。

这两天,Arena、Vals AI、Artificial Analysis 三个主流第三方榜单陆续更新了数据。

先说结论。

开源榜单前 3。综合榜单冲进前 10。

同为开源模型,DeepSeek-V4-Pro 和 GLM-5.1、Kimi-K2.6 打得有来有回。


01|Arena 大模型竞技场

V4-Pro 非思考模式 1463 分,思考模式 1462 分,分列开源榜第 2、3 名。

在它前面的是 GLM-5.1,1470 分。


Arena 官方评价:

「相较 V3.2 的重大飞跃。」

上一代 V3.2 思考模式 1425 分,已经跌落至综合榜单的第 63 名。V4-Pro 目前第 20 名。

02|Vals AI

Vals AI 有两个榜,Vibe Code Bench 测评代码,Vals Index 测综合智能。

Vibe Code Bench 开源榜,V4 49.93% 排第 1。Kimi K2.6 37.89%,第 2,相差 12 个百分点。GLM 5.1 31.46%,第 3。

上一代 V3.2 思考模式只有 5.11%。V4 翻了快 10 倍。

Vals AI 官方这样说道。

「DeepSeek-V4 现在是我们 Vibe Code Benchmark 上的开源第一,遥遥领先。」


Vals Index 综合指数榜,却是不一样的故事。

开源里 Kimi K2.6 63.94% 排第 1,V4 63.87% 紧跟第 2,差 0.07%。GLM 5.1 63.17% 第 3。


包含闭源模型的综合榜,Claude Opus 4.7 71.47% 第 1,GPT-5.5 69.82% 第 2,Claude Sonnet 4.6 67.74% 第 3。

开源整体比闭源还差一截。这个结果基本符合我们平时的真实体感,也符合 DeepSeek 技术报告里那句很实在的原话。

「我们比最前沿的闭源模型,还落后 3 到 6 个月。」


03|Artificial Analysis

AA(Artificial Analysis)有三个相关榜单。Intelligence 测评综合智能,Coding 测代码,Agentic 测 Agent 能力。

Intelligence Index 综合榜前 4,分别是:GPT-5.5 (xhigh) 60 分。Claude Opus 4.7 (max)、GPT-5.4 (xhigh)、Gemini 3.1 Pro Preview 并列 57 分。

V4-Pro Max 档 52 分,综合第 10。

开源模型里 Kimi K2.6 54 分排第 1,V4-Pro Max 第 2。


Coding Index 上 V4-Pro Max 47 分。在这个单项里开源第 1。

前面是 GPT-5.5 (xhigh) 59、GPT-5.4 Codex (xhigh) 57、Gemini 3.1 Pro Preview 56、Claude Opus 4.7 (max) 53。


Agentic Index 上 V4-Pro Max 67 分,与 GLM-5.1 和 MiMo V2.5 Pro(小米刚刚发布的新模型)并列。

前面是 GPT-5.5 (xhigh) 74 和 Claude Opus 4.7 (max) 71。


DeepSeek-V4 的 API,涨价了。

V4-Pro:原价输入 12 元/百万 token,输出 24 元。

V4-Flash:输入 1 元,输出 2 元。

但和主流闭源模型对比,依然很有性价比。

GPT-5.5 输出 30 美元。Claude Opus 4.7 输出 25 美元。Gemini 3.1 Pro 输出 12 美元。GPT-5.4 输出 15 美元。

V4-Pro 比 GPT-5.5 便宜 8.6 倍,比 Opus 4.7 便宜 7 倍。

还不止这样。

5 月 5 日前,DeepSeek 官宣 V4-Pro 的 API 限时打 2.5 折。

输入从 12 元降到 3。输出从 24 元降到 6。


Django 联合创始人 Simon Willison 在博客里是这么描述的。

「V4-Flash 是目前最便宜的小模型。V4-Pro 是前沿大模型里最便宜的。」

LiveBench 榜单,V4 的数据目前还没更新,过几天应该就能看到了。

最后还是那句话,「没有最强的模型,只有最适合你的模型。」

上图!


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上映2天破1亿,《消失的人》逆跌夺冠,五一档爆冷,冠军提前诞生

上映2天破1亿,《消失的人》逆跌夺冠,五一档爆冷,冠军提前诞生

电影票房预告片
2026-05-02 23:57:44
晨起喝温水是错的?医生苦劝:不想住进医院,晨起喝水牢记5点

晨起喝温水是错的?医生苦劝:不想住进医院,晨起喝水牢记5点

岐黄传人孙大夫
2026-04-27 16:35:03
夏洛特公主美甲出圈!威廉凯特15周年全家福曝光,冰蓝色美甲少女感拉满

夏洛特公主美甲出圈!威廉凯特15周年全家福曝光,冰蓝色美甲少女感拉满

白宸侃片
2026-05-02 18:17:40
露天吸烟碍着谁,为何总跟烟民过不去?

露天吸烟碍着谁,为何总跟烟民过不去?

稿得轻松
2026-05-02 09:13:29
欧洲带团10年后,我决定戳破那些“中国品牌横扫全球”的粉红泡沫

欧洲带团10年后,我决定戳破那些“中国品牌横扫全球”的粉红泡沫

七分日记
2026-04-29 23:27:20
KD大概率留火箭?伊森称老大哥+申京盼与他合练 休媒致谢全情投入

KD大概率留火箭?伊森称老大哥+申京盼与他合练 休媒致谢全情投入

颜小白的篮球梦
2026-05-03 06:40:45
越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

别人都叫我阿腈
2026-05-03 03:21:11
NPC“小黄鱼”部分互动形式引争议,景区致歉:立即整改

NPC“小黄鱼”部分互动形式引争议,景区致歉:立即整改

界面新闻
2026-05-02 14:27:10
差价5000元!中越边境爆发走私潮,顶风作案月入千万?

差价5000元!中越边境爆发走私潮,顶风作案月入千万?

上视韬说
2026-04-30 23:30:04
罗翔:如果一个人突然努力工作,业余时间开始学习,不再参加社交活动,那么,身边的人可能不仅不会帮他,还会拉他下来,原因就一个!

罗翔:如果一个人突然努力工作,业余时间开始学习,不再参加社交活动,那么,身边的人可能不仅不会帮他,还会拉他下来,原因就一个!

谭老师地理大课堂
2026-04-22 00:03:57
青岛出局揪出头号罪人!超级外援2战17中3成拖累,刘维伟被坑惨了

青岛出局揪出头号罪人!超级外援2战17中3成拖累,刘维伟被坑惨了

老叶评球
2026-05-03 10:16:22
恐遭追罚 22岁海港国脚染红后怒斥第4官员 对海牛球迷爆粗+遭捂嘴

恐遭追罚 22岁海港国脚染红后怒斥第4官员 对海牛球迷爆粗+遭捂嘴

我爱英超
2026-05-02 23:13:12
“崩老头”现象:00后如何收割中年男性

“崩老头”现象:00后如何收割中年男性

流苏晚晴
2026-04-25 16:31:35
伊朗给全球上了一课,世界军事排名,将更新!

伊朗给全球上了一课,世界军事排名,将更新!

深度报
2026-04-30 22:47:56
日本采购的俄罗斯原油将于2日抵达

日本采购的俄罗斯原油将于2日抵达

财联社
2026-05-02 10:30:15
世乒赛战报:松岛辉空3-0终结两连败!18-20,国乒男单两连败了

世乒赛战报:松岛辉空3-0终结两连败!18-20,国乒男单两连败了

求球不落谛
2026-05-03 04:57:59
林徽因的绝美字迹,远胜现代书法家。她除了多情,更是一代才女!

林徽因的绝美字迹,远胜现代书法家。她除了多情,更是一代才女!

云霄纪史观
2026-05-01 19:32:13
美国一查中国家底,吓得倒吸凉气!特朗普说话都客气了不少

美国一查中国家底,吓得倒吸凉气!特朗普说话都客气了不少

薛小荣
2026-05-02 22:20:09
收获满满,奥斯卡晒职业生涯奖杯大合影,包括懂球帝中超MVP

收获满满,奥斯卡晒职业生涯奖杯大合影,包括懂球帝中超MVP

懂球帝
2026-05-03 04:54:10
中华第一舰退役了,艰苦的时代过去了,彻底远离我们了

中华第一舰退役了,艰苦的时代过去了,彻底远离我们了

我叫汤姆
2026-05-02 12:19:23
2026-05-03 11:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3097298文章数 7089关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

房产
数码
游戏
本地
公开课

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

数码要闻

彻底没了!苹果官网下架256GB版Mac mini,起售价变更为5999元

《英雄无敌:上古纪元》两天发布两个补丁

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版