网易首页 > 网易号 > 正文 申请入驻

DeepSeek新版R1模型实际性能如何?第三方评测来了

0
分享至

5月29日,DeepSeek(深度求索)时隔四个月发布R1模型的升级版本。中文大模型权威测评机构SuperCLUE于6月4日发布的结果显示,新版R1模型的总体表现比旧版有所提升,超过OpenAI的o3模型,但相比于o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06等模型仍有一定差距。

据DeepSeek介绍,更新后的DeepSeek-R1-0528模型,仍然使用2024年12月所发布的DeepSeek V3模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。当前国内所有模型中,R1模型升级版在数学、编程与通用逻辑等多个基准测评中取得领先,并且整体表现上已接近o3与 Gemini-2.5-Pro等国际顶尖模型。

DeepSeek还指出,相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在衡量数学推理能力的AIME 2025测试中,新版模型准确率由旧版的 70% 提升至 87.5%。

SuperCLUE的测评结果显示,新版R1模型在榜单上超过o3,居于第四位,总分63.55,比旧版R1提升1.61分。相比之下,o4-mini(high)在被测模型中得分最高,为70.51分;Gemini 2.5 Pro preview 05-06为66.48分,居第二。

此外,R1模型新版本的指令遵循能力显著提升,得分为48.46,比旧版R1高17.09分,但相比于国际顶尖模型o3(66.95分)和o4-mini(high)(68.07分)仍有较大差距。

测评结果还发现,新版R1模型的平均输出长度显著增加,但推理能力比旧版R1低1.7分。推理任务总分由数学推理、科学推理、代码三个任务得分的平均值决定,新版R1和旧版R1主要差距在数学和科学推理任务上,代码任务上表现更优。

此前,DeepSeek更新R1模型时提到,新版R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%-50%左右,能够有效地提供更为准确、可靠的结果。

SuperCLUE于6月5日发布的另一份测评结果显示,新版R1模型的中文幻觉率降低至13.86%,下降7.16个百分点,但与模型幻觉率指标上表现最好的豆包doubao-1.5-pro-32k模型仍有较大差距,后者的幻觉率仅为4.11%。此外,文本摘要和阅读理解任务上的幻觉率优化程度最为显著,分别降低9.27%和14.49%。

采写:南都记者 杨柳

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美光CEO再次暗讽苹果:低价采购是造成内存短缺的关键

美光CEO再次暗讽苹果:低价采购是造成内存短缺的关键

财联社
2026-07-02 10:44:28
63岁句号近况曝光!二婚娶小11岁丫蛋低调生女,如今幸福圆满

63岁句号近况曝光!二婚娶小11岁丫蛋低调生女,如今幸福圆满

落雪听梅a
2026-06-29 20:03:38
巴图在直播间给英达九十度鞠躬,客客气气喊了声“英老师”

巴图在直播间给英达九十度鞠躬,客客气气喊了声“英老师”

乡野小珥
2026-07-02 10:27:27
顶配99万!能共情会陪伴,仿生机器人男友值得买吗?

顶配99万!能共情会陪伴,仿生机器人男友值得买吗?

魏家东
2026-07-01 13:30:37
解放军首次官宣六代机,美军绝望,中国六代机歼36离服役不远了!

解放军首次官宣六代机,美军绝望,中国六代机歼36离服役不远了!

胖福的小木屋
2026-06-30 23:32:12
法拉利被4孩童划损 ,3家已道歉,车主将对未出面1家继续追究

法拉利被4孩童划损 ,3家已道歉,车主将对未出面1家继续追究

大象新闻
2026-07-02 10:45:04
许世友拒当副旅长,刘伯承犯难,徐向前:你没告诉他旅长是谁?

许世友拒当副旅长,刘伯承犯难,徐向前:你没告诉他旅长是谁?

芊芊子吟
2026-06-28 09:35:12
我们有太多的不能说,​就像语言的难民,​流亡在自己的母语世界

我们有太多的不能说,​就像语言的难民,​流亡在自己的母语世界

律法刑道
2026-06-29 15:09:54
陕西省妇女书画协会原主席、著名女画家张臻逝世

陕西省妇女书画协会原主席、著名女画家张臻逝世

大风新闻
2026-07-02 09:48:02
广州长隆一角马争领地撞翻“同事”,长颈鹿淡定围观,园方回应:正全力救治

广州长隆一角马争领地撞翻“同事”,长颈鹿淡定围观,园方回应:正全力救治

上游新闻
2026-07-02 12:38:26
哈梅内伊国葬,数十国官员将出席,莫迪去不成,中方行动说明一切

哈梅内伊国葬,数十国官员将出席,莫迪去不成,中方行动说明一切

小小科普员
2026-07-01 16:05:16
大家提前做好准备,如果一切正常,26年7月开始,国内恐出5大趋势

大家提前做好准备,如果一切正常,26年7月开始,国内恐出5大趋势

巢客HOME
2026-07-01 09:30:05
央媒,集体放弃施琅?

央媒,集体放弃施琅?

人间颂
2026-07-01 12:10:26
全市场:马拉多纳2018年预言美加墨世界杯,为广告搞出4节

全市场:马拉多纳2018年预言美加墨世界杯,为广告搞出4节

懂球帝
2026-07-01 15:28:07
WTT大满贯战报:再爆大冷国乒3单不敌日本5单,国乒男单5人出局了

WTT大满贯战报:再爆大冷国乒3单不敌日本5单,国乒男单5人出局了

求球不落谛
2026-07-02 10:33:07
“美帝”没救成欧洲,美的救了!美的空调绕开3国法律,巨头懵了

“美帝”没救成欧洲,美的救了!美的空调绕开3国法律,巨头懵了

墨兰史书
2026-06-30 20:30:03
教师大势已定?不出意外的话,今明年教师行业将迎来3大转变

教师大势已定?不出意外的话,今明年教师行业将迎来3大转变

侃故事的阿庆
2026-07-01 19:49:39
江苏跳河救人女子找到!央视点名当地表彰,职业曝光,让人更敬佩

江苏跳河救人女子找到!央视点名当地表彰,职业曝光,让人更敬佩

南宗历史
2026-07-02 10:07:28
两头相逼,白俄问计!

两头相逼,白俄问计!

家传编辑部
2026-07-02 12:29:35
5天一到,解放军准时封海,特朗普没想到,中方拒绝给31国留面子

5天一到,解放军准时封海,特朗普没想到,中方拒绝给31国留面子

万物知识圈
2026-07-02 09:29:05
2026-07-02 14:59:00
南方都市报 incentive-icons
南方都市报
换一种方式,南都在现场。
619894文章数 3589392关注度
往期回顾 全部

科技要闻

奥特曼的新算盘:给白宫5%股权 换政策绿灯

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

本地
教育
数码
手机
公开课

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

教育要闻

两大名校集团联手,朝阳北部教育大变脸

数码要闻

红魔游戏平板5 PRO评测:RGB水冷灯效 把旗舰游戏体验揣进口袋

手机要闻

iPhone 18 Pro Max电池确认 国行版容量再缩水

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版