网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

见证历史！DeepSeek跃居全球第二AI实验室，R1登顶开源王座，R2全网催更

2025-05-30 10:16:14　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：犀牛桃子

【新智元导读】昨晚，终于等到了DeepSeek-R1-0528官宣。升级后的模型性能直逼o3和Gemini 2.5 Pro。如今，DeepSeek真正坐实了全球开源王者的称号，并成为了第二大AI实验室。

昨晚，DeepSeek正式官宣R1已完成小版本升级，开启「深度思考」功能即可体验。

在多项基准测试中，DeepSeek-R1-0528的数学、编程、通用逻辑性能，足以媲美最强o3和Gemini 2.5 Pro。

而且，它还成为国内首屈一指的开源模型，全面超越Qwen3-235B。

除了性能刷新SOTA，此次R1的更新，还体现在了其他三方面：

前端代码生成能力增强
幻觉率降低45%-50%
支持JSON输出和函数调用

不仅如此，DeepSeek官方基于Qwen3-8B Base微调了更强版本——DeepSeek-R1-0528-Qwen3-8B。

这款8B模型在AIME 2024上，性能仅次于DeepSeek-R1-0528，甚至可与Qwen3-235B-thinking一较高下。

如今，DeepSeek不仅稳坐世界开源头把交椅，而且还成为了全球第二大AI实验室。

DeepSeek-R1迭代后推理更强，不过已有网友迫不及待催更R2了。

DeepSeek-R1数学编程更强了

HF模型卡中，DeepSeek具体公布了模型的更多的细节和性能对比。

DeepSeek-R1-0528是以DeepSeek V3 Base（2024年12月）为基座进行训练。

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

在后训练阶段，R1投入了更多计算资源，并引入了算法优化机制，显著提升了模型的思维深度与推理能力。

如上所述，在数学、编程、通用逻辑等多项基准测试中，DeepSeek-R1展现出卓越的性能。

相较于上一代，0528版本在处理复杂推理任务方面取得了显著进步。比如，在AIME 2025测试中，R1准确率从70%提升到87.5%。

这一性能的提升，源于推理过程中思维深度的增强。

在AIME测试集中，DeepSeek-R1平均每个问题消耗12K token，而DeepSeek-R1-0528平均每个问题使用23K token。

在外部多语言Aider基准测试，结果显示，DeepSeek-R1-0528达到了与Claude 4 Opus相当的水平，Pass@2得分为70.7%。

幻觉率暴减50%

此前，有很多报道分析称，DeepSeek-R1虽比V3强，但幻觉率极高。

根据Vectara的测试，DeepSeek-R1幻觉率高达14.3%，比o3高出不少。

这一次，经过优化，与初代相比，DeepSeek-R1-0528的幻觉率降低了45%-50%。

尤其是，在改写润色、总结摘要、阅读理解等场景中，新模型能提供更加准确、可靠的结果。

而且，DeepSeek-R1还专门针对论文、小说、散文等问题，进行了进一步优化。

由此，它能够输出篇幅更长、结构内容更完整的长篇大作，更加贴近人类偏好的写作风格。

艾伦研究所Nathan Lambert通过实验发现，R1-0528在编译智能体基准上，表现非常稳健。

支持工具调用

值得一提的是，DeepSeek-R1-0528还可以支持工具调用。

比如，让它总结一篇文章，附上一个链接后，模型会主动调用爬虫插件获取网页内容，然后进行总结。

它在Tau-Bench的测评成绩为airline 53.5%/retail 63.9%，与o1-high性能相当，但与o3-High、Claude 4 Sonnet仍有一定的差距。

图源：DeepSeek

在前端代码生成、角色扮演等方面，DeepSeek-R1-0528能力得到了进一步提升。

比如，制作一张英文单词的复习卡片应用，短短几分钟，一个完整的APP就呈现了，包括复习卡片、搜索卡片、学习统计、创建卡片基本功能一应俱全。

而且，DeepSeek-R1函数调用支持增强，还为氛围编程（vibe coding）提供了更流畅的体验。

图源：DeepSeek

DeepSeek蒸馏版Qwen3-8B来了

在R1更新升级的同时，DeepSeek还蒸馏了DeepSeek-R1-0528的思维链，然后训练了Qwen3-8B Base，最后得到了DeepSeek-R1-0528-Qwen3-8B。

DeepSeek表示，DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。

DeepSeek-R1-0528-Qwen3-8B模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528，超越Qwen3-8B（+10.0%），与Qwen3-235B相当。

这个结果还是挺夸张的，毕竟与Qwen3-235B相比，8B的模型在参数上相差将近30倍。

同时DeepSeek-R1-0528-Qwen3-8B的数学性能也强于最近的Phi-4 14B。

DeepSeek-R1-0528-Qwen3-8B等开源模型的AIME 2024对比结果

在数学性能上，DeepSeek-R1-0528-Qwen3-8B甚至超越了Gemini-2.5-Flash。

DeepSeek-R1-0528-Qwen3-8B等不同模型在多个基准测试中的性能

目前，这款8B蒸馏模型也已同步在Hugging Face上开源。

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

全球第二大AI实验室

荣光属于DeepSeek

就在DeepSeek R1更新后不久，独立AI分析网站Artificial Analysis发帖表示，DeepSeek的R1强势超越xAI、Meta和Anthropic。

这使得DeepSeek一跃成为全球第二大AI实验室，并无可争议的成为开源模型的领导者。

DeepSeek-R1-0528在智能指数中从60分跃升至68分，提升幅度与OpenAI的o1到o3（62分到70分）进步相当。

这使得DeepSeek R1的智能水平超过了xAI的Grok 3 mini（High）、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里的Qwen 3 253B，与谷歌的Gemini 2.5 Pro并驾齐驱。

这些进步给AI领域带来了不少的启示：

开源与闭源模型差距缩小：DeepSeek今年1月的R1发布首次让开源模型登上第二位，这次的R1更新再次巩固了这一地位。
中国与美国AI并驾齐驱：来自中国AI实验室的模型几乎完全赶上了美国。目前，DeepSeek在人工智能分析智能指数中领先于美国AI实验室如Anthropic和Meta。
强化学习驱动进步：DeepSeek在相同架构和预训练基础上展示了显著的智能提升。这凸显了后训练的重要性，尤其是通过RL技术训练的推理模型。OpenAI披露o1到o3的RL计算规模扩大了10倍——DeepSeek证明了他们目前能跟上OpenAI的RL计算扩展。扩展RL比扩展预训练需要的计算资源更少，是实现智能提升的高效方式，更适合GPU较少的AI实验室。

参考资料：

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

https://x.com/deepseek_ai/status/1928061589107900779

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

https://techcrunch.com/2025/05/29/deepseeks-distilled-new-r1-ai-model-can-run-on-a-single-gpu/

https://x.com/ArtificialAnlys/status/1928071179115581671

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

网友拍到棕头鸦雀投喂杜鹃，面对比自己还大的“宝宝”丝毫没觉得不对

南阳日报 2026-07-14 18:37:10
431 跟贴 431
乌军公布视频：无人艇抢滩登陆成功，机器人自主下船登上俄控海岸

红星新闻 2026-07-14 18:58:17
14807 跟贴 14807

亚马尔"九擒"姆巴佩 1.5亿奥利塞20次丢失球权0过人

澎湃新闻 2026-07-15 11:28:35
2537 跟贴 2537

温州“明珠七号”邮轮突然大幅倾斜，超2亿元打造却闲置14年；涉事公司回应：相关部门迅速到场开展处置工作，详细原因正进一步调查中

荔枝新闻 2026-07-15 11:13:02
1739 跟贴 1739
“消失”的人工客服，一个电话就能解决的事，为何把人逼到“走投无路”？

都市快报橙柿互动 2026-07-15 00:20:32
935 跟贴 935

张雪称无人驾驶摩托车车主已找到

潇湘晨报 2026-07-15 10:56:53
3081 跟贴 3081

法国队0:2负于西班牙队遗憾止步决赛门前马克龙发声

环球网 2026-07-15 08:47:48
952 跟贴 952
一辆特斯拉到底能开多少年？特斯拉官方回应

齐鲁壹点 2026-07-14 17:24:53
1544 跟贴 1544

拜登儿子：我“百分之百”会竞选美国总统

极目新闻 2026-07-14 17:41:21
458 跟贴 458
2026年6月份70个大中城市商品住宅销售价格变动情况

国家统计局 2026-07-15 09:33:23
223 跟贴 223
欧盟，竟连一只鸭子都不放过？

极目新闻 2026-07-15 08:49:17
241 跟贴 241
巴黎多处知名景点：缩短开放时间；有中国游客透露：高温影响行程，改成瞎溜达

南方都市报 2026-07-14 20:05:15
1267 跟贴 1267
沪深两市成交额突破1万亿较上一日此时放量超1500亿

财联社 2026-07-15 10:29:03
8 跟贴 8
午评：科创50指数半日跌3.67%

财联社 2026-07-15 11:36:01
283 跟贴 283
杜兰特：不清楚老詹会去哪支球队只知道他定能延续高水平发挥

北青网-北京青年报 2026-07-15 14:30:05
2 跟贴 2
凯斯勒：湖人球队氛围非常棒大家甚至自发组织了合练

北青网-北京青年报 2026-07-15 14:30:04
1 跟贴 1
杭州多家牛New寿喜烧店新规：进店需存包，外带一瓶收10元

齐鲁壹点 2026-07-15 11:38:15
5 跟贴 5
微信治理“恶意挑动对立情绪”内容，处置相关违规内容4328条

齐鲁壹点 2026-07-15 15:11:19
0 跟贴 0
一身单衣两瓶水，就敢夜爬东灵山？三个月15起山岳救援敲响警钟

新京报 2026-07-15 15:11:43
0 跟贴 0
辽宁一劳斯莱斯车胎被鸟筑巢下蛋，车主准备暂停用车，装摄像头记录孵化过程

洪观新闻 2026-07-15 15:14:55
0 跟贴 0
续杯不成变暴力！女顾客揪头发暴打咖啡店老板，被警方立案

奋斗在韩国 2026-07-15 15:17:02
0 跟贴 0

连续3场0球，却场场获评最佳，亚马尔的强：不仅会泡妞，更会踢球

连续3场0球，却场场获评最佳，亚马尔的强：不仅会泡妞，更会踢球

雪谨说个球

2026-07-15 13:00:05

法国0:2！输球不可怕，可怕的是德尚赛后的这番话，真是输不起！

法国0:2！输球不可怕，可怕的是德尚赛后的这番话，真是输不起！

田先生篮球

2026-07-15 06:28:46

金价，暴跌

鲁中晨报

2026-07-14 15:56:02

张俪的脚是我见过最漂亮的脚丫子

张俪的脚是我见过最漂亮的脚丫子

小椰的奶奶

2026-07-15 13:59:45

强盗行径！澳政府史无前例剥夺稀土矿商中资股东权利

强盗行径！澳政府史无前例剥夺稀土矿商中资股东权利

观察者网

2026-07-14 22:33:17

曾赖在中国仁爱礁超27年的菲军老旧登陆舰，如今再也挪不走了！

曾赖在中国仁爱礁超27年的菲军老旧登陆舰，如今再也挪不走了！

说历史的老牢

2026-07-14 13:30:25

头条世界杯｜西班牙对法国三连杀，最强传控让姆巴佩没了脾气

头条世界杯｜西班牙对法国三连杀，最强传控让姆巴佩没了脾气

澎湃新闻

2026-07-15 07:06:28

王思聪带懒懒英国度假！他烫卷发遮不住头秃，懒懒生图“见光死”

王思聪带懒懒英国度假！他烫卷发遮不住头秃，懒懒生图“见光死”

好贤观史记

2026-07-15 11:16:07

《功夫女足》票房破7亿！荒唐的一幕接连出现，不止李诚儒遭殃

《功夫女足》票房破7亿！荒唐的一幕接连出现，不止李诚儒遭殃

TVB的四小花

2026-07-15 04:50:24

一辆特斯拉到底能开多少年？特斯拉官方回应

一辆特斯拉到底能开多少年？特斯拉官方回应

齐鲁壹点

2026-07-14 17:24:53

最后关头，中方交涉失败，日本巡逻船进台海，盟军司令部突然改名

最后关头，中方交涉失败，日本巡逻船进台海，盟军司令部突然改名

流史岁月

2026-07-15 11:21:34

存储芯片龙头，一字跌停！

证券时报

2026-07-15 10:42:09

花游奥运金牌教练贺晓初涉嫌严重违法被查 2024年年底就已经被免职

花游奥运金牌教练贺晓初涉嫌严重违法被查 2024年年底就已经被免职

劲爆体坛

2026-07-15 08:43:02

为啥大陆人到香港最长只能待7天，而日本和英国，能住一个月以上

为啥大陆人到香港最长只能待7天，而日本和英国，能住一个月以上

史之铭

2026-07-15 01:12:09

最新：曝乌克兰攻入俄罗斯领土两地！摧毁通信枢纽

最新：曝乌克兰攻入俄罗斯领土两地！摧毁通信枢纽

项鹏飞

2026-07-14 22:38:49

现在，终于轮到印度怕苹果跑路了，但苹果是真怕了

现在，终于轮到印度怕苹果跑路了，但苹果是真怕了

通鉴史智

2026-07-15 11:38:42

世界杯，谁能夺冠？罗纳尔多给出了自己答案！

世界杯，谁能夺冠？罗纳尔多给出了自己答案！

体育哲人

2026-07-14 18:40:29

蒋方舟“塌房”！深扒：升学全走特殊通道，“天才少女”人设或是笑话

蒋方舟“塌房”！深扒：升学全走特殊通道，“天才少女”人设或是笑话

火山詩话

2026-07-14 14:34:19

太阳每秒烧掉420万吨物质，烧了46亿年，余额还剩99.97%

太阳每秒烧掉420万吨物质，烧了46亿年，余额还剩99.97%

心中的麦田

2026-07-14 22:38:11

辉南县紧急通知：一楼二楼居民立即向三楼以上转移，禁止外出，马上避险！

辉南县紧急通知：一楼二楼居民立即向三楼以上转移，禁止外出，马上避险！

吉刻新闻

2026-07-15 07:38:37

AI产业主平台领航智能+时代

15697文章数 66955关注度

往期回顾全部

科技要闻

估值4800亿！传DeepSeek再融资，明年IPO

头条要闻

法国队又被西班牙上了一课主帅德尚狠拍挡风玻璃泄愤

头条要闻

法国队又被西班牙上了一课主帅德尚狠拍挡风玻璃泄愤

体育要闻

世界杯两大巨星，加一起22岁

娱乐要闻

《雀骨》遭举报，艾米未成年拍亲密戏

财经要闻

上半年GDP同比增长4.7% 新动能快速成长

汽车要闻

三电机890kW+易三方，腾势N8纯电版来了，大五座和六座你怎么选？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

艺术

手机

家居

军事航空

旅游要闻

亚太首秀亮相中国，希尔顿探泊抢占生活方式新机遇

艺术要闻

杭州再添一个普奖得主的作品！核心建筑冲出地平线！

手机要闻

REDMI Note 17 Pro 「小金刚」图赏

家居要闻

2026建博会(广州) 公装联探展交流活动

军事要闻

美军称已恢复对伊朗的海上封锁

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版