网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

见证历史！DeepSeek跃居全球第二AI实验室，R1登顶开源王座，R2全网催更

2025-05-30 10:16:14　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：犀牛桃子

【新智元导读】昨晚，终于等到了DeepSeek-R1-0528官宣。升级后的模型性能直逼o3和Gemini 2.5 Pro。如今，DeepSeek真正坐实了全球开源王者的称号，并成为了第二大AI实验室。

昨晚，DeepSeek正式官宣R1已完成小版本升级，开启「深度思考」功能即可体验。

在多项基准测试中，DeepSeek-R1-0528的数学、编程、通用逻辑性能，足以媲美最强o3和Gemini 2.5 Pro。

而且，它还成为国内首屈一指的开源模型，全面超越Qwen3-235B。

除了性能刷新SOTA，此次R1的更新，还体现在了其他三方面：

前端代码生成能力增强
幻觉率降低45%-50%
支持JSON输出和函数调用

不仅如此，DeepSeek官方基于Qwen3-8B Base微调了更强版本——DeepSeek-R1-0528-Qwen3-8B。

这款8B模型在AIME 2024上，性能仅次于DeepSeek-R1-0528，甚至可与Qwen3-235B-thinking一较高下。

如今，DeepSeek不仅稳坐世界开源头把交椅，而且还成为了全球第二大AI实验室。

DeepSeek-R1迭代后推理更强，不过已有网友迫不及待催更R2了。

DeepSeek-R1数学编程更强了

HF模型卡中，DeepSeek具体公布了模型的更多的细节和性能对比。

DeepSeek-R1-0528是以DeepSeek V3 Base（2024年12月）为基座进行训练。

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

在后训练阶段，R1投入了更多计算资源，并引入了算法优化机制，显著提升了模型的思维深度与推理能力。

如上所述，在数学、编程、通用逻辑等多项基准测试中，DeepSeek-R1展现出卓越的性能。

相较于上一代，0528版本在处理复杂推理任务方面取得了显著进步。比如，在AIME 2025测试中，R1准确率从70%提升到87.5%。

这一性能的提升，源于推理过程中思维深度的增强。

在AIME测试集中，DeepSeek-R1平均每个问题消耗12K token，而DeepSeek-R1-0528平均每个问题使用23K token。

在外部多语言Aider基准测试，结果显示，DeepSeek-R1-0528达到了与Claude 4 Opus相当的水平，Pass@2得分为70.7%。

幻觉率暴减50%

此前，有很多报道分析称，DeepSeek-R1虽比V3强，但幻觉率极高。

根据Vectara的测试，DeepSeek-R1幻觉率高达14.3%，比o3高出不少。

这一次，经过优化，与初代相比，DeepSeek-R1-0528的幻觉率降低了45%-50%。

尤其是，在改写润色、总结摘要、阅读理解等场景中，新模型能提供更加准确、可靠的结果。

而且，DeepSeek-R1还专门针对论文、小说、散文等问题，进行了进一步优化。

由此，它能够输出篇幅更长、结构内容更完整的长篇大作，更加贴近人类偏好的写作风格。

艾伦研究所Nathan Lambert通过实验发现，R1-0528在编译智能体基准上，表现非常稳健。

支持工具调用

值得一提的是，DeepSeek-R1-0528还可以支持工具调用。

比如，让它总结一篇文章，附上一个链接后，模型会主动调用爬虫插件获取网页内容，然后进行总结。

它在Tau-Bench的测评成绩为airline 53.5%/retail 63.9%，与o1-high性能相当，但与o3-High、Claude 4 Sonnet仍有一定的差距。

图源：DeepSeek

在前端代码生成、角色扮演等方面，DeepSeek-R1-0528能力得到了进一步提升。

比如，制作一张英文单词的复习卡片应用，短短几分钟，一个完整的APP就呈现了，包括复习卡片、搜索卡片、学习统计、创建卡片基本功能一应俱全。

而且，DeepSeek-R1函数调用支持增强，还为氛围编程（vibe coding）提供了更流畅的体验。

图源：DeepSeek

DeepSeek蒸馏版Qwen3-8B来了

在R1更新升级的同时，DeepSeek还蒸馏了DeepSeek-R1-0528的思维链，然后训练了Qwen3-8B Base，最后得到了DeepSeek-R1-0528-Qwen3-8B。

DeepSeek表示，DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。

DeepSeek-R1-0528-Qwen3-8B模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528，超越Qwen3-8B（+10.0%），与Qwen3-235B相当。

这个结果还是挺夸张的，毕竟与Qwen3-235B相比，8B的模型在参数上相差将近30倍。

同时DeepSeek-R1-0528-Qwen3-8B的数学性能也强于最近的Phi-4 14B。

DeepSeek-R1-0528-Qwen3-8B等开源模型的AIME 2024对比结果

在数学性能上，DeepSeek-R1-0528-Qwen3-8B甚至超越了Gemini-2.5-Flash。

DeepSeek-R1-0528-Qwen3-8B等不同模型在多个基准测试中的性能

目前，这款8B蒸馏模型也已同步在Hugging Face上开源。

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

全球第二大AI实验室

荣光属于DeepSeek

就在DeepSeek R1更新后不久，独立AI分析网站Artificial Analysis发帖表示，DeepSeek的R1强势超越xAI、Meta和Anthropic。

这使得DeepSeek一跃成为全球第二大AI实验室，并无可争议的成为开源模型的领导者。

DeepSeek-R1-0528在智能指数中从60分跃升至68分，提升幅度与OpenAI的o1到o3（62分到70分）进步相当。

这使得DeepSeek R1的智能水平超过了xAI的Grok 3 mini（High）、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里的Qwen 3 253B，与谷歌的Gemini 2.5 Pro并驾齐驱。

这些进步给AI领域带来了不少的启示：

开源与闭源模型差距缩小：DeepSeek今年1月的R1发布首次让开源模型登上第二位，这次的R1更新再次巩固了这一地位。
中国与美国AI并驾齐驱：来自中国AI实验室的模型几乎完全赶上了美国。目前，DeepSeek在人工智能分析智能指数中领先于美国AI实验室如Anthropic和Meta。
强化学习驱动进步：DeepSeek在相同架构和预训练基础上展示了显著的智能提升。这凸显了后训练的重要性，尤其是通过RL技术训练的推理模型。OpenAI披露o1到o3的RL计算规模扩大了10倍——DeepSeek证明了他们目前能跟上OpenAI的RL计算扩展。扩展RL比扩展预训练需要的计算资源更少，是实现智能提升的高效方式，更适合GPU较少的AI实验室。

参考资料：

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

https://x.com/deepseek_ai/status/1928061589107900779

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

https://techcrunch.com/2025/05/29/deepseeks-distilled-new-r1-ai-model-can-run-on-a-single-gpu/

https://x.com/ArtificialAnlys/status/1928071179115581671

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Transformer作者：DeepSeek才有搞头，OpenAI指望不上了

量子位 2025-09-12 11:07:58
124 跟贴 124
如何为LLM智能体编写工具？Anthropic官方教程来了

机器之心Pro 2025-09-12 21:50:08
0 跟贴 0

李飞飞最新长文：AI的下一个十年——构建真正具备空间智能的机器

机器之心Pro 2025-11-11 10:11:25
0 跟贴 0

国产大模型硅谷“破圈”：爱彼迎弃ChatGPT选Qwen，Hugging Face下载量超Meta

智东西 2025-11-10 23:35:13
0 跟贴 0
突破LLM遗忘瓶颈，谷歌「嵌套学习」让AI像人脑一样持续进化

机器之心Pro 2025-11-10 10:46:18
3 跟贴 3

又一推理新范式：将LLM自身视作改进操作符，突破长思维链极限

机器之心Pro 2025-10-04 18:35:49
0 跟贴 0

智能体驱动：企业从“界面操作”到“智能助力”的必然路径

钛媒体APP 2025-10-20 16:40:12
0 跟贴 0
从被群嘲到顶级玩家，阿里AI逆袭之路

华商韬略 2025-07-28 17:27:23
0 跟贴 0

波士顿机器狗练成“轻功”！连续七个后空翻

量子位 2025-09-07 01:03:18
0 跟贴 0
藤校拒了又怎样？18岁天才少年打造爆款AI年入2亿

新智元 2025-11-09 09:19:31
16 跟贴 16
机器人“会用手”了！银河通用首破手掌任意朝向旋转难题

量子位 2025-11-11 11:13:20
0 跟贴 0
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
机器狗被锯腿也能继续走，Skild Brain估值45亿美元

量子位 2025-09-27 17:49:32
0 跟贴 0
李飞飞发起机器人家务挑战赛，老黄第一时间批钱赞助

量子位 2025-10-13 09:30:54
0 跟贴 0
五八智能四足机器人平台Q20A 不止跑跳整活还能维护公共安全

量子位 2025-09-30 10:01:00
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
Utopai联手LG、中东主权基金加码韩娱，新模型颠覆AI视频格局！

机器之心Pro 2025-11-10 14:21:07
0 跟贴 0
AI重塑人机交互方式，下一代终端如何变革？

量子位 2025-09-24 20:17:01
0 跟贴 0
机器人终于有自己的真机评测大考了

量子位 2025-10-15 20:05:44
0 跟贴 0
机器狗跳千手观音，波士顿动力达人秀炸场

量子位 2025-06-13 15:55:52
0 跟贴 0
世界模型引擎驱动的具身智能学习新范式

机器之心Pro 2025-10-28 15:45:21
0 跟贴 0
格斗冠军机器人突然发疯！吓呆研究人员

量子位 2025-07-25 09:10:58
0 跟贴 0
一个叫高斯的AI，只用了三周完成强素数定理

量子位 2025-09-20 00:57:38
0 跟贴 0
ChatGPT智能体来了：自己操作电脑干活，接管你的电脑，自动执行各种任务

量子位 2025-07-18 18:08:35
0 跟贴 0
AI for Science驱动科研范式变革，青年科学家能力重构 | 巴伦精选

钛媒体APP 2025-11-11 11:33:13
0 跟贴 0
机器人叠衣，灵巧手抓万物，超实用机器人组合来了

量子位 2025-07-29 03:31:41
0 跟贴 0
学术圈最强AI工具：6.9亿专业文献，“搜读创编”全程辅助

量子位 2025-09-11 18:42:26
0 跟贴 0
机器人首次踢5v5足球赛，摔跤是战术？我们和参赛队员聊了聊

量子位 2025-08-21 10:48:04
0 跟贴 0
物流业deepseek时刻，中国无人车火爆全球

华商韬略 2025-06-17 10:58:23
0 跟贴 0
10个Agent一键组队：并行智能体协作，端到端交付从24h缩减到4h！

新智元 2025-10-04 13:15:17
5 跟贴 5
传统燃油车的架构，伤害性不大侮辱性极强，这点能和电车抗衡！

笑到流泪的囧事馆 2025-11-07 16:34:43
1 跟贴 1
【DeepSeek谈艺】金长虹·中国画丨传统“旧瓶”，盛西部“新酒”

文化视界网 2025-11-10 16:34:38
0 跟贴 0
马斯克Grok 4深夜大升级：200万逆天上下文、五倍GPT-5「脑容量」！

新智元 2025-11-09 11:21:24
3 跟贴 3
LLM Agent的首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图

机器之心Pro 2025-11-10 15:43:07
0 跟贴 0
Vibe Coding的编程之道：当感觉成为一种技术指令

DeepTech深科技 2025-07-28 19:43:28
0 跟贴 0
章丘少年登上全国百分榜！CCF发来贺信

章丘融媒 2025-11-08 10:22:03
0 跟贴 0
外国观众在俄罗斯国歌奏响时拒绝起立

看看新闻Knews 2025-11-10 23:16:02
1861 跟贴 1861
高考16次唐尚珺兼职直播带货当事人回应

极目新闻 2025-11-10 21:51:09
2227 跟贴 2227
人工智能终究替代不了人类

挑灯剪辑 2025-11-08 15:35:44
1 跟贴 1

中国新型发动机突破，推力猛增、油耗大降，将重塑未来空战格局

中国新型发动机突破，推力猛增、油耗大降，将重塑未来空战格局

阿芒娱乐说

2025-11-10 12:05:48

48小时内台当局两大帮手浮出水面，不出中国大陆所料

48小时内台当局两大帮手浮出水面，不出中国大陆所料

王姐懒人家常菜

2025-11-11 11:10:59

还差34场，成历史首人！这就是你该拿总冠军和3亿顶薪的原因

还差34场，成历史首人！这就是你该拿总冠军和3亿顶薪的原因

毒舌NBA

2025-11-10 21:02:16

后悔了？张继科发声，满是遗憾，官宣决定，刘诗雯看懂了

后悔了？张继科发声，满是遗憾，官宣决定，刘诗雯看懂了

乐聊球

2025-11-10 10:06:35

当年为什么查办褚时健？

百晓生谈历史

2025-08-20 21:55:53

女子高铁堵道后续：正脸被扒黑皮胖脸，知情人曝更多恶行，不简单

女子高铁堵道后续：正脸被扒黑皮胖脸，知情人曝更多恶行，不简单

北纬的咖啡豆

2025-11-10 21:50:26

26款凯美瑞已上市！降价增配，豪华感明显升级，全系丰田智驾！

26款凯美瑞已上市！降价增配，豪华感明显升级，全系丰田智驾！

米粒说车唯一呀

2025-11-10 14:32:01

重磅！皇马同意交换交易：利物浦 “水货” 换心仪已久的罗德里戈

重磅！皇马同意交换交易：利物浦 “水货” 换心仪已久的罗德里戈

澜归序

2025-11-10 12:22:19

杭州婚宴翻车了：新娘换装85分钟，22桌宾客走了一半，网友：活该

杭州婚宴翻车了：新娘换装85分钟，22桌宾客走了一半，网友：活该

刘哥谈体育

2025-11-02 14:32:38

泰州把奖状贴在脑门上？别小瞧苏超冠军的含金量

泰州把奖状贴在脑门上？别小瞧苏超冠军的含金量

上观新闻

2025-11-11 11:08:05

广东理发店火出圈！老板娘超短裤配丝袜，披肩长发剪发太吸睛

广东理发店火出圈！老板娘超短裤配丝袜，披肩长发剪发太吸睛

麦小柒

2025-11-10 15:12:01

美女眼科医生和院长视频8月份拍下的，为何如今才曝光

美女眼科医生和院长视频8月份拍下的，为何如今才曝光

诗意世界

2025-11-09 12:44:46

保密工作究竟能有多严格？网友:有着大好未来，一时炫耀前途尽毁

保密工作究竟能有多严格？网友:有着大好未来，一时炫耀前途尽毁

另子维爱读史

2025-11-09 21:40:51

对华关税又推迟，“现在不合适”

对华关税又推迟，“现在不合适”

观察者网

2025-11-11 10:19:32

广西男子建房子遭邻居阻挠，一气之下挖成鱼塘养鱼：等他回来求我

广西男子建房子遭邻居阻挠，一气之下挖成鱼塘养鱼：等他回来求我

唐小糖说情感

2025-10-31 09:04:39

我在部队当了5年通讯兵，退伍发现村后头的信号塔每晚都准时闪3下

我在部队当了5年通讯兵，退伍发现村后头的信号塔每晚都准时闪3下

五元讲堂

2025-11-05 10:35:02

白酒立大功！医生研究发现：糖尿病喝白酒时，或有6种好处！

白酒立大功！医生研究发现：糖尿病喝白酒时，或有6种好处！

游者走天下

2025-11-07 14:29:11

瓜迪奥拉已执教1000场，战绩彪炳史册但仍被诟病，他是否世一帅？

瓜迪奥拉已执教1000场，战绩彪炳史册但仍被诟病，他是否世一帅？

田先生篮球

2025-11-10 09:50:24

高市早苗闯了大祸，日方意识到大事不妙，琉球怕是保不住

高市早苗闯了大祸，日方意识到大事不妙，琉球怕是保不住

星辰故事屋

2025-11-11 10:48:36

谁懂啊，曾医生冲上热搜后，一条“松弛感”睡裙也带火了

谁懂啊，曾医生冲上热搜后，一条“松弛感”睡裙也带火了

尚不红小舒呀

2025-11-10 00:07:07

AI产业主平台领航智能+时代

13838文章数 66241关注度

往期回顾全部

科技要闻

苹果新品惨败，产线拆光、二代搁浅！

头条要闻

53岁独身女子寻"外包儿女"提供陪伴服务：每次两百元

头条要闻

53岁独身女子寻"外包儿女"提供陪伴服务：每次两百元

体育要闻

重返诺坎普！梅西：希望有一天能回来

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO：委外代工模式存疑

汽车要闻

盈利"大考"，汽车智能化企业的中场战事

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

手机

游戏

本地

公开课

房产要闻

封关倒计时！三亚主城 2.3 万 /㎡+ 即买即住，手慢无！

手机要闻

荣耀 400 系列全球发货量突破 600 万台

IGN试玩开放世界大作：十分享受在游戏中的时光

本地新闻

这届干饭人，已经把博物馆吃成了食堂

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版