网易首页 > 网易号 > 正文 申请入驻

见证历史!DeepSeek跃居全球第二AI实验室,R1登顶开源王座,R2全网催更

0
分享至

新智元报道

编辑:犀牛 桃子

【新智元导读】昨晚,终于等到了DeepSeek-R1-0528官宣。升级后的模型性能直逼o3和Gemini 2.5 Pro。如今,DeepSeek真正坐实了全球开源王者的称号,并成为了第二大AI实验室。

昨晚,DeepSeek正式官宣R1已完成小版本升级,开启「深度思考」功能即可体验。

在多项基准测试中,DeepSeek-R1-0528的数学、编程、通用逻辑性能,足以媲美最强o3和Gemini 2.5 Pro。

而且,它还成为国内首屈一指的开源模型,全面超越Qwen3-235B。

除了性能刷新SOTA,此次R1的更新,还体现在了其他三方面:

  • 前端代码生成能力增强

  • 幻觉率降低45%-50%

  • 支持JSON输出和函数调用

不仅如此,DeepSeek官方基于Qwen3-8B Base微调了更强版本——DeepSeek-R1-0528-Qwen3-8B。

这款8B模型在AIME 2024上,性能仅次于DeepSeek-R1-0528,甚至可与Qwen3-235B-thinking一较高下。

如今,DeepSeek不仅稳坐世界开源头把交椅,而且还成为了全球第二大AI实验室。

DeepSeek-R1迭代后推理更强,不过已有网友迫不及待催更R2了。

DeepSeek-R1数学编程更强了

HF模型卡中,DeepSeek具体公布了模型的更多的细节和性能对比。

DeepSeek-R1-0528是以DeepSeek V3 Base(2024年12月)为基座进行训练。

模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

在后训练阶段,R1投入了更多计算资源,并引入了算法优化机制,显著提升了模型的思维深度与推理能力。

如上所述,在数学、编程、通用逻辑等多项基准测试中,DeepSeek-R1展现出卓越的性能。

相较于上一代,0528版本在处理复杂推理任务方面取得了显著进步。比如,在AIME 2025测试中,R1准确率从70%提升到87.5%。

这一性能的提升,源于推理过程中思维深度的增强。

在AIME测试集中,DeepSeek-R1平均每个问题消耗12K token,而DeepSeek-R1-0528平均每个问题使用23K token。

在外部多语言Aider基准测试,结果显示,DeepSeek-R1-0528达到了与Claude 4 Opus相当的水平,Pass@2得分为70.7%。

幻觉率暴减50%

此前,有很多报道分析称,DeepSeek-R1虽比V3强,但幻觉率极高。

根据Vectara的测试,DeepSeek-R1幻觉率高达14.3%,比o3高出不少。

这一次,经过优化,与初代相比,DeepSeek-R1-0528的幻觉率降低了45%-50%。

尤其是,在改写润色、总结摘要、阅读理解等场景中,新模型能提供更加准确、可靠的结果。

而且,DeepSeek-R1还专门针对论文、小说、散文等问题,进行了进一步优化。

由此,它能够输出篇幅更长、结构内容更完整的长篇大作,更加贴近人类偏好的写作风格。

艾伦研究所Nathan Lambert通过实验发现,R1-0528在编译智能体基准上,表现非常稳健。

支持工具调用

值得一提的是,DeepSeek-R1-0528还可以支持工具调用。

比如,让它总结一篇文章,附上一个链接后,模型会主动调用爬虫插件获取网页内容,然后进行总结。

它在Tau-Bench的测评成绩为airline 53.5%/retail 63.9%,与o1-high性能相当,但与o3-High、Claude 4 Sonnet仍有一定的差距。

图源:DeepSeek

在前端代码生成、角色扮演等方面,DeepSeek-R1-0528能力得到了进一步提升。

比如,制作一张英文单词的复习卡片应用,短短几分钟,一个完整的APP就呈现了,包括复习卡片、搜索卡片、学习统计、创建卡片基本功能一应俱全。

而且,DeepSeek-R1函数调用支持增强,还为氛围编程(vibe coding)提供了更流畅的体验。

图源:DeepSeek

DeepSeek蒸馏版Qwen3-8B来了

在R1更新升级的同时,DeepSeek还蒸馏了DeepSeek-R1-0528的思维链,然后训练了Qwen3-8B Base,最后得到了DeepSeek-R1-0528-Qwen3-8B。

DeepSeek表示,DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。

DeepSeek-R1-0528-Qwen3-8B模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),与Qwen3-235B相当。

这个结果还是挺夸张的,毕竟与Qwen3-235B相比,8B的模型在参数上相差将近30倍。

同时DeepSeek-R1-0528-Qwen3-8B的数学性能也强于最近的Phi-4 14B。

DeepSeek-R1-0528-Qwen3-8B等开源模型的AIME 2024对比结果

在数学性能上,DeepSeek-R1-0528-Qwen3-8B甚至超越了Gemini-2.5-Flash。

DeepSeek-R1-0528-Qwen3-8B等不同模型在多个基准测试中的性能

目前,这款8B蒸馏模型也已同步在Hugging Face上开源。

模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

全球第二大AI实验室

荣光属于DeepSeek

就在DeepSeek R1更新后不久,独立AI分析网站Artificial Analysis发帖表示,DeepSeek的R1强势超越xAI、Meta和Anthropic。

这使得DeepSeek一跃成为全球第二大AI实验室,并无可争议的成为开源模型的领导者。

DeepSeek-R1-0528在智能指数中从60分跃升至68分,提升幅度与OpenAI的o1到o3(62分到70分)进步相当。

这使得DeepSeek R1的智能水平超过了xAI的Grok 3 mini(High)、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里的Qwen 3 253B,与谷歌的Gemini 2.5 Pro并驾齐驱。

这些进步给AI领域带来了不少的启示:

  • 开源与闭源模型差距缩小:DeepSeek今年1月的R1发布首次让开源模型登上第二位,这次的R1更新再次巩固了这一地位。

  • 中国与美国AI并驾齐驱:来自中国AI实验室的模型几乎完全赶上了美国。目前,DeepSeek在人工智能分析智能指数中领先于美国AI实验室如Anthropic和Meta。

  • 强化学习驱动进步:DeepSeek在相同架构和预训练基础上展示了显著的智能提升。这凸显了后训练的重要性,尤其是通过RL技术训练的推理模型。OpenAI披露o1到o3的RL计算规模扩大了10倍——DeepSeek证明了他们目前能跟上OpenAI的RL计算扩展。扩展RL比扩展预训练需要的计算资源更少,是实现智能提升的高效方式,更适合GPU较少的AI实验室。

参考资料:

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

https://x.com/deepseek_ai/status/1928061589107900779

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

https://techcrunch.com/2025/05/29/deepseeks-distilled-new-r1-ai-model-can-run-on-a-single-gpu/

https://x.com/ArtificialAnlys/status/1928071179115581671

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演都不演了!电诈园松口放人前,先提了一个要求,父亲察觉不对劲

演都不演了!电诈园松口放人前,先提了一个要求,父亲察觉不对劲

八斗小先生
2026-04-25 13:55:54
WTA1000马德里站:郑钦文1-2不敌世界第2,止步32强

WTA1000马德里站:郑钦文1-2不敌世界第2,止步32强

侧身凌空斩
2026-04-27 04:31:04
官媒对张颂文称呼变了,五字之差释放强烈信号,家暴传闻早有真相

官媒对张颂文称呼变了,五字之差释放强烈信号,家暴传闻早有真相

老好人的愤怒
2026-04-18 11:37:40
中方要向世界发布,中方解放台海时,参战国等于侵略中方领土

中方要向世界发布,中方解放台海时,参战国等于侵略中方领土

阿七说史
2026-04-27 15:26:31
涉嫌严重违纪违法,金国发被查

涉嫌严重违纪违法,金国发被查

都市快报橙柿互动
2026-04-27 09:13:06
伊朗和美国这仗打下来,最让人意外的不是伊朗扛住了

伊朗和美国这仗打下来,最让人意外的不是伊朗扛住了

叶葉夜
2026-04-27 14:56:13
为救落水父子,26岁大学生冰窟遇难!随身遗物中发现急救包:“他时刻准备着在紧急时刻挺身而出”

为救落水父子,26岁大学生冰窟遇难!随身遗物中发现急救包:“他时刻准备着在紧急时刻挺身而出”

大风新闻
2026-04-27 11:47:19
医学部门变革!中职直接叫停、高职严格管控,医生工资迎来新调整

医学部门变革!中职直接叫停、高职严格管控,医生工资迎来新调整

复转这些年
2026-04-26 18:04:43
就差1秒!特朗普欲发射核武器,军方强行拦截,拒绝为总统扣扳机

就差1秒!特朗普欲发射核武器,军方强行拦截,拒绝为总统扣扳机

瓦伦西亚月亮
2026-04-23 23:09:51
社保严查全面收紧!无数中小企业,正在为十年前的小聪明买单

社保严查全面收紧!无数中小企业,正在为十年前的小聪明买单

芳姐侃社会
2026-04-25 18:32:12
白宫夜宴,华裔女记者火了!

白宫夜宴,华裔女记者火了!

新动察
2026-04-27 11:11:15
不想演了,德总理终于说实话:这场仗没必要打,欧洲不想当冤大头

不想演了,德总理终于说实话:这场仗没必要打,欧洲不想当冤大头

铁锤简科
2026-04-27 16:15:41
一机器人在校运会表演时竟转身抱住旁边女生,被质疑“是否觉醒自主意识”,校方:不是设定,机器人自己搞错了

一机器人在校运会表演时竟转身抱住旁边女生,被质疑“是否觉醒自主意识”,校方:不是设定,机器人自己搞错了

观威海
2026-04-25 18:32:07
难怪美国一点不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

难怪美国一点不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

老谢谈史
2026-04-26 21:27:25
联手C罗?利雅得胜利敲定关键交易,英超巨星将至,冠军稳了

联手C罗?利雅得胜利敲定关键交易,英超巨星将至,冠军稳了

祥谈体育
2026-04-27 11:02:09
全面叫停以贷养贷?官方重拳出手,千万负债年轻人的退路被斩断!

全面叫停以贷养贷?官方重拳出手,千万负债年轻人的退路被斩断!

小陆搞笑日常
2026-04-27 11:05:13
25岁南开大学研究生李一帆确诊癌症,身高1米8长得帅,体重仅70斤

25岁南开大学研究生李一帆确诊癌症,身高1米8长得帅,体重仅70斤

朗威谈星座
2026-04-25 15:11:59
巴基斯坦总统在三一重工看傻眼了!当场喊话:我想带回家!

巴基斯坦总统在三一重工看傻眼了!当场喊话:我想带回家!

奇思妙想生活家
2026-04-27 08:57:25
岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

DS北风
2026-04-23 15:56:17
一位护工的实话:老人不能自理后,养老就结束了,往后全是渡劫

一位护工的实话:老人不能自理后,养老就结束了,往后全是渡劫

吃货的分享
2026-04-27 12:50:05
2026-04-27 17:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15075文章数 66814关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

伊朗:发现15枚美军未爆重型导弹 逆向研发仿制

头条要闻

伊朗:发现15枚美军未爆重型导弹 逆向研发仿制

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

国家发改委:依法禁止外资收购Manus

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

手机
教育
房产
艺术
旅游

手机要闻

最强Mate来了!华为Mate 90最快9月亮相:首发麒麟最强芯

教育要闻

雅思备考风向标来了!新航道《2026雅思考试备考白皮书》重磅发布!

房产要闻

信号!海南商业版图,迎来大变局!

艺术要闻

你绝对想不到,摄影能让她成为女神!

旅游要闻

上海迪士尼游客劝阻吸烟被殴打,警方介入!乐园吸烟区外禁烟

无障碍浏览 进入关怀版