网易首页 > 网易号 > 正文 申请入驻

DeepSeek-R1 “小更新”:靠后训练改进就能榨出如此多潜力

0
分享至

深度求索(DeepSeek)宣布其 DeepSeek-R1 模型已完成一次重要的小版本升级,最新版本号为 DeepSeek-R1-0528。根据官方报告,此次更新显著提升了模型的思维深度与推理能力,并在多个基准测评中取得了国内领先的成绩。用户现已可通过官方网站、APP 或小程序开启“深度思考”功能体验新版模型,API 也已同步更新。

1

深度思考与推理能力显著增强

据官方介绍,DeepSeek-R1-0528 依然基于2024年12月发布的 DeepSeek V3 Base 模型构建。

然而,在后训练阶段,团队投入了更多算力,使得模型在数学、编程及通用逻辑等方面的表现得到大幅优化。

更新后的 R1 模型在多项基准测评中表现优异,成绩在国内同类模型中名列前茅。官方信息指出,其整体表现已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。开源继续紧逼顶尖闭源模型。

一个显著的例子是在 AIME 2025(美国数学邀请赛)测试中,新版模型的准确率从旧版的 70% 大幅提升至 87.5%。官方将这一进步归因于模型在推理过程中思维深度的增强。数据显示,在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型则平均使用 23K tokens,表明其在解题时进行了更为详尽和深入的思考。这种“更长的思考时间”换取更高准确性的策略,也成为社区讨论的一个特点。

此外,深度求索团队还将 DeepSeek-R1-0528 的思维链蒸馏后训练了 Qwen3-8B Base 模型,得到了 DeepSeek-R1-0528-Qwen3-8B。这个8B参数量的模型在数学测试 AIME 2024 中的表现仅次于 DeepSeek-R1-0528,超越了原版 Qwen3-8B(提升10.0%),并与拥有235B参数量的 Qwen3-235B 表现相当。

深度求索认为,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。在R1最初发布时,这就是DeepSeek想要证明的技术趋势之一,而这个叫做DeepSeek-R1-0528-Qwen3-8B的小模型,是最新的证明。该模型最核心的技术亮点在于成功地将 DeepSeek-R1-0528 这种超大规模模型的复杂“思维链”(Chain of Thought, CoT)蒸馏到一个仅有8B参数量的 Qwen3-8B 基座模型上。结果显示,蒸馏后的8B模型在极具挑战性的AIME数学竞赛中取得了超越原版Qwen3-8B达10%的成绩,甚至达到了与235B参数量的Qwen3-235B相当的水平。这强有力地证明了高质量思维链对于提升小模型推理能力的巨大潜力,以及蒸馏技术在传递这种高级认知能力方面的有效性。这一成果会继续打破“唯参数论”的迷思,它展示了通过先进的训练方法(如思维链蒸馏),小参数模型完全有可能在特定复杂任务上达到或接近远超其参数规模的大模型的性能水平。这对于算力受限、追求更高效率和更低部署成本的场景具有极其重要的现实意义。

当然,它也是DeepSeek最好的广告,会有更多模型用它来做蒸馏。

DeepSeek-R1-0528 的发布迅速引起了国内外技术社区和分析机构的关注。根据AI评测机构 Artificial Analysis 的报告,新版 DeepSeek R1 的“智慧指数”从60分跃升至68分,这一成绩使其超越了 xAI、Meta、Anthropic 等公司的模型,与 Google Gemini 2.5 Pro 并列全球第二梯队,仅次于 OpenAI 的部分顶尖模型(如 o3 及 o4.mini 高阶版),成为开源模型领域的有力竞争者。

多家评测指出,DeepSeek-R1-0528 的进步主要体现在其核心的推理和编码能力上。

例如,在著名代码测试平台 LiveCodeBench 的早期测试中,新版 R1 展现出与 OpenAI 最新 o3 高版本模型相媲美的表现。Analytics Vidhya 等分析机构也认为,R1-0528 作为开源模型,在数学(如AIME测试中接近OpenAI o3水平)、通用推理(GPQA Diamond)和编码能力上,已经成为 Gemini 2.5 Pro 的有力挑战者,并在性价比方面展现出显著优势,其性能表现接近 Claude 级别,而成本则低数倍。

分析普遍认为,DeepSeek R1 的此次迭代,并非单纯依赖模型参数规模的扩大,而更多是通过改进后训练策略,投入更多算力进行深度优化,从而实现了性能的跃升。尽管新模型在执行复杂任务时可能消耗更多 tokens(即“思考”时间更长),但这通常被视为换取更高准确性和更深度思考的合理代价。同时,相较于某些同级别模型,其在完成特定评测任务时的总 token 消耗量仍具有竞争力。

1

其他关键能力提升

除了核心的推理能力,新版 DeepSeek-R1 在以下方面也获得了改进:

  • 幻觉改善:针对大模型常见的“幻觉”问题,新版 R1 进行了优化。在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了约45%至50%,能提供更准确可靠的输出。此前DeepSeek系列模型最为人诟病的问题就是幻觉,此前在Vectara HHEM人工智能幻觉测试——行业权威测试,通过检测语言模型生成内容是否与原始证据一致,从而评估模型的幻觉率,帮助优化和选择模型——中,DeepSeek-R1显示出14.3%的幻觉率,这不仅是 DeepSeek-V3的近4倍,也远超行业平均水平。此次根据官方的数据,幻觉问题得到了很大的改善。这对于这款模型继续进入更深的生产场景至关重要。

  • 创意写作:模型在议论文、小说、散文等文体的创作能力上得到进一步优化,能够生成篇幅更长、结构内容更完整的作品,写作风格也更贴近人类偏好。据不少评测,曾经R1张口就来的“量子纠缠”文风,得到了改进。

  • 工具调用:DeepSeek-R1-0528 现已支持工具调用功能(但在“thinking”过程中不支持)。目前,该模型在 Tau-Bench 测评中的成绩为 airline 53.5% / retail 63.9%,与 OpenAI o1-high 水平相当,但与 o3-High 及 Claude 4 Sonnet 相比仍有一定差距。官方展示了通过 LobeChat 调用 R1 模型进行网页文章总结的示例。

  • 其他领域:模型在前端代码生成(如示例中的单词卡片应用)、角色扮演等方面的能力也得到了更新和提升。

API 更新详情

伴随模型升级,API 也已同步更新,接口与调用方式保持不变。新版 R1 API 不仅继续支持查看模型思考过程,还新增了对 Function Calling 和 JsonOutput 的支持。

值得注意的是,max_tokens 参数的含义在新版 API 中有所调整。现在,该参数用于限制模型单次输出的总长度(包括思考过程),默认值为 32K tokens,最大可支持 64K tokens。API 用户需及时调整此参数,以防输出内容被提前截断。

官方网站、小程序、App 端和 API 中的模型上下文长度目前仍为 64K。对于需要更长上下文的用户,可以通过其他第三方平台调用开源版本的 R1-0528 模型,该版本支持 128K 的上下文长度。

1

模型开源信息

DeepSeek-R1-0528 与之前的 DeepSeek-R1 使用相同的基座模型,主要改进在于后训练方法。对于私有化部署的用户,仅需更新 checkpoint 和 tokenizer_config.json 文件(主要涉及工具调用相关变动)。

模型参数量为 685B(其中 14B 为 MTP 层)。开源版本的上下文长度为 128K。模型权重已在 Model Scope 和 Hugging Face 等平台开放下载:

  • Model Scope: https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528

  • Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

与以往版本一致,此次 DeepSeek-R1 的开源仓库(包括模型权重)继续采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

DeepSeek-R1-0528 的发布,被DeepSeek称为小版本更新,但解决的问题样样关键,而且此次更新也反映出,通过精心的后训练和算力投入,即使基于现有基座模型,也能实现性能的显著飞跃。这可能是更重要的思路,也让人继续对DeepSeek下一个真正的大更新继续充满好奇。

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
记者:申花引援工作在按计划推进,不排除冬训期间出现新面孔

记者:申花引援工作在按计划推进,不排除冬训期间出现新面孔

懂球帝
2026-01-07 11:38:47
浙江两座海岛挂牌出让 3.7万当岛主

浙江两座海岛挂牌出让 3.7万当岛主

大象新闻
2026-01-06 13:25:12
一个人最聪明的活法:三拒绝!(必看)

一个人最聪明的活法:三拒绝!(必看)

诗词中国
2025-12-27 21:10:47
遭中方谴责后,马斯克星链降轨70公里!更逼近空间站,到底想干啥

遭中方谴责后,马斯克星链降轨70公里!更逼近空间站,到底想干啥

铁锤简科
2026-01-05 15:30:14
保洪忠:云南省政协原副主席,云南省人大常委会原副主任

保洪忠:云南省政协原副主席,云南省人大常委会原副主任

艾米手工作品
2026-01-07 13:32:45
CBA拿到10000分有多难?31年来历史仅5人,王治郅差312分,姚易呢

CBA拿到10000分有多难?31年来历史仅5人,王治郅差312分,姚易呢

兵哥篮球故事
2026-01-07 11:09:47
钱再多有什么用?79岁身家525亿的特朗普,给所有中老年人提了醒

钱再多有什么用?79岁身家525亿的特朗普,给所有中老年人提了醒

墨印斋
2026-01-07 15:02:33
记者:新冠期间迭戈-科斯塔曾对着我的脸咳嗽,两天后我阳了

记者:新冠期间迭戈-科斯塔曾对着我的脸咳嗽,两天后我阳了

懂球帝
2026-01-07 17:17:10
央国企开始下狠手了:从内退到息岗,铁饭碗全面破碎!

央国企开始下狠手了:从内退到息岗,铁饭碗全面破碎!

黯泉
2026-01-03 22:50:30
血的教训!美军突袭委内瑞拉:多亏这套系统,解放军却从未装备?

血的教训!美军突袭委内瑞拉:多亏这套系统,解放军却从未装备?

荷兰豆爱健康
2026-01-07 02:19:53
陈家政、约克踩线了吗?CBA裁判专家:业余的裁判,业余的联赛

陈家政、约克踩线了吗?CBA裁判专家:业余的裁判,业余的联赛

体育哲人
2026-01-06 20:42:53
单换于米提?广东队迎来补强机会,朱芳雨有望“2换1”报价山西

单换于米提?广东队迎来补强机会,朱芳雨有望“2换1”报价山西

绯雨儿
2026-01-07 13:44:30
军长叫来500士兵砸场,警察局长吓得直冒冷汗,起因竟是一个杯子

军长叫来500士兵砸场,警察局长吓得直冒冷汗,起因竟是一个杯子

朝暮书屋
2024-04-26 17:08:50
国米新星涨疯了,老将身价跳水,俱乐部算盘打得精

国米新星涨疯了,老将身价跳水,俱乐部算盘打得精

不凡体育
2026-01-07 14:54:37
33年前,毛阿敏唱了一首童谣,将中国绝密军事基地暴露给了全世界

33年前,毛阿敏唱了一首童谣,将中国绝密军事基地暴露给了全世界

素衣读史
2026-01-07 15:56:37
《生死钟声》开播,更新3集不够看,让人熬夜狂追

《生死钟声》开播,更新3集不够看,让人熬夜狂追

探长影视解说
2026-01-07 15:20:29
微信通话弹窗,终于变了!

微信通话弹窗,终于变了!

全是技能
2026-01-07 15:19:33
震惊排坛!朱婷或离开意甲冠军队,欧洲豪门邀约不断,引球迷热议

震惊排坛!朱婷或离开意甲冠军队,欧洲豪门邀约不断,引球迷热议

篮球看比赛
2026-01-07 12:28:09
1949年中英冲突发生后,丘吉尔欲派遣航母以武力报复中国,毛泽东对此质问:你报复什么?

1949年中英冲突发生后,丘吉尔欲派遣航母以武力报复中国,毛泽东对此质问:你报复什么?

史海孤雁
2026-01-05 13:43:12
被司晓迪点名后,“一言不发”的张一山,终不再顾及所谓的体面

被司晓迪点名后,“一言不发”的张一山,终不再顾及所谓的体面

查尔菲的笔记
2026-01-05 20:53:02
2026-01-07 18:04:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2773文章数 10425关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

旅游
数码
时尚
教育
游戏

旅游要闻

安徽省怀远县白乳泉新年游园会暨2026年文商旅促消费活动圆满收官

数码要闻

乐奇Rokid亮相CES 2026,AI+AR眼镜引领人机交互新时代

看起来很好亲的唇,能养出来?

教育要闻

小学数学,巧求面积!

18年了还没凉!《超越善恶2》2026年最新动态曝光

无障碍浏览 进入关怀版