网易首页 > 网易号 > 正文 申请入驻

「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

0
分享至

近日,AI领域迎来了一次重大突破,DeepSeek正式推出了其最新研发的开源推理模型——DeepSeek-R1。这一模型在数学、代码和自然语言推理等关键任务上的表现,已经能够与OpenAI的o1正式版相媲美,引发了AI研究者和从业者的广泛关注。

多阶段训练:创新的模型架构

DeepSeek-R1的训练方式采用了多阶段循环的策略,具体包括基础训练、强化学习(RL)、微调等多个阶段。这种独特的训练方式使得模型在推理能力上有了显著提升。例如,AutoAWQ的作者Casper Hansen指出,DeepSeek-R1通过这种多阶段训练,能够在较少标注数据的情况下,极大提升模型的推理能力。

行业领先的性能表现

DeepSeek-R1的推出,标志着AI行业在推理模型领域的又一次飞跃。UC Berkeley教授Alex Dimakis甚至认为,DeepSeek已经在某些方面处于领先地位,美国公司可能需要迎头赶上。DeepSeek-R1不仅在网页端、App端和API端全面上线,还提供了开源的模型权重,允许用户基于R1训练其他模型,极大地推动了AI技术的普及和应用。

性能对比:超越行业标杆

在性能方面,DeepSeek-R1的表现令人瞩目。与OpenAI的o1-1217、o1-mini以及自家的DeepSeek-V3相比,R1在多个数据集上的表现不相上下,甚至在某些任务上超越了现有模型。此外,DeepSeek-R1还蒸馏出了六个不同参数规模的小模型,包括1.5B、7B、8B、14B、32B和70B版本,这些模型同样完全开源,旨在回馈开源社区,推动AI技术的发展。

开源与性价比:推动行业进步

DeepSeek-R1的开源策略不仅体现在模型权重的开放,还体现在其极具竞争力的API定价上。与OpenAI的API定价相比,DeepSeek-R1的API服务价格仅为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,远低于OpenAI的定价。这种高性价比的策略,无疑将吸引更多开发者和企业使用DeepSeek-R1,进一步推动AI技术的商业化应用。

技术细节:强化学习的创新应用

DeepSeek-R1的技术核心在于其对强化学习的创新应用。开发团队摒弃了传统的监督微调(SFT)作为冷启动的方式,而是通过大规模强化学习直接提升模型的推理能力。这种全新的思路不仅降低了训练成本,还提高了模型的适应性和灵活性。例如,DeepSeek-R1-Zero采用了群组相对策略优化(GRPO)来降低训练成本,通过从群组分数中估算基线,避免了使用与策略模型同样大小的评估模型,从而提高了训练效率。

奖励机制与训练模板

在奖励机制方面,DeepSeek-R1采用了准确度和格式两种互补的奖励机制。准确度奖励用于评估回答的正确性,而格式奖励则用于规范模型的输出格式。这种奖励机制的设计,使得模型能够在推理过程中更加注重思考过程的规范性和正确性。此外,开发团队还设计了简单的训练模板,引导模型先给出推理过程,再提供最终答案,这种设计不仅规范了模型的输出结构,还避免了对内容施加过多限制,使得模型能够在训练过程中自然发展出高级的解题策略。

自我进化能力:训练中的“灵光一现”

在训练过程中,DeepSeek-R1-Zero展现出了显著的自我进化能力。例如,在处理2024年的AIME数学奥赛试卷时,其平均pass@1分数从最初的15.6%显著提升到了71.0%,达到了与OpenAI-o1-0912相当的水平。更令人惊讶的是,在多数投票机制中,DeepSeek-R1-Zero的成功率进一步提升到了86.7%,甚至超过了OpenAI-o1-0912的表现。这种自我进化能力的背后,是强化学习的魅力——只要提供正确的奖励机制,模型就能自主发展出高级的解题策略。

冷启动数据的应用

为了防止基础模型在强化学习训练早期出现不稳定的冷启动阶段,开发团队针对R1构建并收集了少量的长CoT数据,以作为初始RL actor对模型进行微调。这些冷启动数据不仅提高了模型的可读性,还提升了模型的性能。开发团队通过精心设计具有人类先验知识的冷启动数据模式,观察到相较于DeepSeek-R1-Zero更好的性能表现。

模型的局限性与改进

尽管DeepSeek-R1在推理能力上取得了显著的突破,但仍然存在一些局限性。例如,DeepSeek-R1-Zero的回答可读性较差,语言混杂等问题。为了解决这些问题,开发团队在训练过程中引入了语言一致性奖励,以缓解语言混合的问题。此外,开发团队还通过拒绝采样和监督微调,进一步提升了模型的性能。

蒸馏技术:小模型的推理能力提升

为了使更高效的小模型具备DeepSeek-R1那样的推理能力,开发团队直接使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行了微调。这种简单的蒸馏方法显著增强了小模型的推理能力,使得它们能够在推理任务上表现出色。

未来展望:推动AI技术的边界

DeepSeek-R1的推出,不仅在技术上实现了突破,更在开源和性价比上为行业树立了新的标杆。通过开源模型权重和训练技术,DeepSeek为全球的AI研究者和开发者提供了强大的工具和资源,推动了AI技术的边界。未来,随着更多开发者和企业的参与,DeepSeek-R1有望在更多领域实现应用,为AI行业的发展注入新的动力。

DeepSeek-R1的出现,不仅是AI技术的一次重大突破,更是开源精神的胜利。它不仅为AI研究者提供了新的思路和方法,也为AI技术的商业化应用提供了新的可能性。随着DeepSeek-R1的不断优化和改进,我们有理由相信,它将在未来的AI领域中扮演更加重要的角色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白冰前财务反击!偷漏税完全知情,他本人是最大受益者

白冰前财务反击!偷漏税完全知情,他本人是最大受益者

林轻吟
2026-05-16 07:17:56
爆大冷!混双小将胜头号种子进决赛!泰国赛国羽3项冲金!附赛程

爆大冷!混双小将胜头号种子进决赛!泰国赛国羽3项冲金!附赛程

佑铭羽球
2026-05-16 23:19:05
医生:糖尿病最危险信号,不是口渴多尿,而是频繁出现这5种异常

医生:糖尿病最危险信号,不是口渴多尿,而是频繁出现这5种异常

39健康网
2026-04-29 20:30:53
莱万多夫斯基宣布今夏离开巴萨:我已完成使命

莱万多夫斯基宣布今夏离开巴萨:我已完成使命

体坛周报
2026-05-16 19:54:16
活塞全明星杜伦脚踝受伤,短暂离场后带伤回归

活塞全明星杜伦脚踝受伤,短暂离场后带伤回归

快乐加载中21
2026-05-17 01:44:25
央视王炸谍战剧《惊变》来袭!35集高能反转,三大影帝同台飙戏

央视王炸谍战剧《惊变》来袭!35集高能反转,三大影帝同台飙戏

小椰的奶奶
2026-05-16 16:46:09
中国外长缺席金砖峰会,西方也不给印度情面,莫迪政府难担重任

中国外长缺席金砖峰会,西方也不给印度情面,莫迪政府难担重任

小樾说历史
2026-05-15 15:56:37
上海学者亲历中美国宴:“这样热络的交流氛围多年未见了”

上海学者亲历中美国宴:“这样热络的交流氛围多年未见了”

澎湃新闻
2026-05-15 20:32:28
这种局面不能再延续下去了,否则中国有点危险

这种局面不能再延续下去了,否则中国有点危险

财经保探长
2026-04-21 21:45:58
特朗普访华检阅解放军仪仗队,美国高官现场看愣,全程紧张冒汗

特朗普访华检阅解放军仪仗队,美国高官现场看愣,全程紧张冒汗

解说阿洎
2026-05-15 16:41:06
全场明星都沉默,片酬最低长得最丑的徐志胜,凭啥敢接方媛的话

全场明星都沉默,片酬最低长得最丑的徐志胜,凭啥敢接方媛的话

老吴教育课堂
2026-05-17 02:05:52
越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

别人都叫我阿腈
2026-05-03 03:21:11
国宴的顶级国风,尽显东方之美!却被外国元首的儿媳旗袍装惊艳

国宴的顶级国风,尽显东方之美!却被外国元首的儿媳旗袍装惊艳

白宸侃片
2026-05-16 01:34:42
7.5万球迷见证!凯恩帽子戏法超莱万造德甲神迹,拜仁5-1大胜科隆

7.5万球迷见证!凯恩帽子戏法超莱万造德甲神迹,拜仁5-1大胜科隆

钉钉陌上花开
2026-05-16 23:28:50
原来他是国宴总厨,大专学历却获奖无数,从业55年如今72岁未退休

原来他是国宴总厨,大专学历却获奖无数,从业55年如今72岁未退休

白面书誏
2026-05-16 15:12:43
人类财富天花板!马斯克身家飙升至5.8万亿,一人可敌160国

人类财富天花板!马斯克身家飙升至5.8万亿,一人可敌160国

爱看剧的阿峰
2026-05-15 18:33:01
G胖"代言"中国内裤笑喷!竟成老外玩家必吃榜…

G胖"代言"中国内裤笑喷!竟成老外玩家必吃榜…

Steam社区
2026-05-16 11:34:09
四轮不胜处境艰难!申花用人陷入绝境,斯卢茨基无奈调中卫驰援

四轮不胜处境艰难!申花用人陷入绝境,斯卢茨基无奈调中卫驰援

曦言说
2026-05-17 00:59:16
体育总局宣布周继红免职退休,曾引发内斗争议,如今能否平稳落地

体育总局宣布周继红免职退休,曾引发内斗争议,如今能否平稳落地

元哥说历史
2026-01-10 11:50:03
打入唯一进球,塞门约当选足总杯决赛全场最佳球员

打入唯一进球,塞门约当选足总杯决赛全场最佳球员

懂球帝
2026-05-17 03:01:20
2026-05-17 03:27:00
前沿科技学习分享圈 incentive-icons
前沿科技学习分享圈
朝看花开满树红,暮看花落树还空。若将花比人间事,花与人间事一同。
1686文章数 370关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

大五座SUV卷王!乐道L80上市 租电15.68万元起

态度原创

亲子
教育
手机
艺术
时尚

亲子要闻

保护孩子宝妈必学,怀疑孩子遇到变态,不可以这么问话!!

教育要闻

又开始偷偷卷排名的几所大学!

手机要闻

王者归来!华为Mate 80系列半年狂销近600万台:国产旗舰销冠实锤

艺术要闻

惊!艾米·亚当斯竟是坠入凡间的仙女?

女人不管年纪多大,都可以备好一件经典条纹T恤,减龄又舒适

无障碍浏览 进入关怀版