网易首页 > 网易号 > 正文 申请入驻

DeepSeek 开源其 R1 推理模型系列

0
分享至

DeepSeek 今天发布了一个新的大语言模型系列 - R1 系列,该系列专门针对推理任务进行了优化。

这家中国人工智能开发商已经在 Hugging Face 平台上开源了这些算法的源代码。

该大语言模型系列的主打产品是两个名为 R1 和 R1-Zero 的算法。据 DeepSeek 称,前者在多个推理基准测试中的表现优于 OpenAI 的 o1。而 R1-Zero 虽然能力相对较弱,但在机器学习研究领域可能代表着一个重要突破。

这两个大语言模型都采用了具有 6710 亿参数的混合专家 (MoE) 架构。MoE 模型由多个神经网络组成,每个网络都针对不同的任务集进行优化。当模型接收到输入提示时,一个称为路由器的机制会将查询发送到最适合处理它的神经网络。

MoE 架构的主要优势在于降低了推理成本。当用户向 MoE 模型输入提示时,查询不会激活整个 AI,而只会激活生成响应所需的特定神经网络。因此,R1 和 R1-Zero 在回答提示时激活的参数不到其 6710 亿参数的十分之一。

DeepSeek 在训练 R1-Zero 时采用了一种与研究人员通常使用的推理模型训练方法不同的方式。

推理优化的大语言模型通常使用强化学习和监督微调两种方法进行训练。前者通过试错来教会 AI 模型执行任务。而监督微调则通过提供任务执行示例来提升 AI 的输出质量。

在训练 R1-Zero 时,DeepSeek 跳过了监督微调阶段。尽管如此,该公司仍然成功地为模型配备了推理能力,比如将复杂任务分解为更简单子步骤的能力。

"这是首个通过纯强化学习验证大语言模型推理能力的开放研究,无需监督微调," DeepSeek 的研究人员详细说明。"这一突破为该领域的未来发展铺平了道路。"

尽管 R1-Zero 具有先进的功能集,但其输出质量有限。该模型的响应有时会出现"无休止的重复、可读性差和语言混杂"等问题,DeepSeek 的研究人员指出。该公司创建 R1 就是为了解决这些限制。

R1 是 R1-Zero 的增强版本,采用了修改后的训练工作流程开发。这个工作流程使用了 DeepSeek 在开发 R1-Zero 时省略的监督微调技术。该公司表示,这一改变显著提升了输出质量。

DeepSeek 使用近二十个基准测试将 R1 与四个流行的大语言模型进行了比较。据该公司称,其模型在多个基准测试中成功超越了 OpenAI 的推理优化模型 o1。在 o1 得分较高的大多数基准测试中,R1 的表现仅落后不到 5%。

R1 超越 o1 的基准测试之一是 LiveCodeBench。这是一个经常更新新练习题的编程任务集合。这降低了 AI 模型在公共网络上找到现成答案的可能性。

除了 R1 和 R1-Zero,DeepSeek 今天还开源了一系列能力较弱但硬件效率更高的模型。这些模型是从 R1 "蒸馏" 而来,这意味着在训练过程中,部分 LLM 的知识被转移到了这些模型中。

这些蒸馏模型的规模从 15 亿到 700 亿参数不等。它们基于 Llama 和 Qwen 开源大语言模型系列。DeepSeek 表示,其中一个蒸馏模型 R1-Distill-Qwen-32B 在多个基准测试中的表现优于 o1 的缩小版本 OpenAI-o1-mini。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度请求中国,外交部回应

印度请求中国,外交部回应

第一财经资讯
2026-03-13 16:13:33
10分险胜!17+5+4女神爆发,宫鲁鸣变阵显奇效,1人最应该被放弃

10分险胜!17+5+4女神爆发,宫鲁鸣变阵显奇效,1人最应该被放弃

蛋疼体育
2026-03-14 21:46:22
许利民:末节麦基和周琦在场表现 坚定后续围绕双塔搭配更多的战术

许利民:末节麦基和周琦在场表现 坚定后续围绕双塔搭配更多的战术

狼叔评论
2026-03-14 22:46:06
欧洲气价暴涨70%!转头又想买俄气?俄罗斯:可以卖但是有条件

欧洲气价暴涨70%!转头又想买俄气?俄罗斯:可以卖但是有条件

君君文谈
2026-03-13 19:03:03
冻干草莓测出二十几种农药,多家公司主动收购问题冻干草莓,“农残超标的话我们一般销售国内”,超标、过期无所谓,可当合格品卖或打粉加工冰淇淋等食品

冻干草莓测出二十几种农药,多家公司主动收购问题冻干草莓,“农残超标的话我们一般销售国内”,超标、过期无所谓,可当合格品卖或打粉加工冰淇淋等食品

观威海
2026-03-13 18:19:09
德黑兰未倒,贝鲁特先变天:真主党的“末日”与黎巴嫩的生存豪赌

德黑兰未倒,贝鲁特先变天:真主党的“末日”与黎巴嫩的生存豪赌

民间铁血柔情
2026-03-11 20:28:04
越来越多的人查出肠癌!医生苦劝:冰箱久置的这5物,不要再吃了

越来越多的人查出肠癌!医生苦劝:冰箱久置的这5物,不要再吃了

小童历史
2025-10-11 10:50:42
比掀翻世界第一更可怕!蒯曼赛后这番话,让国乒球迷彻底不淡定了

比掀翻世界第一更可怕!蒯曼赛后这番话,让国乒球迷彻底不淡定了

画夕
2026-03-14 19:59:37
WTT重庆冠军赛:女单4强诞生!张本美和突破国乒,中日各2人晋级

WTT重庆冠军赛:女单4强诞生!张本美和突破国乒,中日各2人晋级

全言作品
2026-03-14 21:48:43
哎!又一个赛季报销的!!右脚趾籽骨切除

哎!又一个赛季报销的!!右脚趾籽骨切除

柚子说球
2026-03-14 07:47:31
挥泪斩马谡!曼联批准6700万出售“大核”!1.2亿签“热刺双星”

挥泪斩马谡!曼联批准6700万出售“大核”!1.2亿签“热刺双星”

头狼追球
2026-03-14 17:08:43
穆帅2个动作,被禁赛2场,停赛11天,本菲卡俱乐部认为处罚不公平

穆帅2个动作,被禁赛2场,停赛11天,本菲卡俱乐部认为处罚不公平

福酱的小时光
2026-03-14 20:23:58
美媒总算看明白:中国这哪是买石油,分明是在给俄进行“大换血”

美媒总算看明白:中国这哪是买石油,分明是在给俄进行“大换血”

墨印斋
2026-01-02 20:47:40
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
挣再多也没用!39岁网红“王炸姐”去世,死因曝光,直播突然头疼

挣再多也没用!39岁网红“王炸姐”去世,死因曝光,直播突然头疼

林轻吟
2026-03-13 11:00:02
乾坤倒转,乌军将培训德军作战,泽连斯基宣布取得冬季之战胜利

乾坤倒转,乌军将培训德军作战,泽连斯基宣布取得冬季之战胜利

史政先锋
2026-03-13 22:13:05
佛山一区发布最新人事任命

佛山一区发布最新人事任命

南方都市报
2026-03-14 16:10:12
全新大众帕萨特亮相,全轮转

全新大众帕萨特亮相,全轮转

爸爸的红烧肉
2026-03-13 10:32:23
没想到!罚分大军第一个清零负分球队 是战胜北京国安的山东

没想到!罚分大军第一个清零负分球队 是战胜北京国安的山东

80后体育大蜀黍
2026-03-14 22:30:28
2026-03-15 00:11:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16818文章数 49695关注度
往期回顾 全部

科技要闻

xAI创始伙伴只剩两人!马斯克“痛改前非”

头条要闻

伊朗“命根子”遭到中东史上最大轰炸 特朗普表态

头条要闻

伊朗“命根子”遭到中东史上最大轰炸 特朗普表态

体育要闻

NBA唯一巴西球员,增重20KG顶内线

娱乐要闻

九成美曝田栩宁孕期出轨 AI反转引热议

财经要闻

3·15影子暗访|神秘的“特供酒”

汽车要闻

吉利银河M7技术首秀 实力重构主流电混SUV

态度原创

时尚
本地
亲子
艺术
数码

女人到了三四十岁穿衣要显贵,这些穿搭值得借鉴,大方又好看

本地新闻

坐标北京,过敏季反向迁徒

亲子要闻

从"疲惫带娃"到"从容陪娃":每位家长都能掌握的魔法转变

艺术要闻

海口江东第一高楼,中国石化打造,形如“钻石”!

数码要闻

AWE洗衣机观察:卷烘干、卷AI,「无感」洗衣才是未来?

无障碍浏览 进入关怀版