网易首页 > 网易号 > 正文 申请入驻

DeepSeek补全R1技术报告,训练路径首次详细公开

0
分享至





这事在AI圈炸了锅,要知道现在大模型公司恨不得把参数表都当商业机密,他们倒好,把训练日志都快写成教学手册了。

这次补充材料最让人眼前一亮的,是他们把R1的训练过程扒了个底朝天。



跟GPT、Claude这些"混合派"不同,DeepSeek团队走了条"纯强化学习"的野路子。

本来想跟着行业主流用RLHF(人类反馈强化学习),但后来发现光靠人类标注根本不够用,索性搞了套四步训练法。

冷启动阶段就挺反常规,别人都用海量数据"喂饱"模型,他们偏偏只用几千条自己编的思维链数据。



这些数据不直接给答案,而是把解题思路一步步写出来,比如算数学题会标注"这里需要用勾股定理,因为已知直角边长度"。

这种"授人以渔"的训练方式,难怪模型推理能力这么强。

后来对比GPT-4的混合数据模式才发现,专注思维过程的训练,就像让模型先学会"思考"再学"说话",基础打得确实牢。





MMLU测试里跨语种准确率提升不少,这手操作确实秀。

技术突破归突破,AI安全这根弦谁都不敢松。



DeepSeek这次把安全防护的家底也亮出来了10.6万条风险提示数据,光标注就花了三个多月。

他们的双轨风控系统挺有意思,第一层是关键词过滤,2000多个风险词库实时扫描,响应快得跟眨眼睛似的。



但光靠关键词肯定不够,比如用户问"怎么制造危险物品",换个说法就可能绕过去。

所以第二层上了个"模型审查官",用自家的DeepSeek-V3模型再审一遍,复杂案例拦截准确率能到九成以上。

不过知识产权这块还有短板,HarmBench测试里得分比行业平均低了7分,看来给AI划"版权红线"比想象中难。



对比GPT-4藏着掖着的安全机制,DeepSeek这套"透明防御"思路确实大胆。

把安全数据集和拦截逻辑全公开,等于让同行来挑毛病。

但换个角度想,开源模型本来就该把"防护网"亮出来,藏着掖着反而让人更不放心。



讲完技术和安全,这次补充材料里有个细节特别戳人团队名单。

这是什么概念?2023年全球AI人才平均流失率快四分之一,MetaAI团队更是走了三成。



RuiqiGe的回归挺有代表性,这位前DeepMind研究员去年离职时,多少人以为是被硅谷挖角。

结果人家转了圈又回来,采访里说"这里能安安静静做五年以上的长线研究"。

看来DeepSeek的留人秘诀,不是靠硅谷式的高薪期权,而是让研究员能"踩踏实做学问"。



对比OpenAI动不动就重组团队,Meta因为管理层变动黄了好几个长期项目,这种"技术定力"确实难得。

现在AI圈都在赌下一个突破点,有人拼参数规模,有人抢多模态赛道,DeepSeek用64页补充材料证明,把一件事做到极致同样能杀出重围。



至于大家惦记的R2版本,按这个节奏,说不定真的不远了。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东云浮一学生上午匿名投诉学校下午就被找到?校方通报

广东云浮一学生上午匿名投诉学校下午就被找到?校方通报

新京报
2026-01-17 12:13:05
马斯克173分钟访谈:当智力成本归零,普通人唯一的护城河在哪?

马斯克173分钟访谈:当智力成本归零,普通人唯一的护城河在哪?

小8说科技
2026-01-12 15:05:57
谴责伊朗,便是白左叙事逻辑的终极崩塌

谴责伊朗,便是白左叙事逻辑的终极崩塌

壹家言
2026-01-18 11:42:28
一口气搞懂16种酒,吹牛更显学问

一口气搞懂16种酒,吹牛更显学问

混知
2026-01-09 12:27:20
湖北砸1.4亿建轮胎厂!选址荆州松滋,2026年开工

湖北砸1.4亿建轮胎厂!选址荆州松滋,2026年开工

坠入二次元的海洋
2026-01-18 10:10:50
越秀地产裁员4570人

越秀地产裁员4570人

地产微资讯
2026-01-17 11:20:09
停发消费卷后西贝生意快速下滑,但贾国龙却否认问题出在价格上

停发消费卷后西贝生意快速下滑,但贾国龙却否认问题出在价格上

映射生活的身影
2026-01-18 12:11:34
生日夜官宣!53岁郭德纲台上宣布“儿子”喜讯,新娘身份不简单

生日夜官宣!53岁郭德纲台上宣布“儿子”喜讯,新娘身份不简单

草莓解说体育
2026-01-18 12:27:37
致所有北京房东的一封信:挂牌价比买入价低300万,花1.3W

致所有北京房东的一封信:挂牌价比买入价低300万,花1.3W

不能不看的创意短视频
2026-01-16 19:00:03
汪小菲带娃吃日料,玥儿贴心夹菜!汪小菲和大S家已私下进行和解

汪小菲带娃吃日料,玥儿贴心夹菜!汪小菲和大S家已私下进行和解

汪巗的创业之路
2026-01-18 11:50:29
2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

复转这些年
2026-01-08 23:43:01
释小龙不再隐瞒!坦言亲父身份,难怪多年不拍戏资产却超十亿

释小龙不再隐瞒!坦言亲父身份,难怪多年不拍戏资产却超十亿

以茶带书
2026-01-15 13:07:47
51分之耻!交易市场暂停!哎呦,都在等他决定...

51分之耻!交易市场暂停!哎呦,都在等他决定...

柚子说球
2026-01-17 12:23:12
28射0破!中国U23改写历史,球迷喊出心声:复兴就从这里开始!

28射0破!中国U23改写历史,球迷喊出心声:复兴就从这里开始!

海阔山遥YAO
2026-01-18 12:48:32
虎鲸母子被困法国废弃公园近1年,孤独穿梭恶臭水池,或只能等死

虎鲸母子被困法国废弃公园近1年,孤独穿梭恶臭水池,或只能等死

译言
2026-01-18 12:24:08
刘建宏:李昊出色发挥,全队贯彻战术到底,换人时机把握很好

刘建宏:李昊出色发挥,全队贯彻战术到底,换人时机把握很好

懂球帝
2026-01-18 12:29:44
廖汉生:妻舅是元帅,大舅哥是国家主席,晚年他拒绝当国家副主席

廖汉生:妻舅是元帅,大舅哥是国家主席,晚年他拒绝当国家副主席

墨说古今
2026-01-16 23:24:12
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
出大事了,俄军突发斩首行动,特朗普意外翻脸,英法德果断下令

出大事了,俄军突发斩首行动,特朗普意外翻脸,英法德果断下令

探源历史
2026-01-17 02:56:59
嫣然医院捐款狂飙,李国庆带头驰援,嫣然医院挺住,网友泪目了!

嫣然医院捐款狂飙,李国庆带头驰援,嫣然医院挺住,网友泪目了!

你食不食油饼
2026-01-18 01:17:08
2026-01-18 13:16:49
随梦而飞起
随梦而飞起
随梦而飞起
204文章数 12关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

头条要闻

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

体育要闻

越南媒体:李昊将成为越南U23面临的巨大挑战

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

艺术
健康
教育
数码
房产

艺术要闻

海边细沙被他表现得如此真实 | 马克·汉森

血常规3项异常,是身体警报!

教育要闻

致敬,你是最暖的雪景!中小学生手绘冬日城市守护者

数码要闻

QDC推出CRAVE渴望耳机,搭载多单元售价20999元起

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

无障碍浏览 进入关怀版