网易首页 > 网易号 > 正文 申请入驻

DeepSeek补全R1技术报告,训练路径首次详细公开

0
分享至





这事在AI圈炸了锅,要知道现在大模型公司恨不得把参数表都当商业机密,他们倒好,把训练日志都快写成教学手册了。

这次补充材料最让人眼前一亮的,是他们把R1的训练过程扒了个底朝天。



跟GPT、Claude这些"混合派"不同,DeepSeek团队走了条"纯强化学习"的野路子。

本来想跟着行业主流用RLHF(人类反馈强化学习),但后来发现光靠人类标注根本不够用,索性搞了套四步训练法。

冷启动阶段就挺反常规,别人都用海量数据"喂饱"模型,他们偏偏只用几千条自己编的思维链数据。



这些数据不直接给答案,而是把解题思路一步步写出来,比如算数学题会标注"这里需要用勾股定理,因为已知直角边长度"。

这种"授人以渔"的训练方式,难怪模型推理能力这么强。

后来对比GPT-4的混合数据模式才发现,专注思维过程的训练,就像让模型先学会"思考"再学"说话",基础打得确实牢。





MMLU测试里跨语种准确率提升不少,这手操作确实秀。

技术突破归突破,AI安全这根弦谁都不敢松。



DeepSeek这次把安全防护的家底也亮出来了10.6万条风险提示数据,光标注就花了三个多月。

他们的双轨风控系统挺有意思,第一层是关键词过滤,2000多个风险词库实时扫描,响应快得跟眨眼睛似的。



但光靠关键词肯定不够,比如用户问"怎么制造危险物品",换个说法就可能绕过去。

所以第二层上了个"模型审查官",用自家的DeepSeek-V3模型再审一遍,复杂案例拦截准确率能到九成以上。

不过知识产权这块还有短板,HarmBench测试里得分比行业平均低了7分,看来给AI划"版权红线"比想象中难。



对比GPT-4藏着掖着的安全机制,DeepSeek这套"透明防御"思路确实大胆。

把安全数据集和拦截逻辑全公开,等于让同行来挑毛病。

但换个角度想,开源模型本来就该把"防护网"亮出来,藏着掖着反而让人更不放心。



讲完技术和安全,这次补充材料里有个细节特别戳人团队名单。

这是什么概念?2023年全球AI人才平均流失率快四分之一,MetaAI团队更是走了三成。



RuiqiGe的回归挺有代表性,这位前DeepMind研究员去年离职时,多少人以为是被硅谷挖角。

结果人家转了圈又回来,采访里说"这里能安安静静做五年以上的长线研究"。

看来DeepSeek的留人秘诀,不是靠硅谷式的高薪期权,而是让研究员能"踩踏实做学问"。



对比OpenAI动不动就重组团队,Meta因为管理层变动黄了好几个长期项目,这种"技术定力"确实难得。

现在AI圈都在赌下一个突破点,有人拼参数规模,有人抢多模态赛道,DeepSeek用64页补充材料证明,把一件事做到极致同样能杀出重围。



至于大家惦记的R2版本,按这个节奏,说不定真的不远了。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以为只是小毛病,一查竟是晚期!做完所有治疗,他还是永远离开了

以为只是小毛病,一查竟是晚期!做完所有治疗,他还是永远离开了

新时代的两性情感
2026-02-18 08:36:45
中方再打出组合拳,刚把港口抢到手的巴拿马,彻底没了“财神爷”

中方再打出组合拳,刚把港口抢到手的巴拿马,彻底没了“财神爷”

石江月
2026-03-11 17:08:17
没想到,特朗普访华规格缩水,美国先遣队抵达北京,中国要求被拒

没想到,特朗普访华规格缩水,美国先遣队抵达北京,中国要求被拒

吴欣纯Deborah
2026-03-11 12:22:05
击毙 583 人!巴基斯坦反恐战打满16天,阿富汗塔利班低头求和

击毙 583 人!巴基斯坦反恐战打满16天,阿富汗塔利班低头求和

Ck的蜜糖
2026-03-11 20:11:58
美国五年的女儿突然回国,国安局登门:你女儿的虹膜指纹全都不符

美国五年的女儿突然回国,国安局登门:你女儿的虹膜指纹全都不符

无心小姐姐
2026-03-11 19:45:10
以色列卫星地面站被“精准击中”

以色列卫星地面站被“精准击中”

陆弃
2026-03-12 08:20:05
女子结婚时同事随礼200元,前同事离职4年后发信息要求返还礼金

女子结婚时同事随礼200元,前同事离职4年后发信息要求返还礼金

观威海
2026-03-12 09:59:19
曝伊朗女足被关押在吉隆坡酒店!遭严密看守 又有3名球员不愿回国

曝伊朗女足被关押在吉隆坡酒店!遭严密看守 又有3名球员不愿回国

念洲
2026-03-12 06:43:50
浙江情侣买二手机,用了3天要原价退,被拒后上门威胁,网友炸锅

浙江情侣买二手机,用了3天要原价退,被拒后上门威胁,网友炸锅

离离言几许
2026-03-11 18:40:09
曝王曼昱将暂停世界大赛,教练组对输球负全责,孙颖莎压力山大

曝王曼昱将暂停世界大赛,教练组对输球负全责,孙颖莎压力山大

詹妹侃体育
2026-03-11 22:02:52
超级大反转! “戴高乐”号进入地中海,炮口竟然对准以色列?

超级大反转! “戴高乐”号进入地中海,炮口竟然对准以色列?

书纪文谭
2026-03-11 13:34:36
世界上第一次超重型加油机被实战摧毁!

世界上第一次超重型加油机被实战摧毁!

安安说
2026-03-11 10:11:13
七国集团:原则上支持必要时动用战略储备稳定能源市场

七国集团:原则上支持必要时动用战略储备稳定能源市场

每日经济新闻
2026-03-11 20:59:34
毛主席逝世1年后,谢静宜被开除党籍后直言:我永远是党的女儿!

毛主席逝世1年后,谢静宜被开除党籍后直言:我永远是党的女儿!

今明文史
2026-03-10 20:25:04
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
重磅突发!美、伊,相继释放“停战消息”;抛4亿桶,油价仍大涨;美股期货,跌幅扩大

重磅突发!美、伊,相继释放“停战消息”;抛4亿桶,油价仍大涨;美股期货,跌幅扩大

金融界
2026-03-12 08:02:05
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
今日!CCTV5直播国乒孙颖莎+王楚钦出战+中国女篮,网络转CBA+NBA

今日!CCTV5直播国乒孙颖莎+王楚钦出战+中国女篮,网络转CBA+NBA

晚池
2026-03-12 00:06:45
悲壮一刻!导弹拼命拦截失败,16架运输机被毁:伊朗空军全军覆没

悲壮一刻!导弹拼命拦截失败,16架运输机被毁:伊朗空军全军覆没

安珈使者啊
2026-03-12 10:32:43
浙江一男子懒得动脑一直守号,结果中了500万:我就随便找了几个号码,每次就买一样的,中奖真的就是靠运气

浙江一男子懒得动脑一直守号,结果中了500万:我就随便找了几个号码,每次就买一样的,中奖真的就是靠运气

台州交通广播
2026-03-12 02:06:11
2026-03-12 11:48:49
随梦而飞起
随梦而飞起
随梦而飞起
399文章数 34关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

刚从伊朗回来的中国学者:街上是平静的 人心是涌动的

头条要闻

刚从伊朗回来的中国学者:街上是平静的 人心是涌动的

体育要闻

要脸,还是要83分纪录?

娱乐要闻

李湘瘦身惊艳亮相肖邦之夜 携女儿出席

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

旅游
时尚
手机
家居
教育

旅游要闻

伊斯坦布尔亚洲老城区

今年春天最时髦的6组搭配,照着穿美出新高度!

手机要闻

iPhone 18 Pro设计挤牙膏了 继续用前代模具

家居要闻

触感本真 家的迹象

教育要闻

五年级常考题:B×B-2B=2208

无障碍浏览 进入关怀版