![]()
![]()
这事在AI圈炸了锅,要知道现在大模型公司恨不得把参数表都当商业机密,他们倒好,把训练日志都快写成教学手册了。
这次补充材料最让人眼前一亮的,是他们把R1的训练过程扒了个底朝天。
![]()
跟GPT、Claude这些"混合派"不同,DeepSeek团队走了条"纯强化学习"的野路子。
本来想跟着行业主流用RLHF(人类反馈强化学习),但后来发现光靠人类标注根本不够用,索性搞了套四步训练法。
冷启动阶段就挺反常规,别人都用海量数据"喂饱"模型,他们偏偏只用几千条自己编的思维链数据。
![]()
这些数据不直接给答案,而是把解题思路一步步写出来,比如算数学题会标注"这里需要用勾股定理,因为已知直角边长度"。
这种"授人以渔"的训练方式,难怪模型推理能力这么强。
后来对比GPT-4的混合数据模式才发现,专注思维过程的训练,就像让模型先学会"思考"再学"说话",基础打得确实牢。
![]()
![]()
MMLU测试里跨语种准确率提升不少,这手操作确实秀。
技术突破归突破,AI安全这根弦谁都不敢松。
![]()
DeepSeek这次把安全防护的家底也亮出来了10.6万条风险提示数据,光标注就花了三个多月。
他们的双轨风控系统挺有意思,第一层是关键词过滤,2000多个风险词库实时扫描,响应快得跟眨眼睛似的。
![]()
但光靠关键词肯定不够,比如用户问"怎么制造危险物品",换个说法就可能绕过去。
所以第二层上了个"模型审查官",用自家的DeepSeek-V3模型再审一遍,复杂案例拦截准确率能到九成以上。
不过知识产权这块还有短板,HarmBench测试里得分比行业平均低了7分,看来给AI划"版权红线"比想象中难。
![]()
对比GPT-4藏着掖着的安全机制,DeepSeek这套"透明防御"思路确实大胆。
把安全数据集和拦截逻辑全公开,等于让同行来挑毛病。
但换个角度想,开源模型本来就该把"防护网"亮出来,藏着掖着反而让人更不放心。
![]()
讲完技术和安全,这次补充材料里有个细节特别戳人团队名单。
这是什么概念?2023年全球AI人才平均流失率快四分之一,MetaAI团队更是走了三成。
![]()
RuiqiGe的回归挺有代表性,这位前DeepMind研究员去年离职时,多少人以为是被硅谷挖角。
结果人家转了圈又回来,采访里说"这里能安安静静做五年以上的长线研究"。
看来DeepSeek的留人秘诀,不是靠硅谷式的高薪期权,而是让研究员能"踩踏实做学问"。
![]()
对比OpenAI动不动就重组团队,Meta因为管理层变动黄了好几个长期项目,这种"技术定力"确实难得。
现在AI圈都在赌下一个突破点,有人拼参数规模,有人抢多模态赛道,DeepSeek用64页补充材料证明,把一件事做到极致同样能杀出重围。
![]()
至于大家惦记的R2版本,按这个节奏,说不定真的不远了。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.