网易首页 > 网易号 > 正文 申请入驻

非技术人10分钟读懂Deepseek R1

0
分享至

本文来自微信公众号:一泽Eze,作者:一泽Eze,原文标题:《非技术人 10 分钟读懂 Deepseek R1|天才模型养成与 AI 超越人类的破晓时刻》,题图来自:unsplash

DeepSeek 在这个春节火到没边。

不仅在公众号、小红书、抖音疯狂刷屏,就连过年餐桌上七大姑八大姨都会来找我唠上两句:“你知道滴噗系可(DeepSeek)吗”。

抛开看热闹的浮躁气,我想从一个非技术人的角度,分享近期对 DeepSeek 的研究总结,主要围绕以下话题:

  1. 天才养成记:DeepSeek R1 为什么如此聪明?

  2. “填鸭”之困:传统大模型训练的瓶颈?

  3. 自学成才:DeepSeek R1 的破局之道?

  4. 纯强化学习:再次带来 AI 超越人类的希望?


天才养成记:DeepSeek R1 为什么如此聪明?

就我观察而言,大多数人讨论的 DeepSeek ,基本指的是它的深度思考版本——DeepSeek R1。

DeepSeek R1 不同于先前的普通模型(如ChatGPT-4、Claude 3.5 sonnet、豆包、通义等),它与 OpenAI 现在最先进的模型 o1、o3 一样,同属于一条技术路线:基于强化学习 RL 的 推理(Reasoning)模型。

其标志性表现就是,在回答用户问题前,R1 会先进行“自问自答”式的推理思考,凭此提升最终回答的质量。

这种“自问自答”,并非简单的自言自语,而是 AI 在模拟人类的深度思考

从用户初始问题“先有鸡还是先有蛋”出发,AI 唤醒解决该问题所需的推理逻辑与知识,对问题进行多步推导,为最终回答提供更加完备的思考准备。

用户初始指令:先有鸡还是先有蛋? 推理 1 - 问题领域分析:经典哲学、科学难题 推理2 - 知识回忆:哲学-因果循环;科学-进化论、生物学发展 推理3 - 用户意图分析:用户可能是在寻找明确答案,但这个问题没有绝对答案,所以需要解释不同观点 推理 4 - 结合用户场景:学生作业 → 更加结构化回答;普通用户 → 简洁易懂的解释…… 最终回答:根据以上信息,综合生成结果

这种能力,并非凭空而来。

如果把 AI 比作人类,那么 DeepSeek R1 的“聪明”,源于其背后独特的“教育方式”。

在许多其他的 AI 模型还在接受“填鸭式教育”时,DeepSeek R1 已经率先进入了“自学成才”的新阶段

“填鸭教育”之困:人类的局限,AI 的上限

当前 AI 大模型的训练分为两个阶段:“预训练”、“后训练”。

“预训练”阶段,主要依赖于海量的“预训练”数据,一股脑地把各种知识“填鸭”给 AI。

就像学龄前的孩子背诵唐诗三百首。  虽然能“鹦鹉学舌”般地在“鹅,鹅,鹅 ”后接上“曲项向天歌”,却不理解诗词的格律、意境,更不懂如何运用这些知识去创作。  你问他“鹅是什么”,他可能只会机械地接龙“曲项向天歌”,驴唇不对马嘴,无法和你有效回应。

这便是大模型“预训练”的实质与局限:

它赋予了 AI 海量的知识基础,却无法让 AI 真正理解和运用这些知识,只能基于背过知识的统计概率进行“续写”。

更关键的在于,此时的 AI 还没有学会如何与人类进行有效的对话,不知道如何理解你的问题,也不知道如何组织语言来回答你。

它就像一个“知识巨人,对话侏儒”,空有全世界的知识,却不知如何表达。(是的,未经“后训练”的基础模型,往往用户指令遵循性差,生成内容的格式混乱、难以阅读、逻辑断裂,也无法和人进行有效对话。)

而在“后训练”阶段,则是对 AI 的输出方式、指令遵循、推理等特定任务进行“特训”。

例如,让 AI 学会与人类对话,生成人类易于阅读的长句,或者学会输出更加合理的推理过程。

此前,“后训练”主要采用监督微调(SFT)或基于人类反馈的强化学习(RLHF)等方法。

  • 监督微调(SFT):用特定数据集对模型进行“填鸭式”训练,使得模型参数得到微小的特定调整。

例如,让孩子额外加背宋词三百首,以应付明天的“唐诗+宋词”的综合性考试;或者反复强调“出门 → 要关灯”,机械训练节约用电的好习惯。

  • 基于人类反馈的强化学习(RLHF):人类训练者会对 AI 模型的多个输出进行评分或排序,训练模型理解什么是“好的回答”。

例如,小学生解答数学题时,老师会限制他们使用“代数方程”这类超纲解法,因为不符合小学教育测验的预期。

这种方式的局限在于,AI 受限于人类训练者的认知局限与主观偏好,终究还是限制了模型自主探索最优解的能力。

可见,无论是 SFT 还是 RLHF,都难以摆脱“填鸭式教育”的影子。

它们或许能让 AI “鹦鹉学舌”,却无法让 AI “融会贯通”。人类标注者的认知天花板,也成为了 AI 能力提升的瓶颈。

自学成才:纯强化学习再次带来 AI 超越人类的希望

而DeepSeek R1 则引入了纯强化学习(RL),不依赖大量的人类标注数据,而是让 AI 通过自我探索和试错来学习:

DeepSeek R1 在“冷启动”阶段,仅通过少量(数千条)人工精选的思维链数据进行初步引导,建立起符合人类阅读习惯的推理表达范式。

随后,便主要依靠强化学习,在奖励系统的反馈下(只对结果准确率与回答格式进行奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化

准确率奖励:用于评估 AI 提供的最终答案是否正确,以此为 AI 提供答案准确度的反馈。 格式奖励:强制结构化输出,让模型把思考过程置于标签之间,以便人类观察模型的推理过程。

正如 Alpha Zero 只训练了三天,就以 100 比 0 的战绩完胜 Alpha Go Lee(战胜李世石的版本)。

Alpha Go(老):监督学习 + 强化学习。学习人类棋谱,也更接近人类职业棋手的风格,继承了人类的局限。 Alpha Zero(新):完全摒弃人类数据的纯强化学习。从零开始自我博弈,不受限于人类经验,具有创造性的下棋风格。

大模型 AI 在纯强化学习(RL)下同样也展现出了超出人类研究员想象的成长潜力:

“我们只需要简单地为其提供正确的激励措施,它就会自主开发高级的问题解决策略,RL 有可能解锁新的人工智能水平。”

*只不过 Alpha Zero 的强化学习更加专精棋类。而 DeepSeek R1 在训练中,更注重学习推理的底层策略,培养通用推理能力,使其能够实现跨领域的知识迁移运用和推理解答。

更有趣的是,DeepSeek 还有一个更加聪明的 R1-zero 实验版本

这个版本甚至没有进行任何的初始引导,而是采用了完全从零开始的强化学习。

实验表明,无需任何人类的监督训练,R1-zero自然而然地学会了用更多的思考步骤来解决推理任务,还学会了在推理过程中反思先前的推理步骤,探索解决问题的替代方法。

没错,AI 在纯强化学习中,自发涌现出了更强的推理能力与顿悟时刻:

*但因为没有微调,R1-zero 的输出内容可读性差、语言混合,且风险不可控。所以我们见到的才是经过符合人类阅读偏好的冷启动与微调过的 R1 版本,确保 AI 生成内容的稳定、安全、道德、无害。

纯强化学习,在 Alpha Zero 完胜所有人类棋手之后,再次点燃了 AI 全面超越人类的希望。

当 AI 挣脱人类经验的束缚,真正的智能革命或许才刚刚拉开序幕。

附:DeepSeek R1 完整训练过程

因文章定位与行文节奏设计,上文仅对影响 R1 涌现关键智能的前两个训练步骤进行了讲解。

更加完善的训练说明,可直接阅读官方论文:

DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948

Ref:

DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948

碎瓜-波斯兔子《Deepseek R1可能找到了超越人类的办法》https://mp.weixin.qq.com/s/YgRgDw8ndSHJwcPNMqWZNQ

大聪明-赛博禅心《DeepSeek R1 是怎么训练的?》https://mp.weixin.qq.com/s/Wuz0H9jmZYV1jM1Y-twTlA

老刘说 NLP 《可视化角度具象化理解DeepSeek-R1类推理大模型的习得进程》https://mp.weixin.qq.com/s/ytKTGTgU2T7jSNrBghX1cA

Tianzhe Chu et al.《SFT 记忆,RL 泛化:基础模型训练后的比较研究》https://arxiv.org/html/2501.17161

Metaso 长思考对话《RL 和 SFT 在后训练中的区别》https://metaso.cn/s/WGdOwPC

本文来自微信公众号:一泽Eze,作者:一泽Eze

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
大局已定,以全境遭轰炸,美方紧急宣布求和,中方:一锤定音

大局已定,以全境遭轰炸,美方紧急宣布求和,中方:一锤定音

健身狂人
2026-03-27 00:07:58
美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

极目新闻
2026-03-26 20:16:01
原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

以茶带书
2026-03-26 13:38:50
巴基斯坦外长说美伊正进行间接谈判

巴基斯坦外长说美伊正进行间接谈判

新华社
2026-03-26 18:55:07
伊朗首都德黑兰遭空袭 多地传出爆炸声

伊朗首都德黑兰遭空袭 多地传出爆炸声

财联社
2026-03-26 19:44:11
2025年演唱会票房最高的10位歌手排行榜,这些歌手太赚钱了!

2025年演唱会票房最高的10位歌手排行榜,这些歌手太赚钱了!

小椰的奶奶
2026-03-26 08:40:13
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

潮鹿逐梦
2026-03-24 17:58:35
两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

成吉思热
2026-03-26 10:06:14
广东3消息!徐杰胡明轩齐发声,徐昕无缘回归,焦泊乔伤愈复出

广东3消息!徐杰胡明轩齐发声,徐昕无缘回归,焦泊乔伤愈复出

多特体育说
2026-03-26 22:41:13
回旋镖来了?大疆被曝“像素级”抄袭

回旋镖来了?大疆被曝“像素级”抄袭

蓝字计划
2026-03-26 09:38:42
苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

共工之锚
2026-03-24 01:31:15
“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

观察者海风
2026-03-24 23:04:30
为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

侃神评故事
2026-03-10 18:50:04
同曦胜北控!帕克轰44+13,赵柏清统治内线,廖三宁+双外空砍!

同曦胜北控!帕克轰44+13,赵柏清统治内线,廖三宁+双外空砍!

篮球资讯达人
2026-03-26 21:43:02
20分32分42分!上海全员杀疯,一夜爆3门惨案,3-12名乱成一锅粥

20分32分42分!上海全员杀疯,一夜爆3门惨案,3-12名乱成一锅粥

后仰大风车
2026-03-26 06:05:05
中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

咣当地球
2026-03-26 16:10:46
这些"纯阳之物",每天吃一点,直接把阳气补到根,比吃药强多了

这些"纯阳之物",每天吃一点,直接把阳气补到根,比吃药强多了

小莜读史
2026-03-26 20:10:12
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
2026-03-27 02:27:00
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
25981文章数 687624关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
教育
亲子
数码

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

亲子要闻

看看把孩子吓得哈哈哈

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

无障碍浏览 进入关怀版