你是否曾好奇,人工智能是否能够像人类一样进行逻辑推理?比如解数学题、写代码,或者解决复杂的科学问题?最近,由深度求索(DeepSeek)团队发布的一项研究显示,大语言模型不仅能够推理,甚至还能自己学会如何推理——而这一切,竟然几乎不需要人类手把手教。
2025 年 9 月 17 日,这项研究成果以DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning为题,发表在《自然》杂志上,梁文锋为论文通讯作者,该论文还被选为本期封面论文。
这篇文章向我们展示了一种全新的训练AI的方式:不再依赖人类撰写大量的“推理步骤”示范,而是通过强化学习(Reinforcement Learning, RL),让模型在尝试和反馈中自主发展出推理能力。
与此同时,Nature 发表 Editorial 文章称,DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型,并称此举“意义重大”。
传统方法:依赖人类示范的推理
过去,要想让大语言模型(比如ChatGPT这类AI)“学会”推理,研究人员通常得为它准备大量的人类示范数据。例如,一步一步地展示如何解方程、如何写程序、如何做逻辑推断。这种方法被称为“思维链”(Chain-of-Thought, CoT) prompting。
虽然有效,但这种方式存在明显瓶颈:严重依赖人工标注,成本高、难以规模化;模型只会模仿人类,难以超越人类的推理方式;人类的思维模式未必是最优的,可能限制AI发现更高效的推理路径。
DeepSeek-R1:让AI自己“思考”
DeepSeek团队尝试了一条不同的路径:抛开人类示范,只通过强化学习训练模型。他们使用了一个名为GRPO(Group Relative Policy Optimization)的算法,模型只有在最终答案正确时才会获得“奖励”,而中间思考过程则完全自由。
令人惊讶的是,在这种“只问结果、不管过程”的训练方式下,模型逐渐自发地发展出了复杂的推理策略,例如:
自我反思:在推理中会停顿、检查错误,甚至出现“等一下,这里好像不对”这样的表达;
多路径探索:尝试多种解法,验证不同思路;
动态调整策略:根据题目难度自主分配“思考时间”,简单题快速过,难题多想几步。
这些能力并非人类预先设计,而是模型在训练中自行涌现的。
研究过程中,团队训练了两个主要模型。DeepSeek-R1-Zero由纯强化学习训练而来,在数学、编程等硬推理任务上表现极强,但在语言流畅度和多任务泛化上存在不足;DeepSeek-R1则在R1-Zero基础上,融合了少量人类偏好数据,提升了语言一致性和整体实用性。
在包括AIME数学竞赛、编程竞赛、MMLU综合评测等多个权威测试中,R1系列模型都显著超越了仅依靠人类示范训练的模型。
未来展望与挑战
这项研究的价值并不在于“做出了一个超级AI”,而在于它展示了一条更自主、更可扩展的AI能力发展路径。
它说明,AI的推理能力可以通过计算和反馈自动涌现,而不总是依赖人类经验;训练出的模型不仅能用于自身,还能帮助小型模型提升推理能力;它为AI在数学、编程、科学等领域的应用提供了新的方法支持。
尽管DeepSeek-R1在推理方面表现突出,但它依然存在一些局限性:在处理非中英文查询时可能出现语言混合;对提示词(prompt)比较敏感,不适合复杂指令控制;在软件工程等需要长周期验证的任务上提升有限。研究人员表示,这些方向将是下一阶段改进的重点。
如果说过去的AI是在“模仿人类”,那么DeepSeek-R1则是在“自学成才”——这或许是通向更通用、更强大人工智能的重要一步。
编辑:郭廓
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.