DeepSeek登上Nature封面：不用人类教，AI自己学会推理｜光锥读论文|数学|编程|人工智能|deepseek

DeepSeek登上Nature封面：不用人类教，AI自己学会推理｜光锥读论文

2025-09-19 14:58:36　来源: 呼呼历史论

辽宁举报

分享至

你是否曾好奇，人工智能是否能够像人类一样进行逻辑推理？比如解数学题、写代码，或者解决复杂的科学问题？最近，由深度求索（DeepSeek）团队发布的一项研究显示，大语言模型不仅能够推理，甚至还能自己学会如何推理——而这一切，竟然几乎不需要人类手把手教。

2025 年 9 月 17 日，这项研究成果以DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning为题，发表在《自然》杂志上，梁文锋为论文通讯作者，该论文还被选为本期封面论文。

这篇文章向我们展示了一种全新的训练AI的方式：不再依赖人类撰写大量的“推理步骤”示范，而是通过强化学习（Reinforcement Learning, RL），让模型在尝试和反馈中自主发展出推理能力。

与此同时，Nature 发表 Editorial 文章称，DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型，并称此举“意义重大”。

传统方法：依赖人类示范的推理

过去，要想让大语言模型（比如ChatGPT这类AI）“学会”推理，研究人员通常得为它准备大量的人类示范数据。例如，一步一步地展示如何解方程、如何写程序、如何做逻辑推断。这种方法被称为“思维链”（Chain-of-Thought, CoT） prompting。

虽然有效，但这种方式存在明显瓶颈：严重依赖人工标注，成本高、难以规模化；模型只会模仿人类，难以超越人类的推理方式；人类的思维模式未必是最优的，可能限制AI发现更高效的推理路径。

DeepSeek-R1：让AI自己“思考”

DeepSeek团队尝试了一条不同的路径：抛开人类示范，只通过强化学习训练模型。他们使用了一个名为GRPO（Group Relative Policy Optimization）的算法，模型只有在最终答案正确时才会获得“奖励”，而中间思考过程则完全自由。

令人惊讶的是，在这种“只问结果、不管过程”的训练方式下，模型逐渐自发地发展出了复杂的推理策略，例如：

自我反思：在推理中会停顿、检查错误，甚至出现“等一下，这里好像不对”这样的表达；
多路径探索：尝试多种解法，验证不同思路；
动态调整策略：根据题目难度自主分配“思考时间”，简单题快速过，难题多想几步。

这些能力并非人类预先设计，而是模型在训练中自行涌现的。

研究过程中，团队训练了两个主要模型。DeepSeek-R1-Zero由纯强化学习训练而来，在数学、编程等硬推理任务上表现极强，但在语言流畅度和多任务泛化上存在不足；DeepSeek-R1则在R1-Zero基础上，融合了少量人类偏好数据，提升了语言一致性和整体实用性。

在包括AIME数学竞赛、编程竞赛、MMLU综合评测等多个权威测试中，R1系列模型都显著超越了仅依靠人类示范训练的模型。

未来展望与挑战

这项研究的价值并不在于“做出了一个超级AI”，而在于它展示了一条更自主、更可扩展的AI能力发展路径。

它说明，AI的推理能力可以通过计算和反馈自动涌现，而不总是依赖人类经验；训练出的模型不仅能用于自身，还能帮助小型模型提升推理能力；它为AI在数学、编程、科学等领域的应用提供了新的方法支持。

尽管DeepSeek-R1在推理方面表现突出，但它依然存在一些局限性：在处理非中英文查询时可能出现语言混合；对提示词（prompt）比较敏感，不适合复杂指令控制；在软件工程等需要长周期验证的任务上提升有限。研究人员表示，这些方向将是下一阶段改进的重点。

如果说过去的AI是在“模仿人类”，那么DeepSeek-R1则是在“自学成才”——这或许是通向更通用、更强大人工智能的重要一步。

编辑：郭廓

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

DeepSeek登上Nature封面：不用人类教，AI自己学会推理｜光锥读论文

直击iPhone 17开售：消费者偏爱银色橙色

女教师在闺蜜群聊"八卦"被认定诽谤遭行拘 当事人发声

女教师在闺蜜群聊"八卦"被认定诽谤遭行拘 当事人发声

从轮椅到铜牌 他熬了7年：下个目标唱国歌！

全智贤被全面抵制！相关代言评论区沦陷

684亿大牛股，把孕妇逼到胎停？

对话周光：一个技术理想主义者的“蜕变”

态度原创

30岁后越来越美的女人，只穿滋养自己的衣服

热闻|清明假期将至，热门目的地有哪些?

公共艺术 限时体验打造

怀孕还不到100斤！方媛的惊人孕期状态

大学生军训哪家强，广西申请“出战”！

女教师在闺蜜群聊"八卦"被认定诽谤遭行拘当事人发声

女教师在闺蜜群聊"八卦"被认定诽谤遭行拘当事人发声

从轮椅到铜牌他熬了7年：下个目标唱国歌！

公共艺术限时体验打造