网易首页 > 网易号 > 正文 申请入驻

DeepSeek登上Nature封面:不用人类教,AI自己学会推理|光锥读论文

0
分享至

你是否曾好奇,人工智能是否能够像人类一样进行逻辑推理?比如解数学题、写代码,或者解决复杂的科学问题?最近,由深度求索(DeepSeek)团队发布的一项研究显示,大语言模型不仅能够推理,甚至还能自己学会如何推理——而这一切,竟然几乎不需要人类手把手教。

2025 年 9 月 17 日,这项研究成果以DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning为题,发表在《自然》杂志上,梁文锋为论文通讯作者,该论文还被选为本期封面论文。


这篇文章向我们展示了一种全新的训练AI的方式:不再依赖人类撰写大量的“推理步骤”示范,而是通过强化学习(Reinforcement Learning, RL),让模型在尝试和反馈中自主发展出推理能力

与此同时,Nature 发表 Editorial 文章称,DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型,并称此举“意义重大”。

传统方法:依赖人类示范的推理

过去,要想让大语言模型(比如ChatGPT这类AI)“学会”推理,研究人员通常得为它准备大量的人类示范数据。例如,一步一步地展示如何解方程、如何写程序、如何做逻辑推断。这种方法被称为“思维链”(Chain-of-Thought, CoT) prompting

虽然有效,但这种方式存在明显瓶颈:严重依赖人工标注,成本高、难以规模化;模型只会模仿人类,难以超越人类的推理方式;人类的思维模式未必是最优的,可能限制AI发现更高效的推理路径。

DeepSeek-R1:让AI自己“思考”

DeepSeek团队尝试了一条不同的路径:抛开人类示范,只通过强化学习训练模型。他们使用了一个名为GRPO(Group Relative Policy Optimization)的算法,模型只有在最终答案正确时才会获得“奖励”,而中间思考过程则完全自由。

令人惊讶的是,在这种“只问结果、不管过程”的训练方式下,模型逐渐自发地发展出了复杂的推理策略,例如:

  • 自我反思:在推理中会停顿、检查错误,甚至出现“等一下,这里好像不对”这样的表达;

  • 多路径探索:尝试多种解法,验证不同思路;

  • 动态调整策略:根据题目难度自主分配“思考时间”,简单题快速过,难题多想几步。

这些能力并非人类预先设计,而是模型在训练中自行涌现的。

研究过程中,团队训练了两个主要模型。DeepSeek-R1-Zero由纯强化学习训练而来,在数学、编程等硬推理任务上表现极强,但在语言流畅度和多任务泛化上存在不足;DeepSeek-R1则在R1-Zero基础上,融合了少量人类偏好数据,提升了语言一致性和整体实用性。

在包括AIME数学竞赛、编程竞赛、MMLU综合评测等多个权威测试中,R1系列模型都显著超越了仅依靠人类示范训练的模型。


未来展望与挑战

这项研究的价值并不在于“做出了一个超级AI”,而在于它展示了一条更自主、更可扩展的AI能力发展路径。

它说明,AI的推理能力可以通过计算和反馈自动涌现,而不总是依赖人类经验;训练出的模型不仅能用于自身,还能帮助小型模型提升推理能力;它为AI在数学、编程、科学等领域的应用提供了新的方法支持。

尽管DeepSeek-R1在推理方面表现突出,但它依然存在一些局限性:在处理非中英文查询时可能出现语言混合;对提示词(prompt)比较敏感,不适合复杂指令控制;在软件工程等需要长周期验证的任务上提升有限。研究人员表示,这些方向将是下一阶段改进的重点。

如果说过去的AI是在“模仿人类”,那么DeepSeek-R1则是在“自学成才”——这或许是通向更通用、更强大人工智能的重要一步。

编辑:郭廓

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
科技部:C919目前累计获得国内外订单超过1000架

科技部:C919目前累计获得国内外订单超过1000架

红星新闻
2025-09-18 16:18:31
震惊!上海工厂一夜搬空,万名工人恐失业!

震惊!上海工厂一夜搬空,万名工人恐失业!

舞指飞扬
2025-08-14 06:39:27
佛山一家游泳馆“闭馆清洁7天”变“永久关店”,300多名家长学费“冻过水”?最近进展→

佛山一家游泳馆“闭馆清洁7天”变“永久关店”,300多名家长学费“冻过水”?最近进展→

佛山电视台小强热线
2025-09-19 20:45:12
空铺、撤出、冷清!上海又一“巨型”商场沦为“鬼城”?

空铺、撤出、冷清!上海又一“巨型”商场沦为“鬼城”?

品牌观察官
2025-09-18 19:54:27
卢伟冰:小米 17 系列手机依然有 Ultra 版

卢伟冰:小米 17 系列手机依然有 Ultra 版

IT之家
2025-09-19 21:19:16
排队道歉!拉什福德爆发,3负1胜巴萨成唯一尊严,1将令对手惊呼

排队道歉!拉什福德爆发,3负1胜巴萨成唯一尊严,1将令对手惊呼

话体坛
2025-09-19 06:06:00
西贝开始给罗永浩泼脏水了

西贝开始给罗永浩泼脏水了

亮见
2025-09-12 14:05:39
随着丁俊晖+吴宜泽出局,英格兰赛8强诞生!16位种子选手仅剩2人

随着丁俊晖+吴宜泽出局,英格兰赛8强诞生!16位种子选手仅剩2人

球场没跑道
2025-09-19 07:47:02
罗永浩输了,人已在香港

罗永浩输了,人已在香港

石场阿鑫
2025-09-18 18:37:45
我们国家的征信系统其实早就不符合当下的经济环境了

我们国家的征信系统其实早就不符合当下的经济环境了

流苏晚晴
2025-09-19 22:05:43
山东泰山发布齐鲁德比预热海报,克雷桑、卡扎领衔出镜

山东泰山发布齐鲁德比预热海报,克雷桑、卡扎领衔出镜

雷速体育
2025-09-19 19:02:48
中国特高压会被取代吗?美国超导输电明年试点,迎来零损耗时代?

中国特高压会被取代吗?美国超导输电明年试点,迎来零损耗时代?

Thurman在昆明
2025-09-18 13:58:42
中日对决主场不能输!圣坛组合2-1日本王牌,四强国羽占半壁江山

中日对决主场不能输!圣坛组合2-1日本王牌,四强国羽占半壁江山

钉钉陌上花开
2025-09-19 19:24:44
陈乔恩吵架提离婚! 听艾伦落泪脱口「1句话」:我真的吓到了

陈乔恩吵架提离婚! 听艾伦落泪脱口「1句话」:我真的吓到了

ETtoday星光云
2025-09-19 13:57:52
普京的警告没起作用,第五个向波兰派兵的国家出现,中方斩钉截铁

普京的警告没起作用,第五个向波兰派兵的国家出现,中方斩钉截铁

梁讯
2025-09-18 01:12:18
詹姆斯:我在中国还是没买国际漫游流量 但我连上了酒店的WiFi

詹姆斯:我在中国还是没买国际漫游流量 但我连上了酒店的WiFi

直播吧
2025-09-19 06:56:05
西甲公布各队薪资上限,皇马高达7.6亿欧,比巴萨多4亿

西甲公布各队薪资上限,皇马高达7.6亿欧,比巴萨多4亿

雷速体育
2025-09-19 19:53:23
上海爷叔带285万巨款坐公交!最怕的事发生…

上海爷叔带285万巨款坐公交!最怕的事发生…

看看新闻Knews
2025-09-19 21:05:14
三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

文史达观
2025-09-08 20:13:26
“台独”大佬去世消息传出,不足一天,国民党火速表态,明确撇清关系

“台独”大佬去世消息传出,不足一天,国民党火速表态,明确撇清关系

奇思妙想生活家
2025-09-19 15:14:38
2025-09-19 23:07:00
呼呼历史论
呼呼历史论
分享有趣的历史
210文章数 15141关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

女教师在闺蜜群聊"八卦"被认定诽谤遭行拘 当事人发声

头条要闻

女教师在闺蜜群聊"八卦"被认定诽谤遭行拘 当事人发声

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

684亿大牛股,把孕妇逼到胎停?

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

时尚
旅游
家居
亲子
本地

30岁后越来越美的女人,只穿滋养自己的衣服

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

家居要闻

公共艺术 限时体验打造

亲子要闻

怀孕还不到100斤!方媛的惊人孕期状态

本地新闻

大学生军训哪家强,广西申请“出战”!

无障碍浏览 进入关怀版