网易首页 > 网易号 > 正文 申请入驻

AI大牛卡帕西盛赞DeepSeek!对着论文夸了半小时,称其思维能力“难以置信”

0
分享至


智东西
编译 陈骏达
编辑 Panken

智东西2月12日消息,近日,OpenAI联合创始人、前特斯拉AI总监、知名计算机科学家李飞飞的爱徒安德烈·卡帕西(Andrej Karpathy)在YouTube上发布一则3.5小时的超长免费课程,向普通观众做了一次全面的大模型科普。其中,他花费近半个小时时间,以最近爆火的DeepSeek-R1为例,详解了背后强化学习技术路径的巨大潜力。


卡帕西认为,在大模型训练体系中,预训练、监督微调和强化学习是其中的三个主要阶段,而“强化学习是一切调整到位的环节”。虽然强化学习的本质并不复杂,即“试错学习”,但在如何选择出最佳的解决方案、提示词分布等问题上还有许多细节尚未明晰,仅停留于各大AI实验室内部,缺乏统一标准,解决这些问题并不容易。

因此,DeepSeek-R1研究论文的主要贡献便是:“它首次公开讨论了强化学习在大语言模型的应用,并分享了这项技术是如何让模型涌现出推理能力”。R1在强化学习过程中涌现出的思维能力,被卡帕西称为“最令人难以置信的成效”。

未来,如果我们继续在大模型领域对强化学习路径进行Scaling,就有望让大模型也能解锁像AlphaGo“第37步棋”那样的“神之一手”,创造出人类从未设想过的思考方式,比如用一门全新的语言进行思考。

不过,这一切实现的前提是,我们需要创造足够大、足够多样的问题集,让模型能自由地探索解决方案。

以下内容是对卡帕西课程中涉及DeepSeek与强化学习内容的总结提炼,完整视频链接及课程材料已附于文末。

一、DeepSeek-R1验证强化学习魔力,卡帕西称其“非常可靠”

强化学习的基本工作方式是让模型在可验证的问题上(如数学、代码)等领域不断试错,并根据答案的正误去激励那些得出正确答案的行为,最终引导模型实现能力提升。卡帕西称:“强化学习是一切调整到位的环节。”

当前主流的大语言模型训练体系主要包含三个阶段:预训练、监督微调(SFT)和强化学习(RL)。预训练相当于通读所有教科书的基础知识,构建知识图谱;SFT就像是模仿专家解题模板,学习规范化的解题流程;而RL则是通过海量练习题自主探索解题策略。

其中,前两个阶段的预训练和SFT已发展成熟,被行业广泛采用。而最具突破性的RL仍处于早期发展阶段。虽然OpenAI等公司内部也有进行尝试,但从未对外界直接披露。

在卡帕西看来,DeepSeek-R1论文的重要意义,正是在于它是第一篇公开讨论强化学习在大语言模型应用的论文,并分享了这项技术是如何让模型涌现出推理能力。这篇论文激发了AI界使用RL训练大语言模型的兴趣,并提供了许多研究结果和技术细节。

DeepSeek在R1论文中分享了R1-Zero在AIME竞赛数学问题上的准确性提升过程。卡帕西分析道,AIME数学题本身的难度并不是特别高,但是R1-Zero一开始的表现并不理想。随着强化学习的步骤越来越多,模型的准确性持续上升,因为它在这类问题上进行了大量的试错。


比正确率提升还令人惊喜的是,模型在这一过程中打磨出了一套独特的解决方式。在优化的后期,模型倾向于使用更长的回答(也就是更多的token)来获得更高的准确性。


R1在RL的过程中涌现出了所谓的“aha moment”,这意味着它已经发现,尝试更多想法,从不同角度尝试、回溯、重构问题,是能够明显提升准确率的。


R1所做的事情其实与人类解决数学问题的模式类似。但这一解决方案并不靠模仿人类,也不是靠硬编码,而是完全自然涌现的。R1重新发现了人脑的思维过程,自学了思维链(CoT)。在卡帕西看来,这是RL运用于大语言模型时,最令人难以置信的成效。

OpenAI的员工先前的公开言论显示,OpenAI的o1、o3 mini等模型都使用了RL技术。卡帕西称就性能而言,这些模型和DeepSeek-R1大致相当,DeepSeek-R1是一款非常可靠的思考模型。

不过,并不是所有的模型都适合使用思考模型进行处理,依照卡帕西的个人经验,他大约80%-90%的查询依旧是由GPT-4o完成的,当他遇到非常困难的代码和数学问题时,才会使用思考模型。

二、强化学习潜力早有端倪,有望彻底改变思考的形态

RL是一种极其强大的学习方式,这一发现对AI领域来说并不新鲜。AI界已经在一个领域见证了这一点,那就是围棋。DeepMind开发的AlphaGo,通过自博弈和强化学习,突破了人类棋手的实力上限。

当我们研究AlphaGo的论文时,可以发现一张与DeepSeek论文中极为类似的图表。这张图表显示,随着强化学习时间长度的不断增加,强化学习模型(蓝色实线)在围棋上的得分也越来越高,最终超过蓝色虚线所表示的李世石的得分。而紫色实现所代表的监督学习模型在逼近人类棋手得分后,未能实现超越。


监督学习模型本是上是在模仿人类专业棋手,但如果只是试图模仿他们,虽然能在一段时间里实现能力提升,但最终会达到一个瓶颈,永远无法从根本上超越人类玩家。

但在强化学习的过程中,模型的力量要大得多。在围棋的强化学习中,系统会广泛尝试那些在经验上和统计学意义上能赢得比赛的棋步。

AlphaGo会与自己对弈,并使用强化学习来创建推演。系统在学习过程中自主尝试了很多棋步,最终那些制胜的策略会被加强。强化学习不会受到人类表现的限制,它甚至可以超越像李世石这样的顶级玩家。

理论上,强化学习可以持续运行,但由于成本原因,DeepMind团队选择在某些时候停止,但这一案例充分展示了强化学习的潜力。而通过DeepSeek-R1,我们才开始看到强化学习在大语言模型的推理问题上更为泛化的潜力。

强化学习还让AlphaGo能够提出更为新颖的制胜方法——这便是有名的“第37步”。在AlphaGo战胜李世石的比赛中,它下了一步极为罕见的棋,人类棋手走出这样一步棋的概率仅为万分之一。

但事后看来,这是一步制胜的妙棋。AlphaGo在强化学习的过程中,发现了一种人类未知的下棋策略。

未来,如果我们继续在大语言模型领域对强化学习路径进行Scaling,或许也有可能解锁那些让人类摸不着头脑的解决方案。卡帕西认为,这有可能包括发现人类无法发现的类比,全新的思考策略,甚至是发明一种更加适合思考的语言。

从原则上来讲,强化学习系统的行为的条条框框要少很多,它会尝试做任何能实现目标的事情,也会逐渐偏离其原始训练数据中的语言(如英语)。但实现这些的前提是,我们需要为模型创造足够大的问题集,让模型能够不断优化和完善其解决问题的策略。这正是目前许多大语言模型研究的前沿议题。

三、多模态AI与语言模型无本质区别,测试时训练将成为前沿方向

卡帕西还在课程中预言了未来将会出现的几大AI趋势。

首先是多模态AI。由于音频、图片、视频等内容对AI模型来说没有本质区别,都可以被token化,因此只要采取大语言模型的训练逻辑和演进路线,便能提升模型在相关领域的表现。

其次是agents。目前,大部分AI模型还是在执行人类安排的任务,没有自行规划长链条任务并执行的能力还是其中的重要一环。

此外,测试时训练(test-time training)将会成为AI研究的前沿。在先前的训练模式中,训练后的参数就不会再变化了,这意味着模型停止了学习,它们唯一学到的新东西就是在上下文窗口中的内容。

但在未来,随着多模态任务让输入token量呈现指数级增长,一味提升上下文窗口的容量将无法满足模型性能提升的需求。测试时训练能让模型根据新数据微调其参数,让其更擅长特定问题的解答。测试时训练有望提升AI能力的重要方向之一。

结语:DeepSeek的突破性成就广受认可

强化学习作为上一个世代AI能力突破的重要方向,由DeepSeek在生成式AI时代再度发扬光大。然而,有不少海外竞争对手质疑、贬低DeepSeek的成就和原创性。

但在不少像卡帕西这样专注于技术本身的广大AI开发者看来,DeepSeek获得的种种开源突破,对整个AI界未来的发展来说是有利而无害的,他们也乐见DeepSeek创造出更多令人意想不到的惊喜。

完整视频:https://www.youtube.com/watch?v=7xTGNNLPyMI&t

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
基本没悬念了!李嘉诚旗下四公司股价暴跌,记者发布会被迫取消

基本没悬念了!李嘉诚旗下四公司股价暴跌,记者发布会被迫取消

智观科技
2025-03-20 13:40:07
莱州烧烤店网红老板娘私聊被曝光,尺度无下限,网红人设崩塌

莱州烧烤店网红老板娘私聊被曝光,尺度无下限,网红人设崩塌

派大星纪录片
2025-03-20 21:23:25
周星驰江郎才尽?7000㎡暴雨戏竟用浇花水管!网友:不如短剧团队

周星驰江郎才尽?7000㎡暴雨戏竟用浇花水管!网友:不如短剧团队

乌娱子酱
2025-03-20 13:35:44
李嘉诚再爆避税千亿,信托基金障眼法被戳穿,面临巨额罚款或刑诉

李嘉诚再爆避税千亿,信托基金障眼法被戳穿,面临巨额罚款或刑诉

说天说地说实事
2025-03-20 20:27:13
退休后必办的6张证,少一张可能损失十几万,附详细办理流程

退休后必办的6张证,少一张可能损失十几万,附详细办理流程

娱乐圈见解说
2025-03-20 15:35:39
华为宣布!“全国人民买得起、想不到的产品”来了……

华为宣布!“全国人民买得起、想不到的产品”来了……

券商中国
2025-03-20 16:47:41
后续:商k全关,因为两块钱的代驾费,小哥一怒之下整顿了商k场!

后续:商k全关,因为两块钱的代驾费,小哥一怒之下整顿了商k场!

老鹈爱说事
2025-03-20 16:54:44
气炸克鲁伊维特带队1-5惨败,印尼球迷3小时狂喷近30万条评论

气炸克鲁伊维特带队1-5惨败,印尼球迷3小时狂喷近30万条评论

直播吧
2025-03-20 22:45:09
江苏帅哥侯侨烧炭自杀,年仅36岁长得帅气,生前将茅台当茶喝

江苏帅哥侯侨烧炭自杀,年仅36岁长得帅气,生前将茅台当茶喝

180°视角
2025-03-20 11:42:38
它们张口闭口大是大非的时候,便是准备不讲理了

它们张口闭口大是大非的时候,便是准备不讲理了

胖胖说他不胖
2025-03-20 14:51:49
王启荣主动投案,接受审查调查

王启荣主动投案,接受审查调查

观察者网
2025-03-20 18:18:04
价格大跳水!家电界“爱马仕”割不动了?中产彻底醒悟:智商税

价格大跳水!家电界“爱马仕”割不动了?中产彻底醒悟:智商税

史行途
2025-03-19 10:31:43
天塌了!官方点名的5样“毒产品”,我家竟然有4个

天塌了!官方点名的5样“毒产品”,我家竟然有4个

小正说娱乐
2025-03-19 14:03:05
周鸿祎损失惨重,哪吒汽车出大事了

周鸿祎损失惨重,哪吒汽车出大事了

科技头版Pro
2025-03-20 14:49:33
票房破50亿,只是个开始!37岁的赵丽颖,要掀起一波“新高潮”了

票房破50亿,只是个开始!37岁的赵丽颖,要掀起一波“新高潮”了

皮皮电影
2025-03-20 17:07:10
主流媒体为大S发声,大S没能等到的判决,生前最后一条动态被提起

主流媒体为大S发声,大S没能等到的判决,生前最后一条动态被提起

素素娱乐
2025-03-20 14:30:57
顾行长的后宫里,都是窝边草

顾行长的后宫里,都是窝边草

仓一胤
2025-03-10 08:30:03
热搜爆了!12款酱油检出镉,7款检出总砷,“千禾0”竟然只是个商标?

热搜爆了!12款酱油检出镉,7款检出总砷,“千禾0”竟然只是个商标?

21世纪经济报道
2025-03-20 15:32:59
“确实没钱了”!知名车企三大工厂已停摆,高管现场爆料:我们工资也欠着,尽量确保车主一些基本的东西!公司此前3年亏超180亿元

“确实没钱了”!知名车企三大工厂已停摆,高管现场爆料:我们工资也欠着,尽量确保车主一些基本的东西!公司此前3年亏超180亿元

每日经济新闻
2025-03-20 13:15:11
没想到,李乘德用“一纸声明”,将胡杏儿钉在众人围观的耻辱柱上

没想到,李乘德用“一纸声明”,将胡杏儿钉在众人围观的耻辱柱上

八卦南风
2025-03-20 15:35:16
2025-03-20 23:56:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
9600文章数 116728关注度
往期回顾 全部

科技要闻

华为发业界首款阔折叠华为Pura X,7499元起

头条要闻

13款宣称零添加酱油被送检:12款检出镉 7款检出总砷

头条要闻

13款宣称零添加酱油被送检:12款检出镉 7款检出总砷

体育要闻

赛季快结束了,想起来自己是合同年了?

娱乐要闻

主流媒体为大S发声,生前最后一条动态被提起

财经要闻

快递诈骗 韵达出事

汽车要闻

搭华为ADS 3.3 问界新M5 Ultra售22.98万起

态度原创

数码
手机
艺术
游戏
军事航空

数码要闻

AWE2025石头科技全系新品展出 洗烘套装首次亮相

手机要闻

智慧新物种来了!华为Pura X全新小艺 语音交互更具真人感

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

支持NS2?《异度之刃X:终极版》有隐藏60帧

军事要闻

与泽连斯基通话结束 特朗普:谈得非常好

无障碍浏览 进入关怀版