网易首页 > 网易号 > 正文 申请入驻

卡帕西:强化学习很糟糕,但其他所有方法都更糟

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

卡帕西大神的最新专访来了!

作为特斯拉前AI总监OpenAI创始成员,卡帕西在近两个半小时的访谈中,深入回答了一系列引人深思的问题:

  • 为何强化学习表现糟糕(但其他方法更糟糕)?
  • 为何通用人工智能会延续2%的GDP增长率?
  • 为何自动驾驶技术历经漫长攻坚期?

解答问题之余,由于卡帕西早已宣布全职搞教育,那不得不提的还有他对未来教育发展的见解。

网友表示:知识点实在太密集了,卡帕西访谈的两个小时等于别人的四个小时。

干货要来了,请系好安全带,别被轰晕了!

AGI起码还要十年

访谈一开始,主持人就先对卡帕西提出了一个人令许多人都很好奇的问题:

  • 为什么说未来将是“智能体的十年”,而不是“智能体的一年”?

卡帕西解答道,现在确实有一些非常早期的智能体,比如他每天都在使用的Claude、Codex等,它们已经展现出令人惊叹的能力。

但不可否认的是,这些系统还需要不断进化,最终达到理想状态,而十年正是实现这一蜕变所需要的时间跨度。

那这个时间节点为什么是十年呢?

卡帕西接着举了个例子,他认为,当智能体能够像员工或实习生一样与人协作时,才是它真正发挥作用的时候。

显然,目前智能体还做不到这样。那么,为了让它们做到,需要什么条件呢?为什么人们今天还没用它们来做呢?

原因很简单,就是现有系统尚未成熟。智能水平尚未达标、多模态能力存在局限、也缺乏操作计算机完成复杂任务的能力。

此外,它们也没有持续学习能力——你无法通过单次告知就让系统永久掌握知识。在认知架构层面仍存在显著缺陷,导致现有方案完全不可行。

凭借卡帕西15年做AI的经验,要系统性解决这些难题,大约还需要十年。

LLM认知缺陷

之后,卡帕西还讲了自己构建代码仓库的一些事情。

他认为目前人们与代码交互的方式主要有三类:

  • 完全拒绝所有大语言模型(LLM),坚持手动编写所有代码。
  • 中间派系(也是卡帕西所属的阵营)仍然会亲自编写大量代码,但会利用现有的自动补全功能。
  • 氛围编程,直接输入“请实现某某功能”,然后让模型完成。

卡帕西承认,现有的智能体在做模块化代码方面确实很有效,但他做的NanoChat是一个很独特的仓库,几乎每行都需要深度思考,所有细节都必须精确安排。

然而,现有的模型存在太多认知缺陷。由于它们在训练中吸收了网络上常见的编程范式,所以它们总是无法突破思维定势,执意要将代码改造成生产级标准。

但卡帕西的代码本身已包含若干假设,根本不需要那些冗余内容。它们不仅膨胀了代码库规模,增加了复杂度,还频繁使用已弃用的API,最终搞得一团糟。

总的来说,卡帕西认为现在的模型还没有达到理想状态,业界对它们的能力有些过度夸大,其实它们仍需要大量改进。

强化学习很糟糕

接着,主持人聊到了现在大火的强化学习。

卡帕西表示:

  • 强化学习远比普通人想象的还要糟糕,它确实很差,但其他方法更差。

以解数学题为例,在强化学习中,你会首先生成大量尝试方案:针对同一问题产出数百种解法,可能涉及不同思路的探索与调整,最终某个答案恰好正确。

这时强化学习的做法是:对最终正确的解题路径上的每个步骤都进行权重强化,仿佛在说“请多做这类操作”。

但问题在于这种做法充满噪声。它默认正确解法的每个环节都完美无缺,但现实中人们常会绕弯路,只是最终误打误撞找到答案。只要结果正确,所有错误步骤反而都被强化了——这显然不合理。

人们投入大量计算资源,最终仅获得“正确/错误”的二元判断,并据此对整个轨迹进行加权,卡帕西认为,“这实在荒谬”。

真正的人类绝不会这么干。第一,人类不会做数百次尝试;第二,当人类找到答案时,会进行复杂的复盘:“哪些做得好,哪些没做好”。他们会思考,而当前LLM完全没有这种机制。

以阅读为例,当LLM“阅读”时,只是在做下一个词预测并从中获取知识。但人类阅读时,书本更像是激发思考的提示集——人们会通过信息重组来内化知识。

对此,卡帕西期待在预训练阶段加入“思考消化”环节,让模型能真正整合新信息与既有认知。

AGI将延续2%的GDP增长趋势

接着,主持人还提到了衡量AGI的标尺,以教育水平为例,AGI是从高中生水平通过强化学习达到大学生水平,最终取得博士学位。

卡帕西可不认同上述标准,他认同的是OpenAI初创时对AGI的定义:能完成任何具有经济价值任务且达到或超越人类水平的系统。

这就涉及到现有工作被替代的程度,卡帕西认为,即使是如客服中心员工这种更易自动化的职业,AGI也不能瞬间完全替代,而是实现“自主性滑块”——AI处理80%常规工作,剩下20%留给人类监督。

那如果有AGI替代人类工作,它的并行复制会显著加速AI进步吗?会出现智力爆炸吗?

卡帕西回答道:智力爆炸已经在发生了,通过历史GDP的指数增长就能体现出来。这是渐进的自动化趋势:工业革命是物理自动化,早期软件是数字自动化。

他认为:

  • 这种增长模式大体保持不变。就像互联网让我们维持2%的增长一样,AGI也只是延续这种模式,不会突然产生巨大的跳跃。

自动驾驶为何耗时如此之长

主持人还提到了卡帕西在特斯拉的经历,问道:“你曾在2017年到2022年领导特斯拉自动驾驶项目,为什么这个项目耗时如此之长?”

首先,卡帕西澄清了一点:自动驾驶还远未完成。

对于某些任务或工作来说,演示到产品的差距非常大。演示可能很容易,但做成真正的产品非常难。自动驾驶尤其如此,因为失败代价太高。

软件工程也有类似特性。比如普通编程可能没那么严格,但如果你写的是生产级代码,任何小错误都可能导致安全漏洞,泄露数百万人的个人信息。

自动驾驶如果出错可能有人受伤,但软件出错可能带来的后果几乎是无限的。

其中的关键在于所谓的“9的进度”。每增加一位9(比如从90%到99%的可靠性),都需要大量工作。卡帕西在特斯拉的五年里,他们可能达到了三位或两位9,但还有更多9等着去完成。

毕竟真正的产品要面对现实中的各种挑战,需要不断修补各种边缘情况。

教育的未来

最后,卡帕西作为一名全职教育家,不得不提的还有教育。

卡帕西表示:

  • 我们在尝试建立一所技术知识方面的顶尖学府,一所非常现代化、领先的学校。我想做的是一种真正的“导师体验”。

以他学韩语为例,一开始是自学,然后加入韩国的一个小班,和十来个学生一起上课。后来他换成了一对一导师。他发现这位导师的教学非常棒,可以迅速判断他的知识水平,提出合适的问题来理解他的认知模型。

目前,即使是优秀的LLM也做不到这一点,但好的导师可以做到。一旦导师了解自己,就能提供给学生最需要的知识——适度的挑战,既不太难也不太简单。

此外,卡帕西还想做一门非常优秀的课程,让学生学习AI时能有顶尖的体验。这个课程就是LLM101N,Nanochat是其中的经典项目。之后他还需要构建中间内容,招募助教团队,完善整门课程。

最后的最后,有的网友也是狠狠附议了卡帕西访谈中的一些观点。

比如LLM的“健忘症”。

但有的人也表示:

  • 完全不同意,现在的编码智能体已经很可靠了。

对此,你怎么看呢?欢迎在评论区分享你的观点~

参考链接:https://www.dwarkesh.com/p/andrej-karpathy

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
06|取消非市场化行为

06|取消非市场化行为

生命可以承受之轻
2026-05-08 11:23:48
到底是谁,掐死了我国的生育率?为什么越来越多的人不想生孩子?

到底是谁,掐死了我国的生育率?为什么越来越多的人不想生孩子?

妙招酷
2026-05-07 23:40:18
三球大胜后,瓜迪奥拉做了这个手势......

三球大胜后,瓜迪奥拉做了这个手势......

五星体育
2026-05-10 09:14:42
她是国民党少将的女儿,中国第二位女副总理,晚年却带着遗憾去世

她是国民党少将的女儿,中国第二位女副总理,晚年却带着遗憾去世

阿器谈史
2026-05-10 10:40:49
何超莲没网上说的那么有钱坐直升飞机飞澳门竟是为霸王茶姬做宣传

何超莲没网上说的那么有钱坐直升飞机飞澳门竟是为霸王茶姬做宣传

陈意小可爱
2026-05-10 11:48:53
28分惨案3分绝杀!4强一夜再乱,广东逆天改命,上海夺冠概率大增

28分惨案3分绝杀!4强一夜再乱,广东逆天改命,上海夺冠概率大增

后仰大风车
2026-05-09 23:12:27
上海外卖骑手误点取餐,担心超时罚款下跪磕头求店员快点

上海外卖骑手误点取餐,担心超时罚款下跪磕头求店员快点

映射生活的身影
2026-05-10 11:22:18
恒大原总裁夏海钧广州豪宅被拍卖:坐拥一线江景,7室5厅6卫,起拍价4943万元!他曾年薪2亿元,被曝藏身于美国加州,与妻儿同住

恒大原总裁夏海钧广州豪宅被拍卖:坐拥一线江景,7室5厅6卫,起拍价4943万元!他曾年薪2亿元,被曝藏身于美国加州,与妻儿同住

每日经济新闻
2026-05-09 17:19:51
德利赫特背伤难愈!复出遥遥无期,曼联寻找新援,千万级替身浮现

德利赫特背伤难愈!复出遥遥无期,曼联寻找新援,千万级替身浮现

体坛鉴春秋
2026-05-10 10:34:01
越来越多人查出胰腺炎?提醒:冰箱这5样东西放久了可能是元凶

越来越多人查出胰腺炎?提醒:冰箱这5样东西放久了可能是元凶

芹姐说生活
2026-05-08 19:03:26
二战德军的“怪癖”:打死一个苏军士兵,立刻脱掉军靴给自己穿上

二战德军的“怪癖”:打死一个苏军士兵,立刻脱掉军靴给自己穿上

掠影后有感
2026-05-10 10:50:48
果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

精彩启程
2026-05-09 23:51:47
逼走陈忠和,打压刘国梁,排挤郎平,90岁“体坛恶人”如今咋样了

逼走陈忠和,打压刘国梁,排挤郎平,90岁“体坛恶人”如今咋样了

拳击时空
2026-05-10 07:41:43
穷人打倒了“地主”,为什么没有“富”起来?贫穷的本质是什么?

穷人打倒了“地主”,为什么没有“富”起来?贫穷的本质是什么?

三农雷哥
2025-12-04 18:42:18
成都“炸街”团伙凌晨飙车,甚至挑衅执法人员,3人被刑事立案、30人被行政拘留

成都“炸街”团伙凌晨飙车,甚至挑衅执法人员,3人被刑事立案、30人被行政拘留

环球网资讯
2026-05-09 15:07:11
张皓嘉压哨三分助广东男篮加时险胜北京队,下周上演终极对决

张皓嘉压哨三分助广东男篮加时险胜北京队,下周上演终极对决

南方都市报
2026-05-09 23:38:07
果不其然,特朗普访华又生变数?中方提的要求,美方竟然一口回绝

果不其然,特朗普访华又生变数?中方提的要求,美方竟然一口回绝

世界更加宽广
2026-05-10 10:08:19
“起初偷一两件,后来用假货代替,最后直接懒得补”,深圳一珠宝公司直播中控多次偷拿黄金样品涉案金额超100万,被判有期徒刑三年十个月

“起初偷一两件,后来用假货代替,最后直接懒得补”,深圳一珠宝公司直播中控多次偷拿黄金样品涉案金额超100万,被判有期徒刑三年十个月

潇湘晨报
2026-05-09 13:21:10
求救也晚了,伊朗宣布对美舰开火,话音刚落,土耳其摆出洲际导弹

求救也晚了,伊朗宣布对美舰开火,话音刚落,土耳其摆出洲际导弹

番外行
2026-05-10 08:14:46
心理学:脐带绕颈的孩子长大后,比别人更胆小更容易感到恐惧

心理学:脐带绕颈的孩子长大后,比别人更胆小更容易感到恐惧

九霄心理
2025-04-21 17:25:44
2026-05-10 12:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12598文章数 176461关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

牛弹琴:74岁法国政坛老将对华清醒表态 让人刮目相看

头条要闻

牛弹琴:74岁法国政坛老将对华清醒表态 让人刮目相看

体育要闻

詹姆斯生涯第6次0-3困境:今年会被横扫吗

娱乐要闻

消失已久的陈宝国,近况曝光惹人揪心

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
房产
艺术
旅游
健康

教育要闻

想象力保护:别用“标准答案”限制了孩子

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

艺术要闻

毛主席83岁时写给华国锋的6字真相令人震惊!

旅游要闻

睡莲开啦!郑州5个观赏睡莲的好去处推荐

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版