网易首页 > 网易号 > 正文 申请入驻

OpenAI联合创始人揭秘AI进化新方向:让模型学会和人类一样反思

0
分享至

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。

这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任务,最后只得到一个单一的“得分”(scalar reward),然后用这个得分去调整整个过程中的行为权重。这就像跑了一场马拉松,最后只告诉你“跑得不错”或“跑得不好”,但没有具体告诉你哪里可以改进。这种方式在超长任务上显得粗糙,效率不高。

2. 人类学习的差异(机制问题):

人类在学习时并不完全依赖“结果好坏”这种单一信号。我们会通过反思来提取更多信息,比如“这次哪里做得好?哪里出了问题?下次该怎么改进?”这种反思过程会生成明确的经验教训(lessons),就像一条条指导原则,帮我们在未来做得更好。

Karpathy 觉得,RL 缺少这种类似人类反思的机制,而这可能是 LLMs 未来进化的关键。

人类学习的启发:反思与“经验教训”

Karpathy 用“second nature”(第二本能)来形容人类通过反思逐渐掌握技能的过程。比如,你学骑自行车时,摔了几次后会总结:“我得保持平衡,眼睛看前方。”这种总结就像一条“经验教训”,直接指导你下次的行为。

Karpathy 认为,AI 应该也有类似机制,尤其是像 LLMs 这样有强大语言能力和上下文学习能力的模型。他举了个例子:LLMs 在处理某些任务(比如数单词“strawberry”里的“r”)时,因为分词和内部计算的限制,表现得很吃力。Anthropic 给 Claude 加了一条“补丁”提示,大意是:“如果要数字母,先把单词拆成单个字母,用逗号隔开,然后一个一个数。”这条提示就像人类总结的“经验教训”,直接告诉模型怎么做更有效。

问题在于:这条“补丁”是工程师手动加的。Karpathy 想知道,能不能让模型自己通过实践和反思,自动生成这样的“经验教训”,而不是靠人类硬编码?更进一步,这些教训能不能被“蒸馏”成模型的直觉(类似人类睡觉时巩固记忆),避免上下文窗口无限膨胀?

提出的一种新算法思路

Karpathy 设想了一种可能的算法,灵感来自人类反思的机制,专门为 LLMs 设计:

1. 多次尝试(Rollouts):让模型针对一个任务做几次尝试,每次记录行为和结果(奖励高低)。

2. 反思阶段:把这些尝试的结果塞进上下文窗口,用一个“元提示”(meta-prompt)引导模型分析:“这次哪里做得好?哪里不好?下次该怎么改进?”生成一条明确的“经验教训”(lesson),以字符串形式记录。

3. 更新系统提示:把新生成的“教训”加到系统提示中,或者存到一个“教训数据库”里,供未来使用。4. 长期优化:为了避免上下文窗口塞满这些教训,可以通过某种方式(类似“睡眠”)把它们蒸馏到模型权重中,形成更高效的直觉。这种方法利用了 LLMs 的独特优势——它们能理解和生成语言,能在上下文里学习新策略。而传统的 RL(比如在 Atari 游戏或机器人控制中)没有这种语言能力,所以无法直接套用这个思路。

为什么这很重要?未来的 S 曲线

Karpathy 认为,RL 确实比监督微调更“苦涩”,而且还会带来更多性能提升。但他也相信,RL 只是当前的一条 S 曲线(技术进步的阶段性曲线),未来还有更多曲线等待发现。特别是对于 LLMs 这样有语言能力的模型,可能会有全新的学习范式,超越传统 RL 的局限。

这些范式可能跟人类反思、总结、归纳的方式更接近,而且在长任务和复杂问题上更高效。他提到的 ChatGPT 新增的“Memory”功能,可能是一个雏形,但目前只用于个性化定制(比如记住用户偏好),还没用于解决复杂问题。Karpathy 的设想是:如果能让模型自己总结经验教训,并在实践中不断优化,可能会开启 AI 智能的新篇章。

Andrej Karpathy个人简介:

Andrej Karpathy 是人工智能研究机构 OpenAI 的创始成员之一,并在其早期发展阶段(2015年至2017年)担任研究科学家;

2017年6月,他接受埃隆·马斯克的邀请,离开 OpenAI,加入特斯拉,担任人工智能和 Autopilot Vision 的总监,后晋升为 AI 高级总监;

2023年2月,在离开特斯拉一段时间后,Karpathy 宣布重新加入 OpenAI,参与改进 ChatGPT 的 GPT-4模型。

责任编辑:孙海阳_NS7151

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

林子说事
2026-03-26 14:08:00
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
马英九基金会决定中止今年两岸青年交流,马应该出面声明!

马英九基金会决定中止今年两岸青年交流,马应该出面声明!

达文西看世界
2026-03-26 10:58:22
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

观察者海风
2026-03-25 22:10:33
成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

大象新闻
2026-03-25 17:53:10
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
明天起,高速缴费“大变脸”!车主:早该这样了!

明天起,高速缴费“大变脸”!车主:早该这样了!

小李子体育
2026-03-26 02:23:44
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
姐弟失散33年终团圆:认亲第二天闹掰,弟弟撂狠话,直播片段曝光

姐弟失散33年终团圆:认亲第二天闹掰,弟弟撂狠话,直播片段曝光

刘哥谈体育
2026-03-26 11:47:19
华山医院候诊屏现“照顾号”引热议,院方:为75岁以上老人等优待群体提供便利

华山医院候诊屏现“照顾号”引热议,院方:为75岁以上老人等优待群体提供便利

上游新闻
2026-03-26 15:33:08
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

懂球帝
2026-03-26 13:21:13
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

复转这些年
2026-03-25 10:02:32
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
强闯中国驻日使馆不法之徒照片曝光,3月15日刚晋升三等陆尉

强闯中国驻日使馆不法之徒照片曝光,3月15日刚晋升三等陆尉

澎湃新闻
2026-03-26 14:34:04
2026-03-26 18:19:00
爆角追踪
爆角追踪
全球热点事,一起来追踪。
1251文章数 214074关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
房产
时尚
数码
军事航空

教育要闻

中小学家长必看数据,看与不看都会后悔

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

皮衣+裙,高级到炸

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版