网易首页 > 网易号 > 正文 申请入驻

Andrej Karpathy:AI写代码1小时重构整个项目

0
分享至


去年夏天,OpenAI被传正在研发一个"万能验证器",能让强化学习在所有领域生效。一年过去,没动静。与此同时,主导OpenAI强化学习战略的Jerry Tworek离职,留下一句"深度学习研究到头了"。

这两件事搁一起看,有点意思。

同一套模型,两个平行世界

Andrej Karpathy最近把AI圈的分裂摆到了台面上。他说现在有两拨人,各说各话,根本聊不到一块去。

第一拨人用过免费版ChatGPT,或者那个语音模式,被各种低级错误和幻觉劝退。Karpathy直言,这些"过时模型"反映不了现在的真实水平。

第二拨人在用最新模型——OpenAI的GPT-5.4 Thinking(思考模式)、Claude Opus 4.6,配合Codex或Claude Code这类工具做专业开发。Karpathy说,这半年进展巨大,模型现在能独立重构整个代码库,自己找安全漏洞。

最魔幻的是:这两件事同时发生。

OpenAI那个免费、几乎被"放养"的高级语音模式,会在抖音神曲这类问题上翻车;但同一公司最贵的Codex模型,能花1小时有条理地重构整个代码库,或者找到并利用系统漏洞。

Karpathy的原话是:"这两拨人基本上是在互相错过。"

为什么代码行,聊天不行?

答案藏在"能不能验证"里。

代码和数学有个特点:对错分明。跑一遍测试,编译通过就是通过,漏洞找到就是找到。这种领域特别适合强化学习——模型尝试→得到明确反馈→调整策略。Karpathy管这叫"可验证奖励的强化学习"(Reinforcement Learning with Verifiable Rewards)。

但写作、咨询、日常闲聊这些"模糊领域"呢?没有干净的标准来优化。你觉得这段文案好,我觉得一般,谁对?

Karpathy在更早一篇关于"软件2.0"的文章里写过核心逻辑:重要的不是你能不能描述任务,而是你能不能验证结果。只有拿到自动化反馈——通过/失败,或者清晰的奖励信号——系统才能被高效训练。

"一项任务或工作越可验证,就越适合在新编程范式下自动化。"

这解释了为什么AI在LeetCode(力扣,程序员刷题平台)上杀疯了,却在"帮我写个朋友圈文案"这种需求上让人抓狂。不是模型变笨了,是后者根本没有训练信号。

通用智能的悖论

这就引出一个悬而未决的问题:通用智能到底能不能从语言模型里长出来?还是我们只能把模型调教成特定领域的专家?


Karpathy没有直接回答,但他指出了一个结构性困境。OpenAI去年夏天传出的"万能验证器",理论上能解决这个困境——给所有领域都装上自动判卷机。但一年过去,没出货。

更微妙的是人事变动。Jerry Tworek是OpenAI强化学习战略的核心人物,他的离职和那句"深度学习研究到头了",被不少人解读为信号。当然,也可能是个人选择,但时间点耐人寻味。

技术路线上的分歧也在显现。Anthropic的Claude系列在"有用性"和"无害性"之间反复横跳,本质上也是在处理"没有标准答案"时的训练难题。OpenAI的o系列模型(o1、o3)试图用"思考链"(Chain-of-Thought)模拟验证过程,让模型自己检查自己——但这终究是近似,不是真正的外部验证。

一个残酷的事实是:我们训练AI的方式,决定了AI能做什么。

强化学习需要奖励信号,而奖励信号需要验证器。代码有单元测试,数学有证明检查器,围棋有胜负。但"高情商回复""创意文案""战略建议"呢?人类评委太贵、太慢、太不一致。

产品经理的视角:功能边界即产品边界

换个角度想,这其实是好事。

如果你在做AI产品,"可验证性"就是你的护城河。RPA(机器人流程自动化)厂商为什么活得滋润?因为他们的场景明确:发票识别、数据录入、流程跳转,每一步都有对错。客服质检、代码审查、安全扫描,这些赛道正在被AI快速吃掉。

但别指望同一个模型既能写代码又能当人生导师。Karpathy的观察提醒我们:能力边界不是技术问题,是训练结构问题。

用户不会理解"强化学习信号密度"这种概念,他们只会觉得"这AI时而神仙时而智障"。产品设计的挑战在于,把"可验证"的能力包装成可靠功能,把"不可验证"的能力降级为辅助建议,而不是假装它能做决策。

一些团队已经在这么做了。Cursor(AI代码编辑器)把代码生成和终端执行打通,让模型自己看报错、自己改——这就是在构建"验证闭环"。Perplexity(AI搜索)坚持给每条信息标来源,让用户自己验,也是一种务实策略。

反过来,那些试图让AI"什么都管"的产品,往往在模糊地带栽跟头。医疗诊断、法律咨询、心理咨询,不是模型不够大,是没人敢签字负责。

回到那个夏天

去年夏天的"万能验证器"传闻,像是一个技术乌托邦的缩影:只要找到那个元规则,AI就能自我进化,打通所有领域。

一年后的今天,我们看到的反而是领域分化加剧。代码工具越来越强,通用聊天机器人却在原地踏步。OpenAI把资源押注在Codex这类专业工具上,语音模式确实有点像Karpathy说的"被孤儿化"了。

这不是矛盾,是选择。

Karpathy的洞察在于,他指出了"进步"本身的相对性。对程序员来说,AI正在经历最好的时代;对普通用户来说,免费ChatGPT和两年前差别不大。两个群体都在基于真实体验下判断,只是他们用的根本不是同一个产品。

那个"万能验证器"还会来吗?OpenAI没说话。Jerry Tworek的离职是句号还是逗号,也没人知道。

唯一确定的是,下次有人跟你说"AI已经无所不能"或者"AI就是噱头"的时候,先问他一句:你用的是哪个模型,做什么用?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美日一季度GDP差距断崖,美国7.32万亿,日本1.02万亿,中国呢

中美日一季度GDP差距断崖,美国7.32万亿,日本1.02万亿,中国呢

青烟小先生
2026-04-11 10:29:33
锂电牛股净利狂增275倍,股价半年飙涨163%

锂电牛股净利狂增275倍,股价半年飙涨163%

21世纪经济报道
2026-04-11 09:11:51
“尼特族”已达2.6亿,比啃老还令人唾弃,离开父母他们会咋样呢

“尼特族”已达2.6亿,比啃老还令人唾弃,离开父母他们会咋样呢

音乐时光的娱乐
2026-04-11 11:42:45
巴顿孙子走进乌克兰指挥中心:每一次击杀都在大屏直播

巴顿孙子走进乌克兰指挥中心:每一次击杀都在大屏直播

桂系007
2026-04-11 00:11:11
《浪姐7》让人尴尬的几位嘉宾,虚伪、装嫩、惹人厌,不要再来了

《浪姐7》让人尴尬的几位嘉宾,虚伪、装嫩、惹人厌,不要再来了

翰飞观事
2026-04-04 14:48:10
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

奇思妙想草叶君
2026-01-21 22:47:01
半夜十二点,婆婆发圈毁了儿子的婚姻,儿子:您没老伴也别害我啊

半夜十二点,婆婆发圈毁了儿子的婚姻,儿子:您没老伴也别害我啊

清水家庭故事
2026-04-10 14:23:24
美国网友:如果中国这么伟大,为什么从来没有发明过任何东西?

美国网友:如果中国这么伟大,为什么从来没有发明过任何东西?

混沌录
2026-04-08 16:54:13
刘德华12岁女儿首度亮相演唱会,笑容甜美,气质不输圈内顶流明星,神似16岁的刘亦菲

刘德华12岁女儿首度亮相演唱会,笑容甜美,气质不输圈内顶流明星,神似16岁的刘亦菲

二妹扯娱
2026-04-11 13:13:15
蓝莓被点名!医生:糖尿病患者常吃蓝莓,很快或迎来这些后果

蓝莓被点名!医生:糖尿病患者常吃蓝莓,很快或迎来这些后果

今日养生之道
2026-04-11 13:05:14
中央曾经内定的台湾省委书记,是他…

中央曾经内定的台湾省委书记,是他…

年代回忆
2026-04-09 20:07:20
广东一男子帮弟弟刷脸认证微信号,致他人充值了9万余元的游戏账号被盗,法院:判处有期徒刑十个月,缓刑一年

广东一男子帮弟弟刷脸认证微信号,致他人充值了9万余元的游戏账号被盗,法院:判处有期徒刑十个月,缓刑一年

环球网资讯
2026-04-11 11:14:06
参观洋山港后,郑丽文一句话,将赖清德一军,蓝营又有一人支持

参观洋山港后,郑丽文一句话,将赖清德一军,蓝营又有一人支持

DS北风
2026-04-09 15:22:19
奉陪到底,中方专机抵朝前,朝鲜亮出集束弹头,日韩防长紧急通话

奉陪到底,中方专机抵朝前,朝鲜亮出集束弹头,日韩防长紧急通话

共工之锚
2026-04-10 01:25:50
封锁6周,超2万海员被困船上:同事死去,不得不与遗体共处一船;物资短缺,有人已出现“精神崩溃”,还有人辞职并拒绝穿越霍尔木兹海峡

封锁6周,超2万海员被困船上:同事死去,不得不与遗体共处一船;物资短缺,有人已出现“精神崩溃”,还有人辞职并拒绝穿越霍尔木兹海峡

每日经济新闻
2026-04-11 11:12:13
美国第一夫人发声后 国会称将就爱泼斯坦案举行听证会

美国第一夫人发声后 国会称将就爱泼斯坦案举行听证会

财联社
2026-04-11 14:14:18
七座逃生大桥全被炸断,数万真主党被前后锁死:以军司令下令总攻

七座逃生大桥全被炸断,数万真主党被前后锁死:以军司令下令总攻

阿芒娱乐说
2026-04-10 18:01:11
江苏省挂号费最贵的十位医生

江苏省挂号费最贵的十位医生

华庭讲美食
2026-04-10 12:09:24
悲催!网传有女生举报送桶装水的大爷进出女宿舍,现抱怨搬水太累

悲催!网传有女生举报送桶装水的大爷进出女宿舍,现抱怨搬水太累

火山詩话
2026-04-10 11:12:20
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
2026-04-11 15:40:49
野生运营
野生运营
懂点产品,懂点AI,正在努力给平淡日子搞点新花样。
1176文章数 10关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

知名巨头CEO在美国的住宅凌晨被投燃烧弹 他发文回应

头条要闻

知名巨头CEO在美国的住宅凌晨被投燃烧弹 他发文回应

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

家居
数码
本地
时尚
公开课

家居要闻

复古风格 自然简约

数码要闻

4月15日见!索尼INZONE英纵电竞外设新品官宣

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

这件人生单品,现在正是穿它的黄金期

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版