网易首页 > 网易号 > 正文 申请入驻

Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点

0
分享至

OpenAI创始人之一,AI大神Andrej Karpathy近日发布年度复盘,称2025年是大型语言模型领域蓬勃发展的一年,出现了六个关键的"范式转变"拐点。这些变化不仅改变了行业格局,更重要的是揭示了LLM正在演变成一种全新的智能形态。

12月20日,据硬AI消息,Karpathy在社交平台X上发布的年度复盘中表示,LLM正在演变成一种新型智能,"比我预期的要聪明得多,同时也比我预期的要笨得多"。


他指出,今年出现了6个改变行业格局的"范式转变"关键拐点,其中基于可验证奖励的强化学习(RLVR)成为LLM生产流程中的新阶段,各大实验室将原本用于预训练的算力转向了更长周期的强化学习训练。

他特别强调了LLM智能的"锯齿状"特征,称这些模型既是博学的天才,又像是思维混乱的小学生。Karpathy表示,LLM不是在"进化动物"而是在"召唤幽灵",这种全新的智能形态需要用不同的视角来理解。

他在复盘中指出,从预训练到强化学习的技术演进、从文本交互到图形界面的用户体验革新,以及从专业编程到"氛围编码"的能力普及,都标志着AI应用正在进入新的发展阶段。

尽管目前能力已经极其有用,但Karpathy认为整个行业实现出的LLM潜力还不到10%,预计将看到持续且飞速的进展,但技术挑战仍然艰巨。

拐点一:基于可验证奖励的强化学习改变训练范式

2025年最重要的技术突破是基于可验证奖励的强化学习(RLVR)成为LLM训练的新阶段。

Karpathy称,传统的生产级LLM训练流程包括预训练、指令微调和基于人类反馈的强化学习三个阶段,而RLVR的加入彻底改变了这一格局。

RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似"推理"的策略。模型学会将问题拆解为中间计算步骤,并掌握多种来回尝试、推导解决问题的方法。DeepSeek R1论文展示了这些策略的具体表现。

与计算量较小的SFT和RLHF不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化。这种方法具有极高的"能力/成本比",吞噬了原本用于预训练的算力。2025年大部分能力提升都源于各实验室消化这一新阶段的"算力积压"。

OpenAI o1是RLVR模型的首次展示,但o3的发布才是真正的拐点,让人能直观感受到差异。RLVR还带来了一个全新调节旋钮:通过生成更长推理路径、增加"思考时间"来控制推理能力。

拐点二:"幽灵智能"展现锯齿状性能特征

2025年,业界开始真正理解LLM智能的独特"形态"。

Karpathy指出,我们并非在"进化动物",而是在"召唤幽灵"。LLM的神经架构、训练数据、算法和优化压力都与生物智能完全不同,产生了全新的智能实体。

人类神经网络为丛林部落生存而优化,LLM神经网络则为模仿人类文本、获取数学题奖励和在LM Arena获得点赞而优化。这种差异导致LLM展现出"锯齿状"性能特征:既是博学天才,又像认知障碍的小学生,前一秒解难题,后一秒就可能被简单提示词破解。

随着可验证领域的RLVR应用,LLM在这些领域附近出现能力"激增",但整体表现极不均衡。这种现象让Karpathy对基准测试产生信任危机,因为基准测试本质上就是可验证环境,极易受到RLVR攻击。实验室团队通过"刷榜"在测试集周围构建环境,"面向测试集训练"成为新艺术形式。

拐点三:Cursor引领新一代LLM应用层崛起

Cursor的崛起不仅在于其成功,更在于它揭示了"LLM应用"的全新层级。人们开始讨论各行各业的"Cursor版本",标志着垂直领域LLM应用的兴起。

像Cursor这样的LLM应用为特定垂直领域封装并编排LLM调用,具备四个核心功能:

处理"上下文工程";在底层编排多个LLM调用,串联成复杂的有向无环图,平衡性能和成本;为人类参与提供特定应用的图形界面;提供"自主程度调节滑块"。

2025年业界热议这个新应用层的"厚度"问题:LLM实验室会通吃所有应用,还是给垂直应用留下发展空间?

Karpathy认为,LLM实验室倾向于培养通用能力的"大学生",而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些"大学生"组织成特定领域的专业从业者。

拐点四:Claude Code开创本地AI智能体新范式

Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理,进行长时间问题解决。更重要的是,Claude Code运行在用户电脑上,使用私有环境、数据和上下文。

Karpathy认为OpenAI在这方面走偏了,过度专注云端容器和ChatGPT编排,而非本地部署。虽然云端智能体集群像"AGI终局",但在当前能力参差不齐的过渡阶段,直接在电脑上运行智能体,与开发者具体配置协作更有意义。

Claude Code抓住了正确的优先顺序,将其打包成精美、极简的命令行形态,改变了AI的样貌。AI不再是被动访问的网站,而是"住"在电脑里的灵体。这种本地化、个性化的AI交互范式为未来发展指明了方向,强调了隐私保护和个性化体验的重要性。

拐点五:Vibe Coding让编程能力普及化

2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,完全忽略底层代码存在。"Vibe Coding"概念的流行标志着编程门槛的彻底降低。

Vibe Coding使编程不再是专业人士专利,任何人都能参与。这印证了LLM"权力归于人民"的特点:与以往技术不同,普通人从LLM获益远超专业人士、企业和政府。不仅普通人能尝试编程,专业开发者也能创造更多原本不会开发的软件。

Karpathy分享了自己的实践经验:

用Rust开发高效BPE分词器,创建各种快速Demo应用,甚至为找单个Bug开发整个临时应用。代码变得免费、瞬时、可塑,用完即弃。这种变化将重塑软件生态,改变职业定义,让创意实现的成本接近零。
拐点六:Nano Banana开启LLM图形界面时代

谷歌Gemini Nano Banana被Karpathy称为2025年最震撼、最具范式转移意义的模型。在他的世界观中,LLM是继1970-80年代计算机后的下一次重大计算范式,将产生类似历史意义的创新。

当前与LLM对话类似80年代向电脑控制台输入命令。文本虽是计算机和LLM偏好的原始数据表示,但并非人类偏好格式。人类不喜欢阅读长文本,更喜欢视觉和空间方式消费信息,这是GUI在传统计算中被发明的原因。

LLM也应以人类偏好格式交流:图像、信息图、幻灯片、白板、动画视频、网页应用等。Emoji和Markdown是早期尝试,但真正的"LLM GUI"需要更深层创新。

Nano Banana提供了这种可能性的早期雏形,其显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合。

这种多模态融合能力预示着未来AI交互界面的根本变革,从纯文本对话转向富媒体、多感官的沉浸式体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
$8000万!维州退休老人独揽Powerball头奖,多次漏接电话,中奖后痛哭

$8000万!维州退休老人独揽Powerball头奖,多次漏接电话,中奖后痛哭

澳洲红领巾
2026-02-13 14:44:47
高云翔给父亲庆生显孤独!天津老破小蜗居曝光,小酒窝长得像爷爷

高云翔给父亲庆生显孤独!天津老破小蜗居曝光,小酒窝长得像爷爷

一抹宁静
2026-02-10 22:30:36
路都走不稳,全程开原音假唱,还想去鸟巢开演唱会,谁给的自信?

路都走不稳,全程开原音假唱,还想去鸟巢开演唱会,谁给的自信?

小椰的奶奶
2026-02-13 14:32:05
断星链又封Telegram!俄兵恐慌喊话普京:夺走保命工具,种瓜得瓜

断星链又封Telegram!俄兵恐慌喊话普京:夺走保命工具,种瓜得瓜

老马拉车莫少装
2026-02-11 17:15:53
科学家连四维都没有弄明白,为何说宇宙是十一维度的?

科学家连四维都没有弄明白,为何说宇宙是十一维度的?

宇宙时空
2026-02-12 08:00:34
命中率100%!中国女篮25岁后卫闪耀砍13+3:宫鲁鸣推出新利器

命中率100%!中国女篮25岁后卫闪耀砍13+3:宫鲁鸣推出新利器

李喜林篮球绝杀
2026-02-12 14:45:29
原来她是蓝盈莹母亲,带女儿再嫁上海富豪,现她成老板女儿成名媛

原来她是蓝盈莹母亲,带女儿再嫁上海富豪,现她成老板女儿成名媛

冷紫葉
2026-02-10 18:14:47
港股午评:恒生指数跌1.79% AI双雄再创历史新高

港股午评:恒生指数跌1.79% AI双雄再创历史新高

财联社
2026-02-13 12:33:04
米兰冬奥奖牌榜:前三没变,德国上升4位,韩国升5位,我国降1位

米兰冬奥奖牌榜:前三没变,德国上升4位,韩国升5位,我国降1位

湘楚风云
2026-02-13 10:21:17
魔性,对独行侠赛前热身詹姆斯舞蹈后助攻海斯空接扣篮

魔性,对独行侠赛前热身詹姆斯舞蹈后助攻海斯空接扣篮

懂球帝
2026-02-13 13:15:07
演都不演了?李咏美国下葬8年后,哈文带着女儿走上了姜昆的老路

演都不演了?李咏美国下葬8年后,哈文带着女儿走上了姜昆的老路

姩姩有娱
2026-02-13 14:14:23
南海危机急刹车!中方专机回国,外交部通告最后关头中菲达成一致

南海危机急刹车!中方专机回国,外交部通告最后关头中菲达成一致

策前论
2026-02-11 17:19:43
直线跳水!白银暴跌11%,黄金一度跌4%,发生了什么?

直线跳水!白银暴跌11%,黄金一度跌4%,发生了什么?

华尔街见闻官方
2026-02-13 07:28:23
米兰冬奥|中国速滑名将廉子文被取消成绩,虽尊重判罚但仍感意外

米兰冬奥|中国速滑名将廉子文被取消成绩,虽尊重判罚但仍感意外

文汇报
2026-02-12 07:39:26
当183、11岁的儿子大半夜问你要三块钱,能有多吓人?

当183、11岁的儿子大半夜问你要三块钱,能有多吓人?

另子维爱读史
2026-02-12 19:13:18
媒体人爆料:泰山队签下葡系发牌手!潍坊杯旧人,年薪或仅百万欧

媒体人爆料:泰山队签下葡系发牌手!潍坊杯旧人,年薪或仅百万欧

体坛小鹏
2026-02-13 10:59:10
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
2026国际特警挑战赛首日,国产171冲锋枪频繁卡弹,是质量问题吗

2026国际特警挑战赛首日,国产171冲锋枪频繁卡弹,是质量问题吗

正直小墨
2026-02-10 16:18:32
苹果向AirPods 4,AirPods Pro 2和3耳机推送8B5034f固件

苹果向AirPods 4,AirPods Pro 2和3耳机推送8B5034f固件

IT之家
2026-02-13 08:09:05
注意!天津芦庄子桂顺斋张贴最新公告!

注意!天津芦庄子桂顺斋张贴最新公告!

天津人
2026-02-13 12:16:14
2026-02-13 15:40:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
141734文章数 2652531关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

双航母压境美国"王牌"装备尽出 伊朗被指可能很难抵御

头条要闻

双航母压境美国"王牌"装备尽出 伊朗被指可能很难抵御

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

时尚
数码
艺术
教育
公开课

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

数码要闻

GAMEMAX新品机箱来袭,性价比爆棚!

艺术要闻

书法大师的神作现身,引发网友热议!

教育要闻

矩形折叠,直角三角形中建立方程,初中中考几何压轴题必考题型

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版