网易首页 > 网易号 > 正文 申请入驻

大模型比预期聪明得多,也愚笨得多 | 卡帕西点评2025

0
分享至


2025 年是大语言模型取得显著进展、且事件频发的一年。下面列出的是一些在我个人看来尤为重要、并且略显出人意料的“范式变化”——它们改变了大模型面貌,也改变了我的理解。

  1. 来自可验证奖励的强化学习(RLVR)

在 2025 年初,几乎所有实验室的大模型生产级技术栈和工程流程体系大致都是这样:

预训练(GPT-2/3,大约 2020 年)

监督微调(InstructGPT,大约 2022 年)

以及来自人类反馈的强化学习(RLHF,大约 2022 年)

一段时间以来,这一套方法被证明是训练可用于生产的大模型的稳定配方。到了 2025 年,来自可验证奖励的强化学习(RLVR)出现,并事实上成为新的主要阶段。

通过在多个环境中针对可自动验证的奖励来训练大模型(例如数学或代码谜题),模型会自发地产生在人类看来像是“推理”的策略——它们学会把问题拆解为中间计算步骤,也学会多种来回求解的策略(可参见 DeepSeek R1 论文中的示例)。在此前的范式下,这些策略极难获得,因为并不清楚对大模型而言,什么样的推理轨迹和恢复路径才是最优的——模型必须通过奖励优化自行发现哪些方式对它有效。

与 SFT 和 RLHF 这两个相对薄/短(计算量较小的微调)的阶段不同,RLVR 是在客观(无法投机利用)的奖励函数下进行训练,因此允许更长时间的优化。实践证明,运行 RLVR 带来了高能力/成本比,直接吞噬了原本打算用于预训练的算力。因此,2025 年的大部分能力进展,实际上来自于各大实验室消化这一新增阶段的积压,总体表现为模型规模相近,但 RL 运行时间显著拉长。

这一新阶段还有一个独特之处:我们获得了一个全新的调节旋钮(以及与之对应的缩放规律),可以通过在测试时生成更长的推理轨迹、增加“思考时间”,来控制模型能力。OpenAI 的 o1(2024 下半年)是第一个 RLVR 模型的演示,而 o3(2025 年初)的发布,则是一个明显的拐点,人们可以直观地感受到差异。

  1. 幽灵 vs 动物 / 锯齿状智能

2025 年,是我(我想也是整个行业)第一次以更直觉的方式真正理解大模型智能“形状”的一年。我们并不是在“进化或培育动物”,而是在“召唤幽灵”。

大模型体系的方方面面都与生物智能不同(神经结构、训练数据、训练算法,尤其是优化压力)因此我们在智能空间中得到的是完全不同的实体,用“动物”的视角去理解它们并不合适。从监督信息的角度看,人类神经网络是为丛林中部落的生存而优化的;而大模型的神经网络则是为模仿人类文本、在数学谜题中获取奖励、以及在语言模型竞技场中获得人类点赞而优化的。

随着可验证领域为 RLVR 打开空间,大模型在这些领域附近会出现能力的“尖峰”,整体表现出一种颇为有趣的锯齿状性能特征——它们一方面像是博学的天才通才,另一方面又像是认知混乱、容易受骗的小学生,随时可能被一次越狱攻击诱导交出你的数据。


(人类智能为蓝色,AI 智能为红色。我很喜欢这个梗图,它指出人类智能本身也以另一种方式呈现出锯齿状。)

与此相关的,是我在 2025 年对基准测试普遍产生的冷淡与不信任。核心问题在于:基准测试几乎在结构上就是可验证环境,因此极易受到 RLVR 及其弱化形式(通过合成数据)影响。在典型的“刷榜”过程中,实验室团队不可避免地会构建环境,靠近一个角落,位于基准测试所占据的嵌入空间,并在这些地方“长出锯齿”。在测试集上训练,已经成为一种新的艺术形式。

把所有基准测试都碾压一遍,却仍然得不到 AGI,这是怎么回事?

我在以下文章中对这一主题写了更多内容:

Animals vs. Ghosts (动物 vs.幽灵)

Verifiability (可验证)

The Space of Minds (心智空间)

  1. Cursor / 新一层的大模型应用

Cursor 今年最让我印象深刻的,并不仅是它的爆发式增长,而是它清晰地揭示了一种全新的“大模型应用层”——人们开始谈论“某领域的 Cursor”。

正如我在今年的 Y Combinator 演讲中所强调的那样,像 Cursor 这样的应用会为特定垂直领域打包并编排大模型调用:

它们负责“上下文工程”;

在后台将多次模型调用串联成越来越复杂的有向无环图(DAG),在性能与成本之间精细权衡;

为人类参与者提供特定应用的图形界面;

并提供一个“自主程度滑块”。

2025 年有大量讨论围绕这一新应用层到底有多“厚”。大模型实验室会不会吃下所有应用?是否仍有空间留给独立应用?我个人的判断是:实验室会培养出通用能力相当于大学生的模型,而具体的大模型应用则会通过提供私有数据、传感器、执行器和反馈回路,把这些模型组织、微调并真正“激活”为特定领域中的专业团队。

  1. Claude Code / 驻留在你电脑里的 AI

Claude Code(CC)是我见到的第一个真正令人信服的大模型智能体示例——它以一种循环的方式,将工具使用与推理串联起来,完成长时间的问题求解。

同时,它运行在你的电脑上,使用你的私有环境、数据和上下文。这一点在我看来非常重要。我认为OpenAI在这里的方向是错误的,因为它早期将 Codex /智能体聚焦于由 ChatGPT 编排的云端容器,而不是直接运行在本地。

虽然云端运行的智能体集群可能是“AGI 终局”,但我们目前身处的是一个能力锯齿、起飞速度较慢的中间阶段,在这种情况下,把智能体直接运行在开发者的电脑上更合理。真正重要的区别并不在于 AI 运算发生在哪里,而在于:已经启动的电脑本身、其安装环境、上下文、数据、密钥、配置,以及低延迟的交互。

Anthropic 把优先级顺序理清了,并将 CC 打包成一个令人愉悦、极简的 CLI (命令行界面)形态,改变了 AI 的样貌——它不再只是一个你访问的网站,而是一个“住在你电脑里”的小幽灵。这是一种全新的、独立的 AI 交互范式。

  1. 氛围编程(Vibe Coding)

2025 年,是 AI 跨过一个关键能力门槛的一年:人们可以仅通过英语构建各种令人印象深刻的程序,甚至忘记代码的存在。有趣的是,我是在一条随手写下的推文中无意创造了“vibe coding”这个词,完全没想到它会流传开来。

在这种模式下,编程不再只是专业人士的专利,而成为任何人都能做的事情。这也再次印证了我在《权力归于大众》中写过的观点:与此前所有技术不同,大模型让普通人获得的收益远大于专业人士、企业或政府。

(2025/4/8) 阅读全文>

与此同时,氛围编程也让专业开发者能够写出大量原本不会被写出来的软件。今年我用这种方式写了多个项目,只是为了快速验证某个想法。代码突然变得廉价、短暂、可塑,用完即弃。

氛围编程将重塑软件,并改变工作描述。

  1. NanoBanana /大模型GUI

Google 的 Gemini Nano Banana 是 2025 年最令人震撼、最具范式意义的模型之一。在我看来,大模型是继 1970、80 年代计算机之后的下一代计算范式,因此我们将看到类似的创新:个人计算、微控制器、互联网等。

在 UI/UX 层面,与大模型“聊天”,就像 1980 年代在命令行里给计算机下指令。文本是计算机偏好的数据形式,但并不是人类偏好的输入形式。人们更喜欢视觉和空间化的信息呈现,这正是 GUI 出现的原因。

同样,大模型也应该用人类偏好的方式与我们交流——图像、信息图、幻灯片、白板、动画、网页应用等。Nano Banana 是这一方向的早期信号,它的重要之处不仅在于生成图像,而在于文本生成、图像生成与世界知识在模型权重中的纠缠。

总结

2025 年是令人兴奋、略显意外的一年。大模型正在显现为一种全新的智能形态:既比我预期的聪明得多,又比我预期的愚笨得多。它们极其有用,而行业甚至还没有意识到它们潜力的 10%。

与此同时,想法多得令人应接不暇,整个领域依然是一片广阔的开放空间。正如我今年早些时候在 Dwarkesh 播客中提到的那样,我同时相信(表面看似矛盾):我们既会看到快速而持续的进展,也还有大量工作要做。

系好安全带。

原文来自卡帕西的博客:

https://karpathy.bearblog.dev/year-in-review-2025/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
18岁谢振轩穿西装照曝光,颜值气质已赶超谢霆锋!网友:像谢贤

18岁谢振轩穿西装照曝光,颜值气质已赶超谢霆锋!网友:像谢贤

娱乐团长
2026-01-09 12:04:34
不是马琳!不是王皓!王励勤背后大招曝光,奥运冠军或杀回战场!

不是马琳!不是王皓!王励勤背后大招曝光,奥运冠军或杀回战场!

篮球看比赛
2026-01-08 11:38:31
记者:奇才愿与特雷-杨签3年1.2亿美元续约合同,奇才很欢迎他加盟

记者:奇才愿与特雷-杨签3年1.2亿美元续约合同,奇才很欢迎他加盟

懂球帝
2026-01-09 08:42:10
模仿“印度奶茶”后续!涉事霸王茶姬女员工被开除,长的很漂亮

模仿“印度奶茶”后续!涉事霸王茶姬女员工被开除,长的很漂亮

阿纂看事
2026-01-07 09:42:16
购洗碗机遭丈夫砸家后续:女子回应披露更多细节,家当下仍有外债

购洗碗机遭丈夫砸家后续:女子回应披露更多细节,家当下仍有外债

天天热点见闻
2026-01-09 08:34:00
女网红流落柬埔寨后续,医生检查结果曝光:小便困难,毒品呈阳性

女网红流落柬埔寨后续,医生检查结果曝光:小便困难,毒品呈阳性

凡知
2026-01-08 07:46:45
千胜教头!全队疯狂朝卡莱尔浇水庆祝 状元签概率14%已放眼明年

千胜教头!全队疯狂朝卡莱尔浇水庆祝 状元签概率14%已放眼明年

颜小白的篮球梦
2026-01-09 15:45:02
访华第2天,李在明得偿所愿,不到24小时,高市对中国提出2个请求

访华第2天,李在明得偿所愿,不到24小时,高市对中国提出2个请求

近史博览
2026-01-08 09:36:51
又轰下38+10+10!抱歉威少:你从历史第二变成了历史第三

又轰下38+10+10!抱歉威少:你从历史第二变成了历史第三

篮球大视野
2026-01-08 17:43:43
被垫脚了!伦纳德再次受伤,快船欲哭无泪

被垫脚了!伦纳德再次受伤,快船欲哭无泪

德译洋洋
2026-01-09 15:10:09
阿隆索:我不喜欢西蒙尼这样对我的球员说话;姆巴佩明天出发

阿隆索:我不喜欢西蒙尼这样对我的球员说话;姆巴佩明天出发

懂球帝
2026-01-09 06:23:14
中国即将迎来一轮波澜壮阔的大牛市,现在只是初期阶段你信吗?

中国即将迎来一轮波澜壮阔的大牛市,现在只是初期阶段你信吗?

小白鸽财经
2026-01-08 20:30:03
Faker排位中发现一玩家ID涉嫌辱华,随后果断举报

Faker排位中发现一玩家ID涉嫌辱华,随后果断举报

懂球帝
2026-01-09 10:26:41
江苏企退人员,12月过渡性养老金已增700元,2026年再增300元吗?

江苏企退人员,12月过渡性养老金已增700元,2026年再增300元吗?

八斗小先生
2026-01-09 10:57:25
特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

我心纵横天地间
2026-01-07 16:57:21
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

另子维爱读史
2026-01-07 20:53:19
哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

岐黄传人孙大夫
2026-01-08 10:06:20
新华社官宣:轰-20和歼-36的正式亮相非常值得期待

新华社官宣:轰-20和歼-36的正式亮相非常值得期待

烽火观天下
2026-01-08 11:52:17
86岁李双江近况传出!真的不敢相信,他如今活成了这样!

86岁李双江近况传出!真的不敢相信,他如今活成了这样!

谁将笑到最后
2026-01-08 09:29:51
2026-01-09 16:11:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
282文章数 61关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

"老板"拉群开口就要150万 女财务付100万后感觉天塌了

头条要闻

"老板"拉群开口就要150万 女财务付100万后感觉天塌了

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

檀健次恋爱风波越演越烈 上学经历被扒

财经要闻

郁亮的万科35年:从"宝万之争"到"活下去"

汽车要闻

英伟达的野心:做一套自动驾驶的“安卓系统”

态度原创

教育
健康
房产
本地
军事航空

教育要闻

一年级培优题,填数字,很多家长都算错了

这些新疗法,让化疗不再那么痛苦

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

军事要闻

特朗普:已开始从委石油资源中赚钱

无障碍浏览 进入关怀版