Andrej Karpathy 的 2025 LLM 总结|调用|代码|编程|gui|llm|神经网络

Andrej Karpathy 的 2025 LLM 总结

分享至

关于训练范式的变化、benchmark 的失效、Cursor、Claude Code、VibeCoding、LLMGUI

1. RLVR
RLVR成为继Pretraining、Supervised Finetuning、RLHF之后的新训练阶段。通过在数学/代码等可验证环境中训练，LLM自发习得推理策略，学会分解问题和多步求解。与传统微调不同，RLVR允许长时间优化，提供高能力/成本比，吞噬了原本用于预训练的算力。2025年能力进步主要来自更长的RL运行。

2. Ghosts vs. Animals
LLM的优化目标与人类神经网络截然不同，造就了锯齿状智能，既是天才博学者又是易受骗的小学生。RLVR导致LLM在可验证领域能力飙升但整体参差不齐。Benchmark因可验证性易被针对优化，"在测试集上训练"成新艺术。

3. Cursor
Cursor揭示LLM应用的新形态：为垂直领域编排多个LLM调用，进行context engineering，提供专用GUI和自主性滑块。争议在于这个应用层有多"厚"。他认为LLM实验室培养通用人才，而LLM应用通过私有数据、传感器和反馈将其激活为特定领域的专业团队。

4. Claude Code
Claude Code是LLM Agent的首个成功展示，循环串联工具使用和推理。关键是它运行在本地电脑而非云端。OpenAI错将agent部署在云容器中，但在能力参差的过渡期，本地运行与开发者协作更合理。CC以CLI形式呈现，让AI从网站变成"生活"在电脑上的精灵，这是全新交互范式。

5. Vibe coding将改造软件并改变职位描述
Vibe coding让编程不再是专业人士专属，普通人也能使用。它还让专业人士编写更多原本不会写的软件，代码变得免费、临时、可丢弃。

6. Nano banana / LLM GUI
Nano banana预示LLM GUI雏形。正如计算机从命令行演进到GUI，LLM也应从纯文本聊天进化到视觉输出。人们不喜欢读文本，它缓慢费力。Nano banana展示了文本生成、图像生成和世界知识融合的联合能力。

来源：x.com/karpathy/status/2002118205729562949

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.