关于训练范式的变化、benchmark 的失效、Cursor、Claude Code、VibeCoding、LLMGUI
1. RLVR
RLVR成为继Pretraining、Supervised Finetuning、RLHF之后的新训练阶段。通过在数学/代码等可验证环境中训练,LLM自发习得推理策略,学会分解问题和多步求解。与传统微调不同,RLVR允许长时间优化,提供高能力/成本比,吞噬了原本用于预训练的算力。2025年能力进步主要来自更长的RL运行。
2. Ghosts vs. Animals
LLM的优化目标与人类神经网络截然不同,造就了锯齿状智能,既是天才博学者又是易受骗的小学生。RLVR导致LLM在可验证领域能力飙升但整体参差不齐。Benchmark因可验证性易被针对优化,"在测试集上训练"成新艺术。
3. Cursor
Cursor揭示LLM应用的新形态:为垂直领域编排多个LLM调用,进行context engineering,提供专用GUI和自主性滑块。争议在于这个应用层有多"厚"。他认为LLM实验室培养通用人才,而LLM应用通过私有数据、传感器和反馈将其激活为特定领域的专业团队。
4. Claude Code
Claude Code是LLM Agent的首个成功展示,循环串联工具使用和推理。关键是它运行在本地电脑而非云端。OpenAI错将agent部署在云容器中,但在能力参差的过渡期,本地运行与开发者协作更合理。CC以CLI形式呈现,让AI从网站变成"生活"在电脑上的精灵,这是全新交互范式。
5. Vibe coding将改造软件并改变职位描述
Vibe coding让编程不再是专业人士专属,普通人也能使用。它还让专业人士编写更多原本不会写的软件,代码变得免费、临时、可丢弃。
6. Nano banana / LLM GUI
Nano banana预示LLM GUI雏形。正如计算机从命令行演进到GUI,LLM也应从纯文本聊天进化到视觉输出。人们不喜欢读文本,它缓慢费力。Nano banana展示了文本生成、图像生成和世界知识融合的联合能力。
来源:x.com/karpathy/status/2002118205729562949
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.