学术分享丨2025大模型最全复盘：“中国开源”崛起、OpenAI“走下神坛”、Vibe Coding提升10倍生产力！|谷歌|编程|智能体|知名企业|openai|深度思考按钮

分享至

转自学术头条

这或许是对 2025 年大模型行业的最全面总结。

来自社交会议目录 Lanyrd 联合创始人、Django Web 框架联合创建者 Simon Willison 发表的最新文章《2025: The year in LLMs》。

作为一个资深业内人士，他带我们详细回顾了 2025 年大模型行业的整体发展脉络。核心观点涉及：

2025 年，是“中国开源”与“美国闭源”的竞争之年。这一年，GLM-4.7、Kimi K2 Thinking 等国产模型开始在全球范围内赢得更多关注。

2025 年，是OpenAI 失去领先优势，谷歌迎头赶上的一年，Gemini 3.0 和 Nano Banana 让 OpenAI 的 GPT-5 系列模型黯然失色，而且好像，“整个行业都已经追了上来”。

2025 年，Coding Agent 和 Claude Code 成为了大模型价值落地的真正所在，越来越多的开发者、甚至编程小白都可以通过 Vibe Coding 的方式提升 10 倍生产力。

此外，他还详细阐述了推理、智能体等技术范式如何推动行业发展，以及“Llama 走偏”“MCP 昙花一现”“AI 垃圾（slop）”等年度热门话题。干货满满，值得一读。

学术头条在不改变原文大意的情况下，对整体内容做了精编，如下：

推理之年

OpenAI 于 2024 年 9 月通过 o1 与 o1-mini 正式掀起了“推理（reasoning）”革命，这一范式也被称为推理时扩展（inference-scaling）或可验证奖励强化学习（RLVR）。在 2025 年初，OpenAI 又通过 o3、o3-mini 以及 o4-mini 进一步强化了这一方向。自此，“推理能力”逐渐成为几乎所有主流 AI 实验室模型的标志性特征。

关于这一技术路径的重要性，我最欣赏的解释来自 Andrej Karpathy：

通过在多个环境中，例如数学与代码类谜题，使用可自动验证的奖励信号对大语言模型进行训练，模型会自发涌现出在人类看来类似“推理”的行为，它们学会了多种解决问题的策略，通过反复推敲和不断尝试来理清思路、解决问题。

事实证明，运行 RLVR 具有极高的性价比，它迅速吞噬了原本用于预训练阶段的大量算力资源。因此，2025 年大部分的能力进展，本质上是各大实验室在消化这一新阶段所带来的技术红利。总体而言，我们看到的模型规模虽然与之前相近，但强化学习（RL）的训练时长却大幅增加了。

2025 年，每一家主流 AI 实验室都发布了至少一款推理模型。部分实验室推出了混合型模型，可在推理模式与非推理模式之间切换。许多 API 模型现在还配备了调节旋钮，允许用户根据特定的提示词来增加或减少推理的强度。

我花了一段时间才真正理解“推理”到底有什么用。最初的演示主要集中在模型如何解出数学题、或者数清“strawberry”里有几个字母“r”，但这些能力在日常的模型使用中基本用不上。

事实证明，推理能力真正的杀手锏在于驱动工具。具备工具调用能力的推理模型可以对多步骤任务进行规划、逐步执行，并在执行过程中持续对结果进行推理，从而动态调整计划以更好地达成预期目标。

一个显著的成果是，AI 辅助搜索现在开始奏效。过去，将搜索引擎接入 LLM 的效果往往不尽人意，但现在，即便是复杂的研究型问题，也可以通过 ChatGPT 中的 GPT-5 Thinking 得到解答。

推理模型在代码编写和调试方面同样表现出色。推理机制使模型能从一个错误出发，层层深入代码库的不同架构层级，从而找出问题的根源。我的实际体验是，即便是最棘手、最复杂的 bug，只要模型具备良好的推理能力，且能够在大型复杂的代码库中读取并执行代码，也往往可以被成功诊断出来。

将“推理能力”与“工具调用”相结合，你将得到……

智能体之年

年初时，我曾做出一个预测——智能体（agent）是不会出现的。整个 2024 年，几乎所有人都在谈论智能体，但真正能运行、能落地的却寥寥无几。更令人困惑的是，似乎每个在使用“智能体”这个词的人，给出的定义都互不相同。

直到 9 月，我实在受够了因为缺乏清晰定义而刻意回避这个词的做法，于是决定给它下一个简单的定义：智能体就是一个“为了达成目标而循环调用工具的大语言模型”。这个定义让我能够围绕它展开富有成效的交流。

我之所以认为智能体不会实现，是因为我觉得“易受骗（gullibility）”的问题无法解决，而且我认为 LLM 取代人类员工的设想，依然是近乎荒诞的科幻幻想。

我之前的预言对了一半，那种能完成你任何要求的“魔法电脑助手”，就像电影《她》（Her）里一样的事情，并没有成真……

但如果将“智能体”定义为能够通过多步工具调用来完成实际工作的 LLM 系统，那么智能体时代已经到来，并且正表现出超乎想象的实用价值。

智能体目前有两个最具突破性的应用类别：编程与搜索。

深度研究（Deep Research）模式，即让 LLM 长时间自动收集信息并生成详尽报告一份详尽报告，这种模式在今年上半年非常流行。但随着 GPT-5 Thinking，以及谷歌的 “AI mode”，能够在更短时间内产出相当质量的结果，这一模式已逐渐不再主流。我认为这仍然是一种智能体模式，而且在特定场景下效果非常好。

相比之下，“编程智能体（coding agents）”范式的影响力则要大得多。

编码智能体与 Claude Code 之年

2025 年最具影响力的事件发生在 2 月，即 Claude Code 的低调发布。

之所以说它“低调”，是因为 Anthropic 甚至没有为此单独发布一篇博客文章！Claude Code 只是被作为第二项内容，顺带包含在 Anthropic 宣布 Claude 3.7 Sonnet 的官方公告中。

（为什么 Anthropic 会从 Claude 3.5 Sonnet 直接跳到 3.7 ？因为他们在 2024 年 10 月对 Claude 3.5 进行了一次幅度很大的更新，但却完全沿用了原来的名称，结果开发者社区开始将这个未命名的 Claude 3.5 Sonnet v2 私下称作 3.6。由于未能为新模型合理命名，Anthropic 等于白白浪费了一个版本号。）

Claude Code 是我所称的编码智能体中最具代表性的案例，这类系统是指能够编写代码、执行代码、检查运行结果，并在此基础上持续迭代的大语言模型系统。

在 2025 年，各大主流实验室几乎都推出了各自的 CLI 编码智能体，包括：

Claude Code
Codex CLI
Gemini CLI
Qwen Code
Mistral Vibe

此外，不依赖特定厂商的选择还包括 GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI 以及 Pi。与此同时，Zed、VS Code 和 Cursor 等集成开发环境（IDE）也在编程智能体的集成上投入了大量工作。

我最早接触编程智能体范式是在 2023 年初，当时使用的是 OpenAI 的 ChatGPT 代码解释器（Code Interpreter），这是一个内置于 ChatGPT 中的系统，允许它在 Kubernetes 沙箱环境中运行 Python 代码。

令我欣喜的是，Anthropic 终于在今年 9 月发布了同类功能，尽管其初始名称极其令人困惑，叫作“使用 Claude 创建和编辑文件”。

到了 10 月，Anthropic 将这套容器化沙箱基础设施重新利用，推出了 Claude Code 网页版。从那之后，我几乎每天都在用它。

Claude Code 网页版被我称为异步编程智能体，这种系统在下达指令后就可以不用管它，它会独立钻研问题，并在完成后直接提交一个拉取请求。OpenAI 的 “Codex cloud”（在上周更名为 “Codex web”）也于 2025 年 5 月初上线。而 Gemini 在这一类别中的产品名为 Jules，同样于 5 月发布。

我非常喜欢异步编码智能体，它们为解决在个人电脑上运行任意代码所带来的安全风险提供了一个很好的解决方案。同时，也让用户能同时发起多个任务，很多时候甚至直接用手机操作，并在几分钟后收获不错的结果，这种体验本身就很有趣。

LLM 走向命令行之年

在 2024 年，我花了大量时间打磨 LLM 命令行工具，以便从终端调用模型。那段时间我一直很奇怪，为什么很少有人认真对待 CLI 方式访问模型？它们与 Unix 的“管道”等机制简直是天作之合。

也许终端本身就是太怪、太小众了，注定不可能成为访问 LLM 的主流方式？

而 Claude Code 及其同类工具已经有力地证明了：只要模型足够强、配套机制设计得当，开发者是完全愿意在命令行中使用 LLM 的。

此外，当 LLM 能够直接为你生成正确的命令时，那些语法晦涩、令人望而生畏的终端指都不再构成使用门槛。

截至 12 月 2 日，Anthropic 透露 Claude Code 的年化营收已达到 10 亿美元！我完全没想到，一个 CLI 工具能做到接近这样的规模。

事后回看，也许我真该早点把 LLM 从一个副业提升为核心业务来重点经营！

中国开源模型登顶之年

2024 年，中国 AI 实验室开始崭露头角，主要代表是 Qwen 2.5 和早期的 DeepSeek。虽然这些模型做得不错，但感觉还没到领先全球的地步。

这一局面在 2025 年发生了戏剧性的变化。仅在 2025 年，我在「ai-in-china」标签下就发布了 67 篇文章，而且我还错过了年底的一些关键发布，尤其是 GLM-4.7 和 MiniMax-M2.1 。

以下是截至 2025 年 12 月 30 日，Artificial Analysis 给出的开源模型排行榜：

GLM-4.7、Kimi K2 Thinking、MiMo-V2-Flash、DeepSeek V3.2 以及 MiniMax-M2.1 均为中国开源模型。在该榜单中，排名最高的非中国模型是 OpenAI 的 gpt-oss-120B（high），位列第六。

中国模型的这场革命，真正的起点可以追溯到 2024 年圣诞节 DeepSeek 3 的发布，据称其训练成本约为 550 万美元。随后，DeepSeek 于 1 月 20 日推出 DeepSeek R1，迅速引发了一场 AI 和半导体板块的大规模抛售，投资者开始恐慌，意识到 AI 或许并非被美国垄断，英伟达市值一度蒸发约 5930 亿美元。

恐慌并未持续太久，英伟达股价迅速回升，如今已远超 DeepSeek-R1 发布前的水平。尽管如此，那依然是令人瞩目的历史时刻。谁能想到，一个开源模型的发布竟然能产生如此巨大的影响力？

紧随 DeepSeek 之后，一大批实力雄厚的中国 AI 实验室集体亮相。我一直在特别关注以下几家：

DeepSeek
Alibaba Qwen (Qwen3)
Moonshot AI (Kimi K2)
Z.ai (GLM-4.5/4.6/4.7)
MiniMax (M2)
MetaStone AI (XBai o4)

其中多数模型不仅是“开源权重”，也在遵循 OSI 认证协议下实现了完全开源：Qwen 的大部分模型采用 Apache 2.0 协议，DeepSeek 和 Z.ai 则使用 MIT 协议。

其中一些模型的性能，已能与 Claude 4 Sonnet 和 GPT-5 正面竞争。

遗憾的是，这些中国实验室都没有公开其完整的训练数据或用于训练模型的源代码。不过，他们一直在发表研究论文，这些成果极大地推动了行业前沿技术的发展，尤其是在高效训练和推理优化方面。

长任务之年

近期关于 LLM 最有意思的一张图表来自于 METR，展示了不同 LLM 在软件工程任务中能够以 50% 成功率完成的时间跨度。

该图表展示了人类需要花费长达 5 小时才能完成的任务，并绘制了能够独立达成相同目标的模型演进过程。可以看到，2025 年在这一维度上出现了巨大的跃升，GPT-5、GPT-5.1 Codex Max 以及 Claude Opus 4.5 已经能够完成需要人类数小时才能完成的任务，而 2024 年的最强模型仍停留在 30 分钟以内。

METR 因此得出结论：“AI 能够完成的任务时长大约每 7 个月翻一倍。”我并不确信这一增长规律会持续成立，但它以一种极具冲击力的方式，直观展示了当前智能体能力演进的趋势。

“一句话修图”的时代来临

史上最成功的消费级产品发布发生于 3 月，而这个产品当时甚至连名字都没有。

2024 年 5 月发布的 GPT-4o，其核心卖点之一本应是它的多模态输出能力——“o”代表“omni（全能）”，OpenAI 当时的发布预告中包含了大量“即将上线”的功能，展示了该模型除了文本之外，还能直接输出图像。

然而……在那之后便音信全无。图像输出功能始终未能兑现。

直到 2025 年 3 月，我们终于见识到了这项能力的真面目，尽管它的形式看起来更像是现有的 DALL-E。OpenAI 在 ChatGPT 中上线了这种全新的图像生成功能，其核心特性在于可以上传照片，并直接通过提示词告诉 AI 如何修改它们。

这项新功能在一周内为 ChatGPT 带来了 1 亿次注册。在峰值时期，甚至创下了单小时 100 万个账号创建的纪录！

像“吉卜力化”这样的玩法，即将照片修改成吉卜力工作室动画电影的分镜风格，不断在社交媒体上疯传。

OpenAI 随后发布了该模型的 API 版本，命名为 “gpt-image-1”。紧接着在 10 月推出了价格更低廉的 gpt-image-1-mini，并在 12 月 16 日发布了性能大幅提升的 gpt-image-1.5。

在开源模型领域，最引人注目的竞争对手来自阿里巴巴的 Qwen。他们在 8 月 4 日发布了 Qwen-Image 生成模型，随后在 8 月 19 日推出了 Qwen-Image-Edit。值得注意的是，这款模型可以在（配置较好的）家用电脑硬件上运行！此后，他们又在 11 月推出了 Qwen-Image-Edit-2511，并在 12 月 30 日发布了 Qwen-Image-2512，不过这两款我目前还没试过。

图像生成领域更重磅的消息来自谷歌及其Nano Banana模型，该系列模型通过 Gemini 提供服务。

谷歌曾在 3 月份以“Gemini 2.0 Flash 原生图像生成”的名义预告过该技术的早期版本。而真正惊艳的版本于 8 月 26 日落地，当时谷歌开始在公开场合谨慎地采用 “Nano Banana” 这一代号（其 API 模型则被称为 “Gemini 2.5 Flash Image”）。

Nano Banana 引起轰动的原因在于，它能生成准确且有用的文字内容！同时，在遵循图像编辑指令方面，它也是当时表现最出色的模型。

11 月，谷歌在发布 Nano Banana Pro 时，彻底拥抱了“Nano Banana”这个名字。它已经不只是生成文本，而是能够输出真正实用、细节丰富的信息图，以及其他以文本和信息密度见长的图像内容。现在，它已经是一款专业级工具了。

Max Woolf 随后发布了目前最为全面的 Nano Banana 提示词指南，并在 12 月又补充了一篇必读的 Nano Banana Pro 实战指南。

至于我本人，主要是用它来往我的照片里加鹦鹉。

考虑到这些图像工具的火爆程度，Anthropic 至今尚未发布或在 Claude 中集成任何类似功能，这确实有点令人意外。我倾向于将此视为一种证据，表明他们仍专注于打造专业办公方向的 AI 工具。然而，Nano Banana Pro 正在迅速证明，对于任何工作涉及制作 PPT 或其他视觉素材的人来说，这款模型都具有极高的价值。

模型在学术竞赛中斩获金牌之年

7 月，来自 OpenAI 和 Google Gemini 的推理模型在国际数学奥林匹克竞赛（IMO）中达到了金牌水平。IMO 是一项极具声望的数学赛事，自 1959 年起几乎每年举办。

这一成果格外引人注目，因为 IMO 的题目是专门为该竞赛设计的，几乎不可能出现在任何模型的训练数据中。

同样值得注意的是，这两个模型在解题过程中都没有使用任何外部工具——它们的解答完全依赖于模型自身的内部知识以及基于 token 的推理能力。

事实证明，只要技术足够先进，LLM 是会做数学的！

9 月，OpenAI 与 Gemini 在国际大学生程序设计竞赛（ICPC）中也完成了类似的壮举，同样值得一提的是，ICPC 的题目具有新颖性，此前并未公开发表。

与 IMO 不同的是，这一次模型可以使用代码执行环境，但没有任何互联网访问权限。

我并不认为用于这些竞赛的具体模型版本已经对公众发布，不过 Gemini 的 Deep Think 以及 OpenAI 的 GPT-5 Pro，应该能在能力上给出相当接近的近似。

Llama 走偏之年

事后看来，2024 年是属于 Llama 的一年。Meta 的 Llama 系列是当时最受欢迎的开源权重模型，最初的 Llama 在 2023 年拉开了开源权重革命的序幕，而 Llama 3 系列，尤其是 3.1 和 3.2 两个小版本更新，更是让开源模型的能力实现了巨大飞跃。

人们对 Llama 4 寄予厚望，但当它在 4 月份正式落地时……却有些令人失望。

当时还闹出了一个小丑闻：在 LMArena上测试的模型，结果并非最终发布的版本。但我主要的槽点在于这些模型太大了。以往 Llama 系列最出彩的地方在于，它们通常会包含一些能在笔记本电脑上运行的尺寸。而 Llama 4 的 Scout 和 Maverick 模型分别是 109B 和 400B，大到即便经过量化处理，也没法在我那台 64GB 内存的 Mac 上跑起来。

这些模型是基于 2T 规模的 Llama 4 Behemoth 进行训练的，但这款模型如今似乎已经被人遗忘，它显然从未对外发布。

一个颇具象征意味的事实是，在 LM Studio 列出的最受欢迎模型中，没有任何一款来自 Meta；而在 Ollama 上，最受欢迎的仍然是 Llama 3.1，即便如此，它在整体榜单中的位置也并不靠前。

今年关于 Meta 的 AI 新闻，更多集中在内部权力博弈，以及为了新成立的 Superintelligence Labs 不惜重金挖人的消息上。至于 Llama 系列是否还有后续版本在路线图中，目前并不明朗；也不清楚 Meta 是否已经逐渐放弃开源权重模型的发布策略，转而将重心投向其他方向。

OpenAI 失去领先优势之年

去年，OpenAI 仍然是大语言模型领域无可争议的领跑者，尤其是在 o1 以及 o3 推理模型预览版亮相之后。

但到了今年，整个行业已经追了上来。

OpenAI 依然拥有顶级水准的模型，只是这种领先优势正在全方位受到挑战。

在图像模型方面，他们仍然被 Nano Banana Pro 压制；在代码生成上，不少开发者认为 Opus 4.5 略微领先于 GPT-5.2 Codex；在开源模型领域，OpenAI 的 gpt-oss 系列虽然表现出色，但已开始落后于中国的 AI 实验室；而在音频能力上，Gemini Live API 也正在对其领先地位构成威胁。

OpenAI 真正占据优势的，是消费者心智。几乎没人知道什么是LLM，但几乎所有人都听说过 ChatGPT。在用户规模上，OpenAI 的消费级应用仍然远远甩开 Gemini 和 Claude。

他们在这一领域面临的最大风险来自 Gemini。去年 12 月，OpenAI 针对 Gemini 3 宣布进入红色警戒状态，暂停并推迟了一些新项目的推进，将重心重新集中到与核心产品直接相关的竞争上。

Gemini 崛起之年

谷歌 Gemini 经历了非常成功的一年。

他们发布了属于自己的 “2025 胜利回顾”。2025 年，谷歌先后推出了 Gemini 2.0、Gemini 2.5 以及之后的 Gemini 3.0，每个模型系列都支持音频、视频、图像、文本的跨模态输入，上下文容量均达到 100 万以上 tokens，且定价极具竞争力，性能也一代比一代强。

此外，他们还发布了一系列重磅产品：Gemini CLI（他们的开源命令行编程智能体，后来被通义千问分叉并演化成了 Qwen Code）；Jules（他们的异步编程智能体）；对 AI Studio 的持续改进；Nano Banana 图像模型；视频生成模型 Veo 3；极具潜力的 Gemma 3 开源权重模型系列，以及一系列接连不断的细分功能更新。

谷歌最大的优势在于底层硬件。几乎所有 AI 实验室都依赖 NVIDIA GPU 进行训练，而这些 GPU 的定价足以支撑 NVIDIA 数万亿美元的市值。

谷歌则使用自家的 TPU，他们在今年已经展示了这些硬件在模型训练和推理上都表现得异常出色。

当你最大的成本是 GPU 运算时间时，面对一个拥有自研、优化且很可能成本更低的硬件堆栈的竞争对手，无疑是一件令人生畏的事情。

让我忍俊不禁的是，Google Gemini 的名字实际上完美映射了公司的内部组织结构。它之所以叫 Gemini（双子座），正是因为它源自 DeepMind 与 Google Brain 团队的合并。

鹈鹕骑自行车之年

我第一次让 LLM 生成“鹈鹕骑自行车”的 SVG 矢量图是在 2024 年 10 月，但到了 2025 年，我才真正开始沉迷于此。没成想，这最后竟然演变成了一个自带流量的梗。

起初，我只是把它当成一个冷笑话。毕竟，自行车很难画，鹈鹕也很难画，而且鹈鹕的体型根本就不适合骑自行车。我很确定训练数据里不会有任何相关的内容，所以让一个文本输出模型去生成一张它的 SVG 插图，听起来就像是个荒诞且极具挑战的任务。

但令我惊讶的是，模型画“鹈鹕骑自行车”的水平，似乎与其整体能力的强弱存在某种正相关。

有很多迹象表明 AI 实验室已经注意到这个基准测试。它曾在五月的 Google I/O 主旨演讲中出现过、十月的 Anthropic 可解释性研究论文中被提及，而我也在八月拍摄的 OpenAI 总部 GPT-5 发布视频里谈过它。

他们会专门为这个基准训练模型吗？我不这么认为，因为即便是最先进的前沿模型生成的鹈鹕插图，依然很糟糕！

我最喜欢的还是 GPT-5 画的这一张：

开发 110 个工具之年

我在去年启动了我的 tools.simonwillison.net 网站，把它作为我不断增长的 vibe-coded / AI 辅助 HTML+JavaScript 工具合集的集中展示地。过去一年里，我写了几篇较长的文章来介绍这件事：

我如何利用大型语言模型来辅助写代码
为我的工具合集添加 AI 生成的描述
构建一个工具，用 Claude Code 在网页上复制粘贴共享终端会话
构建 HTML 工具的实用模式——我最喜欢的一篇文章

新上线的“按月份浏览”页面显示，我在 2025 年一共构建了 110 个这样的工具！

我非常喜欢这种构建方式，而且我觉得这是练习和探索这些模型能力的绝佳方式。几乎每个工具都附有提交历史，链接到我用来构建它们的提示和对话记录。

我挑出过去一年里我最喜欢的几个工具来介绍一下：

blackened-cauliflower-and-turkish-style-stew 很搞笑。它是一个定制烹饪计时器，专为那些需要同时准备 Green Chef 的黑椒菜花和土耳其风味香料鹰嘴豆炖菜的人设计。这里有更多介绍。
is-it-a-bird 灵感来自 xkcd 1425，它通过 Transformers.js 加载了一个 150MB 的 CLIP 模型，用来判断一张图片或摄像头画面是不是鸟。
bluesky-thread 可以让我在 Bluesky 上查看任何讨论串，并提供“最新发布优先”选项，更方便跟踪新帖的更新。

其他很多工具对我自己的工作流程非常有用，比如 svg-render、render-markdown 和 alt-text-extractor。我还做了一个隐私友好的个人分析工具，它基于 localStorage 跟踪我最常用的工具。

vibe coding 之年

在二月份的一条推文里，Andrej Karpathy 创造了“vibe coding”（氛围编程）这个词，不过他给出的定义特别长，很多人都没看到最后：

有一种新的编程方式，我称之为“vibe coding”，你完全跟随感觉，拥抱指数增长，甚至忘了代码的存在。这种方式之所以可能，是因为LLM ，比如配合 Sonnet 的 Cursor Composer，越来越厉害了。而且我通常只是用 SuperWhisper 跟 Composer 交流，几乎不用碰键盘。我会提出一些最蠢的要求，比如“把侧边栏的内边距减半”，因为我懒得自己去找。我总是点“全部接受”，已经不看区别了。当出现错误信息时，我就直接复制粘贴过去，通常就能解决。代码已经超出我平时的理解，要真正读懂得花很长时间。有时候 LLM 修不了 bug，我就绕过去或者随便要求一些改动，直到问题消失。对于周末的临时项目还凑合，倒也挺有趣。我在做一个项目或 web 应用，但实际上根本不算在编程，我只是看到、说出、运行、复制粘贴东西，而它大部分时间都能工作。

这里的核心意思是忘掉代码的存在。vibe coding 捕捉到了一种全新的、有趣的软件原型开发方式，仅靠提示就能差不多能用。

我还不知道自己有没有见过一个新词在短时间内被传播或者被曲解得这么快。

结果很多人反而把 vibe coding 当作了一个万能标签，只要和 LLM 参与编程相关的都能叫 vibe coding。我觉得这有点浪费这个好词，尤其是现在越来越明显，未来大多数编程很可能都会涉及某种程度的 AI 辅助。

因为我就是那种喜欢坚持词语原意的人，所以我尽力去鼓励大家保留这个词的原本意义：

3月：并非所有 AI 辅助编程都叫 Vibe Coding（但 Vibe Coding 确实酷毙了）。
5月：两家出版社和三位作者都没搞懂“Vibe Coding”到底是什么意思（其中一本书后来把书名改成了好得多的《超越 Vibe Coding》）。
10月：Vibe Engineering。我试图提议用这个词来重新定义：当专业工程师使用 AI 辅助来构建“生产级”软件时，这种行为究竟该叫什么。
12月：你的职责是交付经过验证的代码。这篇文章探讨了专业软件开发的核心：无论你是怎么把代码写出来的，它必须能够证明是切实可行的。

我觉得这场辩论还没结束。我已经看到了一些令人欣慰的信号，表明那个更准确、更原始的“Vibe Coding”定义或许最终会占据上风。

MCP 之年（或许是唯一一年）

Anthropic 在 2024 年 11 月推出了他们的模型上下文协议（MCP）规范，作为一种开放标准，用于将工具调用集成到不同的大语言模型中。到了 2025 年初，它的流行度迅速飙升。甚至在五月，有一段时间 OpenAI、Anthropic 和 Mistral 在短短八天内相继推出了对 MCP 的 API 级支持！

MCP 本身是一个相当合理的概念，但它的巨大采纳速度还是让我有些吃惊。我认为这主要是时机的原因：MCP 发布的时候，模型在工具调用方面终于变得足够可靠，以至于很多人似乎误以为支持 MCP 是模型使用工具的前提条件。

有一段时间，MCP 也似乎成为了那些面临“必须有 AI 战略”压力但又不太清楚如何操作的公司的方便选择。为产品宣布一个 MCP 服务器，是一个简单易懂的方式来完成这个任务。

我认为 MCP 可能只是昙花一现的原因，是因为编程智能体增长速度惊人。看起来，对于任何情况来说，最理想的工具可能就是 Bash。如果你的智能体能运行任意的 shell 命令，它几乎可以完成任何在终端输入命令能做的事情。

自从我自己开始重度使用 Claude Code 及其相关工具以来，我几乎没怎么用过 MCP，我发现像gh这样的 CLI 工具和像 Playwright 这样的库，比 GitHub 和 Playwright 的 MCP 实现更好用。

Anthropic 自己似乎也在年末认可了这一点，他们推出了出色的 Skills 机制，参见我十月的文章《Claude Skills 太棒了，可能比 MCP 更重要》。MCP 需要 Web 服务器和复杂的 JSON 负载，而一个 Skill 只是文件夹中的一个 Markdown 文件，可选地附带一些可执行脚本。

然后在 11 月，Anthropic 发布了《使用 MCP 执行代码：构建更高效的智能体》，介绍了一种让编程智能体生成代码以调用 MCP 的方法，从而避免了原始规范中大量的上下文开销。

（我很自豪自己在 Anthropic 官方发布前一周就逆向工程出了他们的 Skills，两个月后又对 OpenAI 静悄悄采用的 Skills 做了同样的事情。）

MCP 在 12 月初被捐赠给了新的 Agentic AI 基金会。Skills 在 12 月 18 日被升级为“开放格式”。

AI 深度赋能浏览器之年

尽管安全风险显而易见，但似乎每个人都想把 LLM 塞进你的浏览器里。

OpenAI 在 10 月推出了 ChatGPT Atlas。这个产品的开发团队阵容豪华，其中包括了曾在 Google Chrome 深耕多年的资深工程师 Ben Goodger 和 Darin Fisher。

Anthropic 则一直在推广他们的 Claude in Chrome 扩展程序。与开发一个完整的 Chrome 分支（Fork）不同，他们选择通过插件的形式提供类似的功能。

Chrome 浏览器本身现在也在右上角放了一个“Gemini”小按钮，名为 Gemini in Chrome。不过据我观察，它目前还只是用于回答关于网页内容的问题，尚未具备自动操作浏览器执行任务的能力。

我仍然对这些新工具的安全影响深感担忧。我的浏览器掌握着我最敏感的数据，并控制着我大部分的数字生活。对于能够窃取或篡改这些数据的浏览智能体来说，遭受提示注入攻击的前景令人恐惧。

到目前为止，我见过的关于缓解这些风险的最详细说明来自 OpenAI 的首席信息安全官 Dane Stuckey，他谈到了安全防护、红队测试以及纵深防御，但也正确地指出，提示注入仍是“前沿且未解决的安全问题”。

我已经在严格监督下使用过这些浏览器智能体几次，它们有点慢也有些笨拙，经常无法正确点击交互元素，但在解决那些无法通过 API 处理的问题时，它们确实很方便。

我对它们仍然感到不安，尤其是当它们落入那些比我更不谨慎的人手中时。

在手机上编程之年

今年我在手机上写的代码远比在电脑上多。

今年大部分时间都是因为我大量投入了 vibe coding 。我在 tools.simonwillison.net 上的 HTML+JavaScript 工具集合，大多就是这样做出来的：我会有一个小项目的想法，然后通过各自的 iPhone 应用向 Claude Artifacts、ChatGPT，或者Claude Code 提示生成代码，然后要么把结果复制粘贴到 GitHub 的网页编辑器里，要么等待生成一个 PR，然后我可以在 Mobile Safari 中审查并合并。

这些 HTML 工具通常只有大约 100–200 行代码，充满了无趣的模板和重复的 CSS 与 JavaScript 模式，但 110 个这样的工具加起来也相当可观！

直到 11 月，我本会说自己在手机上写的代码更多，但我在笔记本上写的代码显然更重要，这是经过完整审查、测试更充分，并且是为了投入生产环境使用。

过去一个月，我对 Claude Opus 4.5 的信心增长到足够程度，以至于我开始在手机上使用 Claude Code 来处理更复杂的任务，包括那些我打算用于非玩具项目的代码。

这始于我将 JustHTML HTML5 解析器从 Python 移植到 JavaScript 的项目，使用了 Codex CLI 和 GPT-5.2。当仅通过提示就能实现时，我开始好奇，在类似项目上仅用手机，我能完成多少工作。

于是我尝试将 Fabrice Bellard 的新 MicroQuickJS C 库移植到 Python，整个过程完全在我的 iPhone 上使用 Claude Code……而且大部分都成功了！

这是我会直接用于生产环境的代码吗？当然还不是，尤其是对于不受信任的代码，但我会信任它去执行我自己写的 JavaScript。借用自 MicroQuickJS 的测试套件也让我对这一点有一些信心。

本地模型表现出色，但云端模型更胜一筹之年

到 2024 年底，我对在自己的机器上运行本地大语言模型（LLM）逐渐失去了兴趣。直到 12 月 Llama 3.3 70B 出现，我的兴趣才重新被点燃，这是我第一次感觉自己可以在 64GB 的 MacBook Pro 上运行真正的 GPT-4 级别模型。

然后在 1 月，Mistral 发布了 Mistral Small 3，这是一款 Apache 2 许可的 24B 参数模型，使用大约三分之一的内存就能达到与 Llama 3.3 70B 相当的性能。现在我不仅可以运行一个大约 GPT-4 级别的模型，还能剩下内存运行其他应用！

这种趋势贯穿了整个 2025 年，尤其是当中国 AI 实验室的模型开始占据主导地位后。在 20B 到 32B 参数量这一黄金平衡点上，不断涌现出性能刷新上限的新模型。

我甚至在离线状态下完成了一些实际工作！这让我对本地大模型的信心大增，热情被重新点燃。

但问题在于，那些顶级云端模型也变得更强了，其中也包括一些开源模型，虽然它们可以免费获取，但其体量（100B+ 参数）大到我的笔记本电脑根本带不动。

编程智能体彻底改变了我的工作方式。像 Claude Code 这样的系统，不仅需要一个优秀的模型作为底座，更需要一个具备“推理能力”的模型，使其能够在一个不断扩大的上下文窗口中，可靠地执行数十次甚至数百次的工具调用。

我还没试过哪款本地模型能足够可靠地处理 Bash 工具调用，让我放心地在自己的设备上运行编程智能体。

我的下一台笔记本至少会配备 128GB 内存，所以 2026 年的一些开源模型可能有机会满足这个需求。不过，目前我还是继续使用那些最先进的云端托管模型，作为我的日常主力工具。

垃圾内容泛滥之年

我在 2024 年在推广“slop”这个词上扮演了一个小角色，五月份我写了相关内容，随后我的话被《卫报》和《纽约时报》引用。

今年，韦氏词典将它评为年度词汇！

slop：通过人工智能大量生成低质量的数字内容。

我挺喜欢这个词的，因为它代表了一种被广泛认同的感受：即低质量的 AI 生成内容是糟糕的，应当被抵制。

我仍然抱有希望，觉得“Slop”泛滥的问题最终可能不会像许多人担心的那样严重。

互联网向来充斥着低质内容。挑战一如既往，在于如何发现并放大那些优质的作品。我不认为垃圾内容的增多会从根本上改变这一现状。内容策划变得比以往任何时候都更加重要。

话虽如此……我不玩 Facebook，而且在筛选和打理其他社交媒体的使用习惯时非常谨慎。现在的 Facebook 还是到处都是“大虾耶稣”吗，还是说那只是 2024 年的老梗了？我听说最新的趋势是那些摆拍救援可爱动物的造假视频。

很有可能，Slop 带来的麻烦正像一场不断壮大的海啸，而我却还天真地对此一无所知。

整理：潇潇

原文链接：https://simonwillison.net/2025/Dec/31/the-year-in-llms/

【免责声明】转载出于非商业性的教育和科研目的，只为学术新闻信息的传播，版权归原作者所有，如有侵权请立即与我们联系，我们将及时删除。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.