引言:从智能体工具的“爆火”与软件业
的“暴跌”谈起
2026年初,在开发者社区和各大技术论坛中,一款名为OpenClaw的开源智能体工具火爆破圈。它与市面上其他大模型厂商推出的Claude Code、Claude CoWork、Codex等工具非常类似:不再是过去那个只会陪聊的聊天机器人,而是进化成了能够接管电脑、协助人类完成具体办公任务的“办公搭子”。其展现出的“人机协作”新雏形,已经让市场感受到了生产力大变革的气息。
然而,与这股智能体工具热潮形成鲜明对比的,是“AI颠覆SaaS软件”的资本叙事:软件产业正经历着一场暴跌,从通用办公写作到ERP 软件,紧接着是法律、金融等专业领域软件。统计数据显示,美股广义软件板块的市值近期已从高点下跌30%,蒸发约两万亿美元。这“一热一冷”并非偶然,而是一场历时五年的技术演进,下面分三阶段来回顾“写代码”如何成就大模型和智能体。
![]()
阶段一(2021-2023):代码数据“三步走”帮大模型打造逻辑能力
2020年6月,OpenAI 发布了 GPT-3。在学习了互联网上几乎所有的书籍和百科后,模型能模仿写出华丽的莎士比亚十四行诗,却无法解开稍复杂的数学应用题。当时业界普遍认为大模型只是进行统计关联的“随机鹦鹉”,并不真正理解逻辑。
转折发生在2022年底。研究者符尧在《拆解追溯 GPT-3.5 各项能力的起源》中完整复盘了这一能力的演进路径,揭示了代码在其中的核心作用,随即在2023年,又提出了《迈向复杂推理:大模型的北极星能力》,揭示了大模型的复杂推理有更广泛的应用空间。
![]()
图1: GPT-3 到GPT-3.5 模型进化树
(一)代码训练为模型注入推理能力
最初的 GPT-3 主要基于自然语言数据,虽然具备极强的语言生成能力,但在处理逻辑任务时表现乏力。随后分化出的 Codex 路径引入了大规模代码训练,研究指出,代码是复杂推理能力的源头:例如,代码当中的条件判断与因果一致性,训练了模型在生成文本时能够保持前后主张不冲突和论证逻辑的严密。而代码中嵌套循环与跨函数调用,则训练了模型处理长距离依赖(Long term Dependency)的能力。使得模型在分析超长文档时,能够精准识别出位于开头处的一个前提条件,是如何跨越数万字的内容,直接决定了结尾处的结论走向。这种能力让模型在处理长文本时,不仅关注临近的词汇,还能够捕捉到文档跨段落或者多个文档之间的因果联系。
(二)代码数据是“思维链”涌现的关键
研究普遍认为,思维链(Chain of Thought)能力的涌现主要归功于代码训练。代码编写要求开发者将复杂目标拆解为环环相扣的细分步骤,这种范式让模型在面对自然语言的指令时,不仅是根据概率预测下一个词,而是倾向于先将问题拆分再逐一求解。随后引入的指令微调与强化学习,激发模型学会如何将分解问题的能力应用起来,让模型从简单的“对话机器人”转变为能够处理高度复杂任务的决策中枢。
(三)逻辑能力的“泛化与迁移”效应
从模型演进的路径看,在引入代码逻辑并形成思维链,其价值远超编程本身。在早期的训练中,就已经发现在代码侧学到的分步推理、错误检测与方案筛选能力,可以迁移到数学、符号推理与综合问答等非代码的任务中。而更进一步,模型展现出的确定性推理和任务拆解能力,使其能够作为决策中枢,去调度和指挥各类软硬件插件。符尧的研究就断言“这种逻辑泛化能力是大模型成为下一代‘计算平台’或‘操作系统’的核心底座。”
![]()
阶段二(2024-2025):大模型在编程真实互动中持续学习
2024年后,大模型的能力提升遇到了明显瓶颈。产业界发现,增加更多的文本还是代码,带来的边际效益开始递减。产业界逐渐意识到,模型不能只靠在实验室里“死记硬背”那些已经存在的数据,而必须在持续的互动中学习。在所有的人机交互中,编程的反馈是最清晰和最没有歧义的,编程场景从而成为训练模型学习的最佳试验田。当模型给出一行代码建议时,如果程序员直接采纳,这就是对模型的正向“嘉奖”。如果程序员修改代码,或者完全拒绝了建议,这也是含金量极高的负向“批评”。全球过千万的程序员的“采纳”、“修改”和“拒绝”,构成了源源不断的学习数据,帮助模型打破了性能停滞的困局。
这种进化的早期,是由“大脑”(基座模型)与“双手”(编程智能体)的深度协作开启的。 以 Anthropic 与 Cursor 的合作为例,最初,基座模型 Claude 3.5 负责编程输出,而编程智能体 Cursor 则负责开发环境,并把程序员反馈给模型进行训练。Cursor 还更进一步,推出的 Composer 功能,允许模型跨越多个文件同时进行修改(比如为了改动 A 功能,必须同步调整 B 和 C 文件)。这种“全项目视角”让模型能够捕获更深层的工程逻辑。当程序员面对模型给出的复杂修改建议(涵盖代码、图表及架构),选择“采纳”或“拒绝”时,这种反馈让模型学到了功能模块之间隐秘的依赖关系。随着技术演进,基座模型开始直接整合智能体的功能,这也引发了Agent是“套壳”没有技术含量的纷争。全球的头部模型企业都在跟进这一路线:谷歌的 Gemini 团队在强化模型的“代码沙箱”能力,让模型在自我运行代码的成败中吸取教训。OpenAI 联合创始人格雷格·布罗克曼(Greg Brockman)在 2025 年 8 月公开阐述,GPT-5 的提升很大程度上归功于观察用户在互动编程中的使用方式,并将这些实战反馈喂回训练。国内的 DeepSeek 和 Qwen,也是把编程模型当作基础模型升级的前哨站,开发者都会期待和观察编码模型发布,一是可以有更好的工具支持,二是用来预测自己喜爱模型的新版本发布时间。
![]()
阶段三(2025年下旬至今):能力“溢出”编程场景,重塑企业办公与专业领域
经过五年的代码训练和编程反馈积累,通用大模型在2025年下旬,迎来了能力的再次质变。以Anthropic发布的Claude Opus 4.5为代表的新一代模型,在智能体编程、工具调用及计算机操控等能力上大幅刷新业界记录。与模型能力提升同步发生的,是底层协议与基础组件的标准化。MCP协议与 Skills 规范的成熟,为大模型接管具体任务提供了“工作脚手架”:MCP 通过统一协议实现了模型与外部数据、计算资源的标准化对接;Skills 则将复杂的软件功能封装为可调用的“说明书”。
[1] 关于 MCP(Model Context Protocol,模型上下文协议):由Anthropic于2024年11月推出并开源的开放标准协议。MCP通过定义统一的数据交换格式与双向通信机制,使模型能够以标准化方式安全访问本地文件、企业数据库、API服务,为智能体跨应用调度奠定了协议基础。
[2] 关于 Skills(能力单元规范):由Anthropic于2025年10月首次提出的标准,并于2025年12月正式发布为开源标准。通过结构化的文件将特定能力领域的知识、执行指令封装起来,模型可直接理解并调用。
[3] MCP和Skills的关系:二者形成互补分工,MCP解决“能连接什么”,Skills解决“如何正确操作”。例如Agent要生成一张财务合规报表,MCP负责接入客户交易流水库,而Skills中要写明处理数据的规则,例如单笔交易额度,风险控制标准等
随后,新一代的智能体工具正式登场,典型的如Anthropic在企业级市场推出的Claude Code和Claude CoWork。它们通过在电脑桌面端建立一个全局的“任务中枢”,能够接管文件系统、网络浏览器及所有支持MCP协议的应用,像一名资深助理一样,自动理解模糊的自然语言指令,拆解为一系列跨软件的操作步骤,从而迅速进入通用办公领域,快速替代初级行政管理、跨系统的数据整理工作,成为人类员工的“办公搭子”。本文开篇提到的开源工具 OpenClaw,也深度借鉴了这一思路并迅速出圈。紧接着,OpenAI 桌面版、阿里巴巴 QoderWork、MiniMax Agent 等竞品也加入战场,在这一赛道上展开了激烈的角逐。
大模型的渗透并未止步于通用办公,而是加速向法律、金融等高门槛领域蔓延。2026年2月初,Anthropic 在其工具中引入法律专用插件,协助律师进行合同审查与合规检索,直接引发了全球法律科技股的剧烈震荡。随后发布的 Claude 4.6 基座模型,在复杂金融任务的表现上再次刷新纪录,能够精准提取海量文档信息并完成基本面分析。这一系列动作标志着大模型已完成能力进阶:从代码场景练就“脑筋”,到通用办公场景建立“脚手架”,最终进入专业领域替代高价值逻辑劳动。
![]()
回顾思考:对软件和应用产业的影响开始显现
如果一家企业能通过智能体,基于 MCP 协议直接调取数据库,并调用 Skills 插件完成复杂的财务分析,那么企业并不需要每年支付数百万美元购买 客户管理系统(如Salesforce )的license,也不用培训员工去学习商业报表软件(Tableau)的使用方法。智库 SemiAnalysis 指出,传统软件巨头曾构筑过三道防御工事:高昂的数据迁移成本、基于操作界面的用户黏性、以及复杂的系统集成。但在具备逻辑操作能力的基础模型,以及 MCP 协议带来的标准化接口面前,这些防线正在迅速瓦解。
随着图形用户界面(GUI)不再是必需,软件行业可能会走向“隐形化”:从有独立客群和定价权的产品,蜕变为向智能体提供基础能力的 API 服务商。阿波罗全球管理公司(Apollo Global Management)合伙人约翰·齐托(John Zito)在近期闭门会议中抛出了最核心的疑虑:“真正的风险在于,传统的软件行业是否已经走到了尽头?”;而光速创投(Lightspeed)合伙人艾萨克·金(Isaac Kim)则更为直接地宣告,SaaS 软件赖以生存的“按人头席位收费”模式,正被新一代智能体工具彻底影响。
同样的挑战也蔓延至移动互联网领域,但 APP 行业的战局却表现出差异。相比于通用软件,拥有高频刚需入口、线下履约体系的 APP 依然保留护城河,但这些APP也需要做好与智能体合作做好用户意图的承接。我们可以尝试推演出新的合作模式:大模型负责意图理解,智能体负责调度决策,而筛选过后的App 和软件负责履约交付,这必然给数字世界带来更多生机和竞争。
![]()
结语与展望
在过去五年里,我们见证了通用大模型能力的上涨,正快速跨越那些过去难以逾越的产业门槛。当前还有三条逐步清晰的演进路径:
一条已经完备的路径:代码数据不仅能帮助提升编程领域效率,还能够帮助模型提升复杂推理能力,从而能够拆解理解用户意图、拆解复杂任务,而搭载MCP和Skills这样的“脚手架”,使Agent快速覆盖商业办公、法律和金融领域;
另一条行进半程的路径:视频数据不仅是视觉娱乐的产物,实际上在训练模型的“空间感”与“物理直觉”。目前,“借道”多模态模型生成仿真数据的路径已经被走通,被广泛用于加速具身智能开发;
还有一条尚未开启的路径:工业设备上的传感器数据(比如温度、压力的波动曲线),和视频里分帧图像是一样的,都是随时间变化的信号。如果模型能看懂视频,它就有机会理解复杂的工业数据。将来借用大模型对于时间序列的理解,有机会优化工业制造的各类任务。
数据中包含的特征与规律决定了模型的能力。这种能力并不会被局限在它的来源领域,正如逻辑推理“源于代码,超越代码”。通过通用能力练就的“触类旁通”,可能成为比“深耕垂域”更高效的发展方式。当前,产业界仍存在“种豆得豆”的思维惯性,往往忽略了大模型这种跨域发展的特点。未来的竞争,当然需要垂域应用的深耕,但更需要给通用能力的进化预留足够的耐心与试验区间。
参考资料
1.Brown, Tom, et al. "Language Models are Few-Shot Learners." NeurIPS, 2020.
2.Chen, Mark, et al. "Evaluating Large Language Models Trained on Code." OpenAI, Jul 2021.
3.Madaan, Aman, et al. "Language Models of Code are Few-Shot Commonsense Learners." Carnegie Mellon University (CMU), Oct 2022.
4.Fu, Yao, et al. "How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources." Allen Institute for AI, Dec 2022.
5.Dario Amodei. "Machines of Loving Grace" Dario Amodei Blog, Oct 2024.
6.Anthropic. "System Card: Claude Opus 4.5." Anthropic Research, Nov 2025.
7.Claude. "Getting Started with Claude CoWork: Enterprise Best Practices." Claude Support Documentation, Jan 2026.
8.Dario Amodei. "The Adolescence of Technology." Dario Amodei Blog, Jan 2026.
9.Doug O'Laughlin, et al. "Claude Code is the Inflection Point: What It Is, How We Use It, Industry Repercussions, Microsoft's Dilemma, Why Anthropic Is Winning" SemiAnalysis, Feb 2026.
版块介绍 —产业之声
紧跟产业发展脉搏,阿里研究院汇集行业领袖与企业的真实声音,在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面,剖析成功案例背后的逻辑与挑战,并提供基于产业深度洞察的策略建议。同时,阿里研究院依托于阿里巴巴集团在人工智能领域的全面布局,分享阿里的AI产业生态和应用的实践落地,探讨技术如何重塑产业格局并推动社会经济的转型升级。
Reading
1、
2、
3、
4、
5、
6、
7、
8、
9、
10、
11、
12、
13、
14、
15、
16、
17、
18、
19、
20、
21、
22、
23、
24、
25、
26、
27、
28、
29、
30、
31、
32、
33、
34、
35、
36、
37、
38、
39、
40、
41、
42、
- 如需转载,请在文章下留言 -
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.