奥特曼与梁文锋，终于在同一条赛道短兵相接|调用|编程|代码|官方文档|agent

分享至

今天，OpenAI发布GPT-5.5，DeepSeekV4预览版亮相并开源。

OpenAI发布GPT-5.5，官方公告的第一句话是：我们最智能的模型。在所有能力维度里，OpenAI选择重点强调Agentic Coding：在测试复杂命令行工作流的Terminal-Bench 2.0上达到82.7%，在测试真实GitHub问题解决能力的SWE-Bench Pro上达到58.6%。

同日，DeepSeek公告的第一个能力维度同样是Agent与Coding。据公开资料，DeepSeek-V4-Pro已成为公司内部员工使用的Agentic Coding模型，并针对Claude Code、OpenClaw等主流Agent产品进行了专项适配和优化，在代码任务、文档生成任务等方面表现均有提升。

巧合背后，是AI行业用一年的时间，完成了从“什么都做”到“重点做Coding”的路径收窄。大多数对这场竞赛的分析，停留在“编程市场大”“开发者付费意愿强”这类表层叙述，但这不足以解释为什么OpenAI与DeepSeek会在同一天用Agentic Coding来定义各自的旗舰产品。

《新立场》认为，Coding之所以能成为共识赛道，是因为Agent的本质就是代码理解、代码生成和程序综合。一个在代码任务上表现优秀的模型，天然具备了分解复杂任务、调用工具、处理异常的推理能力，而这些能力在非编程的Agent场景里同样是核心要素。

在Coding赛道上建立的技术优势，会自动转化为在整个Agent生态中的优势。这个技术前提，也解释了为什么商业模式层面的矛盾会在这个时间节点集中引爆。Coding Plan最初是为Chatbot时代的使用强度设计的，而Agent时代的调用模式让这套定价逻辑从根本上失效。

3月23日，MiniMax率先宣布将自己的Coding Plan升级为Token Plan，此后，阿里云Coding Plan入口从百炼平台消失；智谱的无周限额老套餐宣告停止续订；GitHub宣布暂停Copilot Pro系列计划的新用户注册并从Pro中移除Claude Opus。

动作如此整齐划一，背后是同一个结构性矛盾被Agent使用模式引爆：固定月费，遇上了无上限的算力消耗。

从Coding Plan到Token Plan的切换，表面上是从补贴换用户到按量收费，实质上是整个行业从“烧钱抢入口”进入“建立可持续商业模型”的转变。对云厂商而言，这是回到自己最熟悉的生意；对整个行业而言，这一轮AI Coding竞争在商业模式层面完成了自己的第一次洗牌。

Coding为何成为Agent时代的制高点

视频生成曾被视为AI最具想象力的应用方向，但算力最终没有为想象力买单。3月，OpenAI宣布关停Sora，终止了与迪士尼价值10亿美元的战略合作。同一时期，谷歌联合创始人谢尔盖·布林紧急组建了一支专门针对AI Coding的内部突击队，要求团队“必须果断转向”。

据The Information披露，这支队伍的成员名单里甚至包括DeepMind CTO，目标只有一个，那就是夺回AI Coding的制高点。4月21日，马斯克的SpaceX宣布以600亿美元收购Cursor。

互联网时代的价值创造逻辑是流量、转化率、ARPU，终点是广告费或订阅费，天花板是用户总时长和广告预算。Agent时代的逻辑截然不同，任务价值、完成率、take rate，终点是替代的人力成本，天花板是全球白领工资总额。两套逻辑之间的差距，直接驱动资源向Coding集中。

Coding是极少数同时满足“高频”和“高复杂度”两个条件的应用场景。大多数AI产品面临的现实是，用户用一次觉得新鲜，但不会每天用，场景频率决定了粘性上限。编程不同。职业 Coder 每天在IDE里工作八小时，调试、重构、文档、代码审查，每一个环节都是潜在的AI介入点，调用频率天然极高。

此外，代码的价值可以被精确衡量。一段代码跑通了还是没跑通，功能实现了还是没实现，这些是二进制的结果，没有“差不多”的模糊地带。这意味着开发者愿意为AI编程工具支付远高于其他AI产品的价格，因为它替代的是可量化的工时成本，ROI计算对企业来说直接且透明。

正如百度秒哒产品总经理朱广翔去年曾讲到的，Chatbot的价值在于回答和交流，而Coding直接生成最终的应用和方案，与研、产、供、销、服全部相关，“是生产力环节，能创造新的需求价值和需求空间，所以空间更大”。

不过，在《新立场》看来，AI Coding的战略价值在于Coding赛道上建立的技术优势，会自动在整个Agent生态中产生乘数效应。一个Agent在执行复杂任务时，实质上是在持续调度和生成代码，无论是调用工具API、处理文件系统、协调并行子任务，还是验证结果和处理异常，这些操作的底层都是代码理解与代码生成。

《晚点latepost》曾报道，字节在引进郭达雅时的内部定位，正是把他放在Agent和Coding能力的组织整合核心位置，而非只是一个Coding模型的技术负责人。

而这轮“Coding热”的始作俑者Anthropic，让这个判断从理论变成了可以被资本定价的事实。Claude Code去年5月才正式上线，到2026年2月ARR已达25亿美元，增速超过了Salesforce和Slack的早期阶段，也在不到一年内超越了Cursor花两年多才达到的收入规模。

SemiAnalysis估算，目前GitHub上约4%的公开代码提交由Claude Code完成；按这一趋势，到2026年底，Claude Code占GitHub每日公开提交总量的比例可能超过20%。

更有说服力的是公司层面的对比：2025年底，Anthropic全年收入90亿美元，OpenAI已经214亿美元，差距超过一倍。但仅仅四个月后，Anthropic的ARR暴涨到300亿美元，超过OpenAI在2月份披露的250亿ARR。

在国内，这个认知的扩散经历了一个明显的时间差。一批大模型创业公司比大厂更早、更灵敏地做出了押注。Claude Code诞生两个月后，Kimi K2发布并开源，把Coding加Agent立为模型主轴，智谱同样如此。

到2026年初，这批早行者的先发优势开始显现。智谱从发布GLM-5后已连续三次涨价，尽管如此，市场依然供不应求，CEO张鹏在业绩说明会上表示调用量增长400%。月之暗面旗下K2.5大模型发布不到一个月，累计收入超过2025年全年总额。

大厂的转变来得晚，但幅度更大。《晚点LatePost》报道，接近字节相关团队的员工表示，今年年1月底，CEO梁汝波在全员会上明确表态，2026年的重中之重是AI模型能力做到行业前列。随即，字节从DeepSeek挖来了郭达雅。

郭达雅是代码智能与大模型推理方向的顶尖人才。他在DeepSeek期间深度参与了V3、R1以及Coder、Math等模型的研究，并与团队在DeepSeek-Math中提出了GRPO算法，后来被应用到DeepSeek R1的训练中。他选择离开DeepSeek的原因之一，是当时在DeepSeek内部Agent的优先级不高，而他本人非常看好这个方向。

伴随郭达雅的加入，Seed内部正启动针对Agent和Coding的组织整合。这个动作的意义，不仅是公开地宣告自己对Coding加Agent方向的战略承诺。也是字节在用人才结构表明自己对下一代竞争维度的判断。

走向失控是Coding Plan的必然

Coding Plan的崩溃，是一个在设计之初就内嵌了矛盾的商业模型，在Agent改变消耗结构之后被迫显形。

订阅制的基础假设是平台的真实成本远低于标价，因为大多数用户会付费但不会充分使用服务，轻度用户的订阅收入覆盖了重度用户的服务成本，整体算下来毛利可控。这套逻辑在SaaS时代是成立的，因为软件的边际交付成本接近于零，用户增加不会显著增加成本。

Coding Plan延续了SaaS的定价逻辑，但应用到了一个底层经济学完全不同的场景。当使用模式还停留在“代码补全”的阶段，这个矛盾是可以被忽略的。传统代码补全是单次请求，用户输入几个字符，模型返回一段补全，Token消耗可控。

Agent模式完全不同，一个复杂任务包含规划、拆解、多步执行、并行子任务、结果验证和错误重试，串起来Token消耗是传统补全的几十倍甚至几百倍。GitHub在其官方博客里写得很直白：长时运行的并行化Agent会话，远超原有计划架构所能支撑的资源上限。

此外，Coding Plan还有一个被低估的成本问题，OpenClaw等Agent框架的接入，系统性地破坏了云端的缓存命中。在正常的编程使用场景中，因为上下文高度连贯，缓存命中率通常能达到85%至90%以上，Claude Code很多用户的命中率甚至能稳定在90%以上。缓存命中的价格通常只有正常输入的十分之一，实际计算成本远低于按全额输入价格估算的数字。

OpenClaw类框架的调用模式不同，框架发出的请求前缀因版本号、构建时间和A/B测试变量的持续变化而高度不稳定，缓存命中率大幅下降。结果是，所有用户支付的是相同的固定月费，但Coding Plan的实际成本因接入框架类型的不同产生了剧烈差异。

智谱的应对轨迹，清晰展示了这个矛盾从可控走向失控的过程。GLM Coding Plan的无周限额老套餐宣布于4月30日停止自动续订，平台公告中承认：随着使用规模的持续增长，老套餐原有的供给方式已难以支撑长期稳定的服务。并为受影响的早期订阅用户赠送了两个月的新套餐权益。

这是由成本压力触发的被动退出，而非主动的产品迭代。与此同时，智谱将Coding Plan的使用场景限制在AI编码和IDE工具中，明确排除了OpenClaw等通用Agent场景，这条限制本身，就说明了问题的症结在哪里。

这一轮集体收紧的速度，超过了大多数人的预判。来自这个行业的一个亲历者描述说，“一个季度之内，从补贴抢人到集体收紧，速度比我预想的快得多。”

OpenAI在这一轮竞争中选择了不同的策略，Sam Altman在4月初宣布Codex达到300万周活用户，随即重置了所有套餐的用量限制，并承诺每新增100万用户就再重置一次。社区用户反馈10天内经历了4次额度重置。Plus用户享受促销期10倍用量，Pro用户享受2倍用量，但促销截止5月31日，之后的策略如何调整尚未可知。

Codex负责人Tibo在X上表示，OpenAI拥有足够的算力和厉害的模型来支持Codex的运作。这与《新立场》此前在此前《阿里字节“围猎”智谱、MiniMax：Token到底该由谁来定价？》一文中的分析吻合：OpenAI的心态是奥特曼总能筹集到更多资金支持算力规模扩展，这与Anthropic强调训练和运行效率的路径形成了鲜明对比。

字节火山引擎的Coding Plan在多家同类产品中保持了相对稳定的运营状态。但这一例外有其背景，字节的自有算力基础设施与智谱等初创厂商不在同一基准线，且根据《晚点LatePost》的报道，火山引擎很早就通过与企业客户的协作计划意识到，B端客户有大量Agentic Coding的需求，这些真实使用数据反向推动了字节模型能力的演进。

Coding Plan对火山引擎而言，同时承担着锁定开发者生态和获取训练数据的战略功能，短期的成本压力被更长期的数据资产价值对冲。但这是大规模算力基础设施持有者的特殊处境，不是行业可以普遍复制的路径。

终局是按结果付费

用Token Plan来取代Coding Plan，只是这场竞争的中场哨声。

Coding Plan的最大矛盾是收入固定而成本浮动，一旦模型能力迭代或用户习惯改变，成本可能在收入不变的前提下飙升。Token Plan是消除这个矛盾的最好方式，即平台的毛利率由Token单价与推理成本之间的差值决定，两者都可以被精确控制和预测。

在商业化角度看，Coding Plan本质上是一种补贴策略，用低于成本的价格换取用户习惯养成和训练数据积累。在这个时间节点上切换到Token Plan，意味着行业认为补贴换市场的阶段已经结束，用户的支付意愿和实际使用价值之间存在足够的空间来支撑可持续的商业模型。

罗福莉在这个过程中扮演了一次行业定价“吹哨人”的角色，其主张在弄清楚如何在不造成资金流失的情况下为Coding方案定价之前，不要盲目地竞相压低价格，以极低的价格出售Token，同时对第三方敞开大门。这看起来对用户很有吸引力，“但这是一个陷阱，Anthropic刚刚摆脱的那个陷阱”。

据《腾讯科技》报道，小米MiMo大模型的Token Plan，是这个趋势的一个典型案例。据《腾讯科技》报道，两周免费推广期间，MiMo-V2-Pro在OpenRouter上单周Token消耗量突破4万亿，编程领域市占率一度超过30%。但免费期结束后，周调用量从高峰下滑，印证了从免费到付费的转换率，是所有大模型公司面临的共同难题。

雷军在MiMo-V2-Pro发布当天亲自官宣了Max档659元/月、国际定价100美元/月的订阅方案，直接锚定Anthropic Claude Max 5x套餐。罗福莉在随后的公开发声中解释了这套设计的逻辑：Token Plan支持第三方框架接入，但按Token配额计费，用户用多少付多少，不会出现订阅制下"薅羊毛式"的成本倒挂。

对阿里云为首的云厂商而言，这次切换还有另一层意义：回到自己最熟悉的生意。维护一个经济模型持续承压的订阅服务，需要不断通过运营手段弥补结构性亏损，这是云厂商的非专业地带。对比之下，腾讯云和阿里云已经销售了十几年的计算资源包、存储资源包和CDN流量包，有完整的计量计费系统、预付费后付费结算和用量管理权限控制的基础设施。现在只需要把计量单位从“CPU核时”或“GPU小时”换成“Token”，整套体系就可以无缝接入。

Token Plan对创新的激励方向也更合理。Coding Plan模式下，平台推出更强的模型会增加推理成本但不增加订阅收入，等于在定价机制上惩罚技术进步。Token Plan里，更强的模型刺激用户消耗更多Token，带来更多收入，形成正向循环：更好的模型带动更多消耗，更多消耗产生更多收入，更多收入支撑更多研发投入。这是Coding Plan从来没有解决的一个基础激励错配。

目前舆论对Token Plan的讨论有一些针对转变本身的困惑，但这本质上是时间产生的问题，而非方向问题。Cursor作为Coding Agent早期玩家，其转变比大多数中国厂商早了大约一年，Cursor去年就从按次计费转成了按量计费，今年又推出了Ultra档位（200美元/月）。印证了随着Agent使用强度上升，定价模式演变是必然走向。

对中国市场来说，OpenClaw在本地的爆火将这个时间节点大幅压缩，这场原本可能用两年完成的行业过渡，被压缩在了几个季度内。这种压缩的代价，是很多厂商来不及设计过渡方案，只能被动应对，导致老用户体验出现波折，如阿里、智谱的套餐迁移附带了用户补偿方案。就是这个代价的具体表现。

不过，在《新立场》看来，从更长的时间维度出发，Token Plan也只能算是AI Coding竞争的中间形态，而不是终态。未来理想的模式是按结果付费，就像打车不需要关心汽油消耗了多少升，用AI解决问题也不应该需要关心消耗了多少Token。

当前按Token计费的本质，是对“算力使用权”的定价，买的是让模型替用户“想”一次的机会，至于想得多深、想得多好、最终有没有解决问题，不在这个价格的承诺范围内。正如第一章所述，在AI Coding场景下，“结果”是可以被精确定义的：代码跑通了没有，Bug修了没有，功能实现了没有。一旦能够可靠衡量这些结果，按结果定价就在技术上是可行的。

届时，“Token效率”将成为模型能力的正式评价维度，因为完成同等结果消耗的Token更少，意味着在固定的结果定价下，毛利率更高。GPT-5.5的发布数据在这里提供了一个前瞻性的参照。OpenAI在公告中强调，GPT-5.5在完成同等Codex任务时使用的Token数量更少，这被列为核心能力之一，与"更高的准确率"并列。

DeepSeek V4公告同样提到，新的注意力机制“相比于传统方法大幅降低了对计算和显存的需求”。两家同日发布的最强模型，都把计算效率作为旗舰能力进行宣传，重新定义了“更好的模型”的标准。

未来的Coding Agent竞争，效率与能力将是同一张成绩单上的两个指标。

*题图及文中配图来源于网络。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.