出品 | 网易智能
作者 | 小爪
编辑 | 王凤枝
这个任务,我一定要用Claude吗?
Claude Code火起来以后,很多开发者时不时在琢磨这个问题。
Kimi K2.7 Code和GLM-5.2,就是冲着这个问题来的。
以前说AI写代码,是问它一个函数怎么写。Claude Code直接把一个任务交过去:读项目、改文件、跑命令、修报错,继续往下做。
这套用法跑起来以后,聪明只是第一关。更现实的问题是:谁能跑得起。
一个模型如果只是回答一次,贵一点还可以忍。可如果它要连续读几十个文件,反复改代码、跑测试、再根据结果继续修,一次任务就可能吃掉大量token和额度,甚至有时会很快烧完5小时的额度。到了这一步,价格、限额、速度和稳定性,都会算进能力里。
国产模型挤进来的位置,正是在这里。Kimi K2.7 Code和GLM-5.2最近声量不小,但它们争的已经不是"最强国产编程模型"这个名次了。
它们抢的是Claude Code下面那层市场:更便宜、更宽额度、更容易接入现有工具链的第二模型。
Kimi想证明自己能多跑几步
Kimi K2.7 Code的发布声量很大。
![]()
月之暗面在6月12日发布Kimi-K2.7-Code。MarkTechPost对这次发布的整理里提到,月之暗面官方称它在Kimi Code Bench v2、Program Bench、MLS Bench Lite上都有提升,推理token使用量降低约30%。
这些成绩来自官方口径,详细的独立评测还没完全跟上。但月之暗面要讲的方向很明确:让代码任务跑得更省。
AI编程真正烧钱的地方,经常发生在一串连续动作里。模型要读上下文,要决定下一步,要改文件,要看运行结果,再决定怎么修。少绕一轮弯路,少吃一截token,最后都可能变成实际成本差异。 这个方向已经有海外开发者感觉到了,Julian Goldie在X上的说法很直白:Kimi K2.7 Code像个干活的,不像个聊天的。
Kimi还在往工具层走。
Kimi Developers账号近期介绍Kimi Code升级时,提到一行命令安装、视频作为上下文、插件、ACP协议、JetBrains和Zed集成、自定义hooks。这些单点功能不用都记住,读者只要看到一个方向:Kimi也想提供一个AI编程助手入口。
在任务工作流里,它和Claude Code的关系就是:谁能接活,谁能多跑几步。
GLM抢的是工具入口
GLM-5.2的路数更直接。
它的重点不只是"我跑分多少",而是GLM Coding Plan。
![]()
MarkTechPost 6月14日的报道提到,GLM-5.2的重点包括1M token上下文、High / Max两种思考强度、Anthropic-compatible endpoint,以及发布时没有公开跑分。
没有公开跑分。讨论自然就落到了工具链和长任务体验上。
Claude Code强的地方,是它能围绕一个项目连续行动。 项目越大,越需要看更多文件,记住更多上下文,也越容易被成本和额度卡住。GLM-5.2如果能把长上下文和兼容入口做稳定,它拿到的就是开发者实际干活时的一个后端选择。
Z.ai自家的编程工具ZCode走的也是这个路子。它最近一条宣传帖把卖点摆得很直白:150%配额、5天免费试用、每天500万token。
翻译成人话就是:你可以拿它多跑一点。
先看两场同题测试
官方发布讲的是能力,开发者演示讲的是体感。
外网已经有人把GLM-5.2和Kimi K2.7放进同类任务里试。
notjazii做的是一个类似Minecraft / 体素世界的生成任务,同一个任务、同一套设置,分别交给GLM-5.2和Kimi K2.7。按他的记录,GLM-5.2大约35分钟一次完成;Kimi K2.7大约30分钟,但后面还需要额外提示去修移动和bug。
![]()
这个小测试说明不了谁更强,但能看出"长任务"里的差别:一个模型快一点,但需要继续返工;另一个慢一点,但一次交付更完整。 真正花钱的时候,开发者算的往往就是这种账。
另一个合同审查产品需求文档的三方测试,也把问题放在具体任务里。测试者让GLM、Kimi、Claude Opus做同一份AI合同审查产品需求文档,看它们完成速度、步骤数和输出质量。
那张表里的结果没有反转:Claude仍然最快、质量最高;GLM的质量接近,但速度慢;Kimi更快,不过步骤更多,质量低一些。
这就够了。Claude仍然是那根标尺,Kimi和GLM开始在不同位置靠近它。
便宜不等于放心交活
"替代"两个字要谨慎。
开发者已经开始试了。但试出来的结果,不全是好消息。
只看官方发布和演示,会觉得国产模型已经在替代Claude Code。第一批动手试的人,看到的没那么漂亮。
BridgeMind的Matthew Miller在6月15日发了一条Kimi负评。他说自己买了Kimi相关的39美元和99美元方案,"30分钟就把额度烧完了";几个生成任务效果也不理想,比如恐怖游戏跑不起来,Minecraft克隆版不可玩,Remotion视频像PPT。
![]()
这个测试有局限。它偏创意演示和随手做项目,但它仍提醒我们:便宜、开源、高热,不等于可以放心交活。
月之暗面说的是模型层面的推理token使用下降,用户吐槽的是套餐和额度体感。模型更省,不等于用户马上觉得更便宜;如果配额设得紧,或者任务本身会反复试错,省下来的token可能还没来得及被用户感知到。
GLM这边也一样。有人看好它的长上下文和工具入口,也有人试过后觉得它还不会替代自己的Claude coding plan。这样的反馈不能写成大趋势,但足以提醒我们:"进入候选池"和"用户开始迁移"不是一回事。
所以问题不在"替代",而在"分工"。Kimi和GLM正在变成Claude Code之外的第二选择。
复杂架构判断、难度高的重构、需要稳定工具体验的任务,很多开发者可能仍然愿意交给Claude。另一类任务就会开始算账:前端演示、项目扫描、批量修改、测试修补,这些如果全都交给最贵的模型,账单和额度都会变成压力。
国产模型切进去的,正是这个位置。
它们争的是一个具体工作位:让开发者把更多长任务,先交给更便宜的模型跑起来。
便宜本身成了能力
AI编程模型过去常被放在榜单里比较。
谁的SWE-bench更高,谁的工具调用更好,谁的代码题更强,这些当然重要。但Claude Code让另一个问题变得更显眼:模型会被拿去干活。
这个"便宜"不能只停在感觉上。
三者的定价模式不同:订阅额度、API单价、工具套餐,各算各的。直接比价格没意义,但可以看方向。
Claude帮助页显示,Claude Pro每月20美元,Max从100美元起,Claude Code和Claude共用额度,碰到上限后,要么等额度重置,要么升级,要么切到按量付费。
Kimi K2.7 Code的官方API价格页按百万token计费:普通版缓存命中输入0.19美元、缓存未命中输入0.95美元、输出4美元。
![]()
GLM Coding Plan的FAQ写到,Lite海外版每月18美元,每5小时约80次请求,差不多是Claude Pro的3倍。
![]()
但一旦模型开始干活,便宜就不再只是价格标签。
便宜意味着你敢让它多试几次,敢让它跑更长的任务,敢在不确定时先丢一个副本给它处理。额度更宽,意味着它可以读更多文件,走更完整的流程。兼容Claude Code、Cline、OpenClaw这类入口,意味着你不用完全重建工作方式。
当然这有个前提:模型本身得能干活。 如果每次都跑偏,便宜只会带来更多无效等待,谈不上更多尝试机会。Kimi和GLM现在的位置,恰好就在这条线附近:有些任务已经可以试,有些任务还得谨慎。
Kimi和GLM还没有把Claude Code拉下去,也没有证明自己能在所有任务上赢。
但它们已经把国产模型带进了一个更具体的位置:进入开发者的工作流,参与"哪些任务值得用最贵模型,哪些任务可以交给便宜副手"的分工。
对非开发者来说,这件事的意义也不只在代码。
今天是AI写代码,明天可能是AI做表格、剪视频、整理资料、写报告。只要一个AI工具从聊天变成持续干活,成本和额度就会变成体验的一部分。
所以回到开头那个问题:这个任务,一定要用Claude吗?
现在的答案更像是:看任务。
复杂架构、难重构、关键交付,Claude仍然更稳。简单的、长的、重复的、可以容忍试错的任务,Kimi和GLM已经开始提供别的选择。
Claude Code先把路走出来了。Kimi和GLM现在卷的,是把这套用法变便宜,便宜到更多人能把它当成日常工具。
