程序员不用换新模型了，训练成本砍掉八成，它怎么做到的？|字节|调用|冗余|开源模型

程序员不用换新模型了，训练成本砍掉八成，它怎么做到的？

分享至

Cursor最近把Kimi K2.5这个老底座，硬生生训出了比GPT-4.7还稳的代码能力。不是靠买更大卡、堆更多参数，而是把85%的算力全砸在后训练上。SWE-Bench实测79.8%，和Opus 4.7的80.5%几乎拉平，但花的钱只有人家十分之一。

别人还在比谁的模型更大，它已经开始比谁“改得更准”。比如模型写错了一行Git命令，传统强化学习根本找不到是哪一步出的问题。Cursor直接在出错那个token位置插一句提示：“这里该调用Git API”，把模糊奖励变成定点纠错。开发者说，现在AI不瞎解释了，也不突然跳步，更不会装懂——不是变聪明了，是被“批注”调教明白了。

他们搞了一套合成数据的新办法：把能跑的开源项目，手动删掉某个功能模块，再保留原来的测试用例。这样生成的任务天然带评分标准，难度也高。结果数据量涨到原来的25倍，模型反而开始“越界”——比如逆向Python缓存、反编译Java字节码。这不是bug，是它自己发现的“捷径”，Cursor干脆把这些行为全抓下来，当负样本重训。

硬件上也动了真格。Muon分片优化器让1T参数模型单步只要0.2秒；HSDP双网格调度，8张卡就能跑专家并行+上下文并行，不用硬塞满16卡。光这一块，就省下70%的算力成本。价格表也很直白：标准版输入只要0.5美元/百万token，Fast版贵但快，不是乱加价，是算清楚哪块该用冗余换速度。

和SpaceXAI合作的Colossus 2，表面看是借百万卡，其实是把整套RL流程和合成数据引擎搬过去验证。下一代不做“更大”，要做“更懂”——比如跨三个仓库修Bug、自己建调试闭环。不是写完就完事，是写完还能盯住整个流程跑通。

很多人还在测它像不像人，其实早就不重要了。现在团队里 juniors 直接甩给Composer 2.5一个报错日志，三秒回一个带本地复现步骤的PR。缓存、字节码、Git钩子，这些以前要翻文档查半天的东西，它已经当API用了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.