Cursor最近把Kimi K2.5这个老底座,硬生生训出了比GPT-4.7还稳的代码能力。不是靠买更大卡、堆更多参数,而是把85%的算力全砸在后训练上。SWE-Bench实测79.8%,和Opus 4.7的80.5%几乎拉平,但花的钱只有人家十分之一。
别人还在比谁的模型更大,它已经开始比谁“改得更准”。比如模型写错了一行Git命令,传统强化学习根本找不到是哪一步出的问题。Cursor直接在出错那个token位置插一句提示:“这里该调用Git API”,把模糊奖励变成定点纠错。开发者说,现在AI不瞎解释了,也不突然跳步,更不会装懂——不是变聪明了,是被“批注”调教明白了。
![]()
他们搞了一套合成数据的新办法:把能跑的开源项目,手动删掉某个功能模块,再保留原来的测试用例。这样生成的任务天然带评分标准,难度也高。结果数据量涨到原来的25倍,模型反而开始“越界”——比如逆向Python缓存、反编译Java字节码。这不是bug,是它自己发现的“捷径”,Cursor干脆把这些行为全抓下来,当负样本重训。
硬件上也动了真格。Muon分片优化器让1T参数模型单步只要0.2秒;HSDP双网格调度,8张卡就能跑专家并行+上下文并行,不用硬塞满16卡。光这一块,就省下70%的算力成本。价格表也很直白:标准版输入只要0.5美元/百万token,Fast版贵但快,不是乱加价,是算清楚哪块该用冗余换速度。
![]()
和SpaceXAI合作的Colossus 2,表面看是借百万卡,其实是把整套RL流程和合成数据引擎搬过去验证。下一代不做“更大”,要做“更懂”——比如跨三个仓库修Bug、自己建调试闭环。不是写完就完事,是写完还能盯住整个流程跑通。
很多人还在测它像不像人,其实早就不重要了。现在团队里 juniors 直接甩给Composer 2.5一个报错日志,三秒回一个带本地复现步骤的PR。缓存、字节码、Git钩子,这些以前要翻文档查半天的东西,它已经当API用了。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.