网易首页 > 网易号 > 正文 申请入驻

1/10成本、Opus 4.7级表现,Cursor甩出了性价比之王Composer 2.5

0
分享至



机器之心编辑部

「以 1/10 的成本,性能几乎追平 Claude Opus 4.7 这个级别的模型。」

它就是 Cursor 今天凌晨亮出的迄今为止最强大的模型 ——Composer 2.5

官方表示,Composer 2.5更加智能,更擅长处理耗时较长的持续任务,并且在遵循复杂指令方面也更为可靠

未来一周内,Cursor 将会把该模型原本附赠 / 包含的使用额度翻倍。



相比 Composer 2,Composer 2.5 在智能水平和行为表现上都有显著提升。



通过扩大训练规模、构建更复杂的强化学习环境,并引入新的学习方法,Cursor 全面改进了 Composer。

除了在更困难的任务上训练 Composer 2.5 外,Cursor 还优化了模型的沟通风格、努力程度校准等行为层面的表现。这些维度现有基准测试无法很好地衡量,但它们对实际使用体验至关重要。

可以看到,Composer 2.5 在同等能力的模型中,它的成本效率最高可高出 10 倍



值得关注的是,Composer 2.5 基于与 Composer 2 相同的开源检查点构建,即月之暗面的 Kimi K2.5



Cursor 还宣布了与 SpaceXAI 的合作:双方将从零开始训练一个规模大得多的模型,总算力投入是此前的 10 倍。借助 Colossus 2 的百万块 H100 等效算力,以及双方积累的数据和训练技术,预计这将是模型能力的一次重大飞跃。

马斯克发推呼吁大家伙使用 Composer 2.5,并表示该模型的训练有一部分是在 Colossus 2 上进行的。



Cursor 创始人称,「我们在强化学习方面已经做得极其出色了。Composer 2.5 完成了越级挑战,其表现远远超出了它这个参数规模应有的水平。对于下一个版本,我们无比兴奋。我们将与 SpaceXAI 一起,大幅扩展模型规模和算力投入。」



Composer 2.5 训练体系

Composer 2.5 的训练体系引入了多项新改进,这些改进同时针对模型智能和可用性。

一是,基于文本反馈的精准强化学习

随着单次推理过程可能长达数十万 token,强化学习中的功劳分配正成为一个日益严峻的挑战。当奖励是基于整个推理过程计算时,模型很难分辨到底是哪一个具体决策帮助或损害了最终结果。当我们想要抑制某个局部行为,比如一次错误的工具调用、一处令人困惑的解释,或是一种风格违规,这种局限性尤其明显。最终奖励能告诉我们出了某种问题,但对于问题出在哪里,它只是一个充满噪声的信号。

为解决这一问题,Cursor 用精准文本反馈来训练 Composer 2.5。思路是:在模型推理轨迹中本可以表现更好的那个具体节点,直接给出反馈。针对目标模型消息,Cursor 构造一个简短的提示,描述期望的改进方向,将其插入局部上下文,并将得到的模型概率分布作为「教师」。同时,以原始上下文中的策略作为「学生」,加入一个同策略蒸馏 KL 损失,将学生的 token 概率向教师的概率拉近。这样一来,既能获得对目标行为的局部化训练信号,又保留了基于完整轨迹的整体强化学习目标。

以文本反馈过程为例:设想一个漫长的推理过程,其中包含一次工具调用错误:模型试图调用一个并不存在的工具。过程中,模型会收到「未找到工具」的错误提示,并继续做出其他有效的工具调用。在数百次工具调用中出现一次错误,对其最终奖励的影响微乎其微。

借助文本反馈,可以精准定位这一具体错误:在出错的那一轮上下文中插入一条提示,如「提醒:可用工具有……」并附上可用工具列表。这条提示改变了教师模型的概率分布,降低了错误工具的调用概率,提高了有效替代方案的概率。然后,仅针对那一轮,将学生权重向新的概率分布更新。

在 Composer 2.5 的训练过程中,Cursor 将这一方法应用于多种模型行为,从代码风格到模型沟通方式。



二是,合成数据

在强化学习训练期间,Composer 的编程能力会显著提升,直到能正确完成大部分训练任务。为了持续提升智能水平,Cursor 在整个训练过程中动态筛选并创建更困难的任务。Composer 2.5 使用的合成任务数量是 Composer 2 的 25 倍

Cursor 采用了多种方法来创建基于真实代码库的合成任务。例如,其中一种方法是「功能删除」:给智能体一个包含大量测试用例的代码库,要求它以某种方式删除代码和文件,使得代码库在移除某些可测试功能后仍能保持运行。合成任务就是重新实现被删除的功能,而测试用例则用作可验证的奖励。

大规模创建合成任务带来的一个附带后果是,它可能引发意想不到的奖励破解行为。

随着模型能力越来越强,Composer 2.5 找到越来越精巧的变通方法来完成任务。有一个例子是,模型找到了一个遗留的 Python 类型检查缓存,并逆向工程其格式,从而找到了一个被删除的函数签名。另一个例子中,它找到并反编译了 Java 字节码,重建了一个第三方 API。Cursor 通过智能体监控工具发现并诊断了这些问题,但它们也说明,大规模强化学习需要越来越谨慎。



三是,分片 Muon 与双网格 HSDP

在持续预训练中,Cursor 采用分布式正交化的 Muon 优化器。生成动量更新后,以模型的自然粒度运行 Newton-Schulz 迭代:对注意力投影按每个注意力头处理,对堆叠的 MoE 权重按每个专家处理。

主要开销来自专家权重的正交化。对于分片参数,将同形状的张量分批处理,通过全量交换(all-to-all)将分片汇聚为完整矩阵,运行 Newton-Schulz,再通过全量交换将结果传回原始分片布局。这些传输是异步的:当一个任务在等待通信时,优化器运行时会推进其他 Muon 任务,使网络传输与计算重叠。这等效于全矩阵 Muon,但能保持分片组持续忙碌;在 1T 参数模型上,优化器单步耗时仅 0.2 秒。

这与 Cursor 为 MoE 模型使用 HSDP 的方式密切相关。HSDP 构成多个 FSDP 副本,并在对应的分片之间进行梯度的全归约操作。Cursor 对非专家权重和专家权重使用各自独立的 HSDP 布局:非专家权重相对较小,其 FSDP 组可以保持较窄的范围,通常在一个节点或机架内;而专家权重承载了绝大部分参数和大部分 Muon 计算量,因此使用更宽的专家分片网格。

保持这些布局独立还能让独立的并行维度得以重叠:例如 CP=2 和 EP=8 可以在 8 块 GPU 上运行,而不需要在单一共享网格中占用 16 块。这样既避免了小型非专家状态的大范围通信,又将专家优化器的计算工作分摊到更多 GPU 上。

Composer 2.5 定价

Composer 2.5 定价为每百万输入 token 0.50 美元每百万输出 token 2.50 美元

另有一个速度更快、智能水平相同的变体,定价为每百万输入 token 3.00 美元,每百万输出 token 15.00 美元,比其他前沿模型的快速版更便宜。

博客地址:https://cursor.com/blog/composer-2-5

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
里斯蒂奇:比分虽然是1-1,但我感觉像赢了四个一样

里斯蒂奇:比分虽然是1-1,但我感觉像赢了四个一样

懂球帝
2026-07-05 22:08:23
弘一法师:一个人如果开始减少说话,不再争论是非,那他一定站上了这两个维度的天花板

弘一法师:一个人如果开始减少说话,不再争论是非,那他一定站上了这两个维度的天花板

心理观察局
2026-07-05 07:42:04
淘汰赛变成全武行!这个主裁太离谱,前裁判怒了:应取消执法资格

淘汰赛变成全武行!这个主裁太离谱,前裁判怒了:应取消执法资格

萌兰聊个球
2026-07-05 08:21:47
撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

书慧我心
2026-07-04 13:55:59
乌克兰突袭克里米亚空军基地!炸毁俄军米格29战机

乌克兰突袭克里米亚空军基地!炸毁俄军米格29战机

项鹏飞
2026-07-05 21:45:06
欧洲发出哀叹:中国的发展,让发达国家变得“猪狗不如”

欧洲发出哀叹:中国的发展,让发达国家变得“猪狗不如”

花小猫的美食日常
2026-07-05 22:00:40
2020年克林顿坦言出轨原因,莱温斯基:拉开裤链后他要用雪茄助兴

2020年克林顿坦言出轨原因,莱温斯基:拉开裤链后他要用雪茄助兴

万国明信片
2026-06-28 18:07:20
他若不死,国民党不会败退台湾!蒋介石痛悔亲手杀了这个人

他若不死,国民党不会败退台湾!蒋介石痛悔亲手杀了这个人

历史人文2
2026-07-02 20:30:03
出事了,俄罗斯首都遭大规模袭击,普京被激怒,俄公布核打击名单

出事了,俄罗斯首都遭大规模袭击,普京被激怒,俄公布核打击名单

风信子的花
2026-07-05 08:34:35
Lisa自己发布活动照,她确实是嘴和眼睛一样宽,粉丝再无狡辩余地

Lisa自己发布活动照,她确实是嘴和眼睛一样宽,粉丝再无狡辩余地

芊手若
2026-07-05 06:56:23
特朗普与普京通话1小时25分钟,还和泽连斯基打电话!普京:俄军正发起全线进攻!乌军:打击了俄军3个指挥所、5个无人机指挥所

特朗普与普京通话1小时25分钟,还和泽连斯基打电话!普京:俄军正发起全线进攻!乌军:打击了俄军3个指挥所、5个无人机指挥所

每日经济新闻
2026-07-05 09:28:04
终于有人站出来,公益圣人韩红跌落神坛的真相,彻底被撕开

终于有人站出来,公益圣人韩红跌落神坛的真相,彻底被撕开

橙星文娱
2026-07-03 11:24:52
真实的豪门太太生活,跟大家想的很不一样

真实的豪门太太生活,跟大家想的很不一样

微微热评
2026-07-05 12:17:57
一个中年女人自不自律,看她的“体态”就知道了,差距不是一般大

一个中年女人自不自律,看她的“体态”就知道了,差距不是一般大

健身狂人
2026-06-05 11:01:06
赛前3连胜却遭横扫,陈幸同到底怎么了?听完她的解释懂了

赛前3连胜却遭横扫,陈幸同到底怎么了?听完她的解释懂了

林子说事
2026-07-05 20:10:39
嫁法国老头真相大白后,41岁李宇春近况曝光,一点都不感到意外

嫁法国老头真相大白后,41岁李宇春近况曝光,一点都不感到意外

李侽在北漂
2026-06-28 18:23:13
NBA夏联:爵士加时1分险胜老鹰 榜眼彼得森首秀28+8失误

NBA夏联:爵士加时1分险胜老鹰 榜眼彼得森首秀28+8失误

醉卧浮生
2026-07-05 07:03:55
成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

背包旅行
2026-07-02 14:33:11
老人长寿并非是好事,活多少岁足够了?能达到这个岁数,算有福气

老人长寿并非是好事,活多少岁足够了?能达到这个岁数,算有福气

芹姐说生活
2026-07-05 23:03:33
刘德华“替身”杜奕衡近况曝光!无戏可拍,骑三轮街头摆摊卖炒菜

刘德华“替身”杜奕衡近况曝光!无戏可拍,骑三轮街头摆摊卖炒菜

洲洲影视娱评
2026-06-23 17:28:42
2026-07-05 23:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13442文章数 142688关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
健康
房产
本地
公开课

数码要闻

安克上线官翻产品旗舰店,提供官方保修和售后保障

听说少吃点能抗衰老?专家讲解!

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

本地新闻

国内足球之旅?这座小城给你高分答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版