网易首页 > 网易号 > 正文 申请入驻

这一个Tab键,我愿意单独付费:Cursor在线强化学习优化代码建议

0
分享至

机器之心报道

编辑:+0

Cursor Tab 是 Cursor 的核心功能之一,它通过分析开发者的编码行为,智能预测并推荐后续代码,开发者仅需按下 Tab 键即可采纳。



然而,它也面临着一个 AI 普遍存在的难题:「过度热情」。有时,它提出的建议不仅毫无用处,甚至会打断开发者的思路。

问题的关键,不只是让 AI 写出更优秀的代码,更是要教会它「察言观色」:在最恰当的时机提供帮助,在其他时候则保持安静。

基于此,Cursor 采用在线强化学习技术训练出一个全新的 Tab 模型。该模型将每一次用户交互(接受/拒绝建议)都视为一个强化信号,直接用于模型的在线优化。在每天超过 4 亿次请求的巨大流量驱动下,模型得以进行高频度的、基于真实世界反馈的持续学习。



Cursor 已将这个新的 Tab 模型设为默认版本。与旧模型相比,新模型提供的建议数量减少了 21%,但所提供建议的接受率却提升了 28%。此举旨在提升用户的编码体验,Cursor 也计划在未来继续深化这些方法的研究。

Cursor 的策略独特且高效:它每天多次向用户部署新模型(每隔 1.5-2 小时),利用实时数据进行快速训练和优化。

这与主流做法形成了鲜明对比。多数厂商仍在静态数据集上进行长周期训练,依赖人工标注,数月才发布一次新模型。Cursor 的模式则建立了一个超高频的实时反馈循环,是对传统模型开发流程的彻底颠覆。

这似乎又一次向我们证明了,谁掌握了数据入口,谁就掌握了 AI 进化的主动权。

该功能在 AI 社区也得到了非常积极的反馈,有用户表示这是 Cursor 当前「护城河」,并愿意为 Cursor Tab 单独付费。



还有开发者认为,它能大幅提升了生产力,不像 agent 那样只有噱头,而是「比其他任何功能都更能改善工作流程」。



另外,一条被「强化学习之父」Richard Sutton 转发的评论表示,Cursor 的这个做法意义重大,它首次大规模证明了「实时在线学习」的巨大威力,并且指明了 AI 未来的一个重要发展方向,尽管目前还不够完美。



Cursor 通过一篇博客介绍了他们如何利用这些数据,通过在线强化学习技术来优化其 Tab 模型。

  • 博客地址:https://cursor.com/cn/blog/tab-rl

「干扰性建议」的挑战

要实现高接受率,不仅需要提升模型本身的智能水平,更关键的是要判断何时应提供建议,何时应保持静默。在某些场景下,上下文信息不足以准确判断用户的意图。即便模型具备完美的知识和推理能力,也无法预知用户的确切操作。在这些情况下,不提供任何建议是更优的选择。

为提升建议的接受率,一种直接的思路是训练一个独立的分类模型来预测建议是否会被采纳。据 Parth Thakkar 在 2022 年披露,GitHub Copilot 便采用了此种策略。它通过一个逻辑回归模型计算「上下文过滤分数」,该模型接收 11 个特征作为输入,涵盖了编程语言、前次建议的采纳情况、光标前的字符序列等。尽管该模型的确切预测目标未知,但外界普遍猜测其旨在预测建议被用户接受的概率。当该分数低于 15% 时,系统便会跳过此次建议。

该方案虽然可行,但 Cursor 的团队希望寻求一种更通用的机制,以便能复用 Tab 模型自身学到的强大代码表征能力。他们希望从根源上让 Tab 模型避免生成质量不高的建议,而非仅仅在事后进行过滤。因此,他们最终选择了策略梯度方法。

策略梯度方法

策略梯度是一种通用的优化框架,其目标是调整「策略」(在此即 Tab 模型),以最大化「奖励」(Reward)。奖励是一个被赋予策略所执行的每一个动作的数值。通过策略梯度算法,可以持续更新策略,使其在未来能够获得更高的平均奖励。

该类算法的核心思想是:允许策略进行探索性的随机尝试,观察不同行为所带来的奖励高低,然后对获得高奖励的行为进行正向强化,对导致低奖励的行为进行负向强化。

为了运用策略梯度方法优化 Tab,团队定义了一个精巧的奖励函数:鼓励被采纳的建议,同时惩罚那些被展示但未被采纳的建议。

例如,假设目标是当建议的接受率不低于 25% 时才进行展示。那么,可以为被采纳的建议设定 0.75 的奖励,为被拒绝的建议设定 -0.25 的奖励,而未展示建议的情况奖励为 0。如果一个建议的真实接受概率为 p,那么展示该建议的期望奖励就是。该值仅在 p>0.25 时为正。因此,一个旨在最大化奖励的策略,将学会在其预估接受率超过 25% 时才给出建议。



在实际应用中,Cursor 使用的奖励函数更为复杂,还考虑了建议的长度、代码跳转以及展示更多建议的可能性等因素。但其核心理念是一致的:并非直接对接受率进行建模,而是学习一个能够达成特定接受率目标的策略。

可以推断,模型在其内部表征中自发学习到了对接受概率的评估(或至少是评估其是否超过 25%),而这个过程完全交由优化器自行探索。

同策略(On-Policy)数据的重要性



然而,该方法有一个关键前提:用于计算梯度的动作样本,必须来自于当前正在优化的策略。一旦策略被更新,旧的数据便不再是「同策略(On-Policy)」数据。

为了获取最新的有效样本,就必须将新模型部署给用户并收集其行为数据。这意味着需要一套高效的基础设施,以快速部署新的模型检查点,并缩短从用户产生数据到数据进入下一轮训练流程的时间。

目前,Cursor 推出一个检查点并收集所需数据需要 1.5 到 2 小时。尽管这在人工智能行业已属高效,但仍有进一步优化的空间。

Cursor 这次更新让你心动了吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海一小区居民挖掘地下室形成数米深坑,波及周边建筑?城管:属违规,已受理此事

上海一小区居民挖掘地下室形成数米深坑,波及周边建筑?城管:属违规,已受理此事

潇湘晨报
2025-11-13 17:20:09
随着王楚钦4-2林高远,全运男单4强出炉!大概率以下2人会师决赛

随着王楚钦4-2林高远,全运男单4强出炉!大概率以下2人会师决赛

小火箭爱体育
2025-11-13 20:00:10
这才是对日外交的正确打开方式!

这才是对日外交的正确打开方式!

大又元
2025-11-13 18:16:32
柬埔寨“太子集团”首度发声:否认从事非法活动,辩称12.7万枚比特币4年多前被黑客窃取

柬埔寨“太子集团”首度发声:否认从事非法活动,辩称12.7万枚比特币4年多前被黑客窃取

红星新闻
2025-11-13 19:47:43
保时捷又现神回复,友商:学不完,根本学不完!

保时捷又现神回复,友商:学不完,根本学不完!

LOGO研究所
2025-11-13 20:36:23
这支中国男足给球迷长脸了!家门口作战4比0大胜对手,让大家扬眉吐气

这支中国男足给球迷长脸了!家门口作战4比0大胜对手,让大家扬眉吐气

懂个球
2025-11-13 23:56:26
就业形势现在到底有多严峻

就业形势现在到底有多严峻

经济学教授V
2025-11-13 18:43:14
网红博主称从柬埔寨飞北京途中丢失350万元手镯和手表,悬赏百万现金寻找失物,航司和警方介入

网红博主称从柬埔寨飞北京途中丢失350万元手镯和手表,悬赏百万现金寻找失物,航司和警方介入

极目新闻
2025-11-13 21:51:21
山东建行“取款报警”事件,央视出手了!

山东建行“取款报警”事件,央视出手了!

鸣金网
2025-11-13 11:24:28
爱泼斯坦档案再曝大瓜,前美财长、高盛律师痛批特朗普“粗俗”“恶心”

爱泼斯坦档案再曝大瓜,前美财长、高盛律师痛批特朗普“粗俗”“恶心”

凤凰网财经
2025-11-13 14:51:02
爆!原中国移动通信集团公司董事长奚国华

爆!原中国移动通信集团公司董事长奚国华

通信头条
2025-11-13 21:08:07
狗咬人引发命案律师透露新进展:狗主人的妹夫重伤,属于正当防卫

狗咬人引发命案律师透露新进展:狗主人的妹夫重伤,属于正当防卫

汉史趣闻
2025-11-13 15:26:25
奇瑞发布新规:员工需早锻炼,禁穿卫衣牛仔裤

奇瑞发布新规:员工需早锻炼,禁穿卫衣牛仔裤

三言科技
2025-11-13 16:00:03
12条猎犬围捕400斤大野猪时4条不幸牺牲,损失3万余元,护农队:今年已有33条猎犬牺牲,总价值上百万元

12条猎犬围捕400斤大野猪时4条不幸牺牲,损失3万余元,护农队:今年已有33条猎犬牺牲,总价值上百万元

极目新闻
2025-11-13 19:51:51
佘智江被抓,牵出赵薇前夫黄有龙和妙瓦底诈骗的瓜,真相太炸裂

佘智江被抓,牵出赵薇前夫黄有龙和妙瓦底诈骗的瓜,真相太炸裂

吃瓜局
2025-11-13 20:50:11
50元的外卖工服,把中产三宝的体面戳破了

50元的外卖工服,把中产三宝的体面戳破了

金错刀
2025-11-12 15:47:11
“很少见,如此深度南下”!强冷空气来了!广东下周开启“速冻模式”

“很少见,如此深度南下”!强冷空气来了!广东下周开启“速冻模式”

佛山电视台小强热线
2025-11-13 21:34:49
李连杰返老还童越扒越有!好友证实王宁也做了大血净,官媒早披露

李连杰返老还童越扒越有!好友证实王宁也做了大血净,官媒早披露

古希腊掌管月桂的神
2025-11-13 15:23:54
G7发表联合声明,不许中国援俄,不许对台动武,不许阻止稀土出口

G7发表联合声明,不许中国援俄,不许对台动武,不许阻止稀土出口

头条爆料007
2025-11-13 20:24:04
乌克兰“火烈鸟”导弹击中奥廖尔!俄罗斯数十个目标遇袭

乌克兰“火烈鸟”导弹击中奥廖尔!俄罗斯数十个目标遇袭

项鹏飞
2025-11-13 20:51:29
2025-11-14 08:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11712文章数 142504关注度
往期回顾 全部

科技要闻

美国蓝色起源"新格伦"火箭实现推进器回收

头条要闻

泉州公安依法悬赏"台独"帮凶 两人曾上演"狗咬狗"戏码

头条要闻

泉州公安依法悬赏"台独"帮凶 两人曾上演"狗咬狗"戏码

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

艺术
本地
房产
公开课
军事航空

艺术要闻

十年数学研究员转身画画:她说,艺术才是人生的“最优解”!

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军多海域再现“航母真空”

无障碍浏览 进入关怀版