网易首页 > 网易号 > 正文 申请入驻

这一个Tab键,我愿意单独付费:Cursor在线强化学习优化代码建议

0
分享至

机器之心报道

编辑:+0

Cursor Tab 是 Cursor 的核心功能之一,它通过分析开发者的编码行为,智能预测并推荐后续代码,开发者仅需按下 Tab 键即可采纳。



然而,它也面临着一个 AI 普遍存在的难题:「过度热情」。有时,它提出的建议不仅毫无用处,甚至会打断开发者的思路。

问题的关键,不只是让 AI 写出更优秀的代码,更是要教会它「察言观色」:在最恰当的时机提供帮助,在其他时候则保持安静。

基于此,Cursor 采用在线强化学习技术训练出一个全新的 Tab 模型。该模型将每一次用户交互(接受/拒绝建议)都视为一个强化信号,直接用于模型的在线优化。在每天超过 4 亿次请求的巨大流量驱动下,模型得以进行高频度的、基于真实世界反馈的持续学习。



Cursor 已将这个新的 Tab 模型设为默认版本。与旧模型相比,新模型提供的建议数量减少了 21%,但所提供建议的接受率却提升了 28%。此举旨在提升用户的编码体验,Cursor 也计划在未来继续深化这些方法的研究。

Cursor 的策略独特且高效:它每天多次向用户部署新模型(每隔 1.5-2 小时),利用实时数据进行快速训练和优化。

这与主流做法形成了鲜明对比。多数厂商仍在静态数据集上进行长周期训练,依赖人工标注,数月才发布一次新模型。Cursor 的模式则建立了一个超高频的实时反馈循环,是对传统模型开发流程的彻底颠覆。

这似乎又一次向我们证明了,谁掌握了数据入口,谁就掌握了 AI 进化的主动权。

该功能在 AI 社区也得到了非常积极的反馈,有用户表示这是 Cursor 当前「护城河」,并愿意为 Cursor Tab 单独付费。



还有开发者认为,它能大幅提升了生产力,不像 agent 那样只有噱头,而是「比其他任何功能都更能改善工作流程」。



另外,一条被「强化学习之父」Richard Sutton 转发的评论表示,Cursor 的这个做法意义重大,它首次大规模证明了「实时在线学习」的巨大威力,并且指明了 AI 未来的一个重要发展方向,尽管目前还不够完美。



Cursor 通过一篇博客介绍了他们如何利用这些数据,通过在线强化学习技术来优化其 Tab 模型。

  • 博客地址:https://cursor.com/cn/blog/tab-rl

「干扰性建议」的挑战

要实现高接受率,不仅需要提升模型本身的智能水平,更关键的是要判断何时应提供建议,何时应保持静默。在某些场景下,上下文信息不足以准确判断用户的意图。即便模型具备完美的知识和推理能力,也无法预知用户的确切操作。在这些情况下,不提供任何建议是更优的选择。

为提升建议的接受率,一种直接的思路是训练一个独立的分类模型来预测建议是否会被采纳。据 Parth Thakkar 在 2022 年披露,GitHub Copilot 便采用了此种策略。它通过一个逻辑回归模型计算「上下文过滤分数」,该模型接收 11 个特征作为输入,涵盖了编程语言、前次建议的采纳情况、光标前的字符序列等。尽管该模型的确切预测目标未知,但外界普遍猜测其旨在预测建议被用户接受的概率。当该分数低于 15% 时,系统便会跳过此次建议。

该方案虽然可行,但 Cursor 的团队希望寻求一种更通用的机制,以便能复用 Tab 模型自身学到的强大代码表征能力。他们希望从根源上让 Tab 模型避免生成质量不高的建议,而非仅仅在事后进行过滤。因此,他们最终选择了策略梯度方法。

策略梯度方法

策略梯度是一种通用的优化框架,其目标是调整「策略」(在此即 Tab 模型),以最大化「奖励」(Reward)。奖励是一个被赋予策略所执行的每一个动作的数值。通过策略梯度算法,可以持续更新策略,使其在未来能够获得更高的平均奖励。

该类算法的核心思想是:允许策略进行探索性的随机尝试,观察不同行为所带来的奖励高低,然后对获得高奖励的行为进行正向强化,对导致低奖励的行为进行负向强化。

为了运用策略梯度方法优化 Tab,团队定义了一个精巧的奖励函数:鼓励被采纳的建议,同时惩罚那些被展示但未被采纳的建议。

例如,假设目标是当建议的接受率不低于 25% 时才进行展示。那么,可以为被采纳的建议设定 0.75 的奖励,为被拒绝的建议设定 -0.25 的奖励,而未展示建议的情况奖励为 0。如果一个建议的真实接受概率为 p,那么展示该建议的期望奖励就是。该值仅在 p>0.25 时为正。因此,一个旨在最大化奖励的策略,将学会在其预估接受率超过 25% 时才给出建议。



在实际应用中,Cursor 使用的奖励函数更为复杂,还考虑了建议的长度、代码跳转以及展示更多建议的可能性等因素。但其核心理念是一致的:并非直接对接受率进行建模,而是学习一个能够达成特定接受率目标的策略。

可以推断,模型在其内部表征中自发学习到了对接受概率的评估(或至少是评估其是否超过 25%),而这个过程完全交由优化器自行探索。

同策略(On-Policy)数据的重要性



然而,该方法有一个关键前提:用于计算梯度的动作样本,必须来自于当前正在优化的策略。一旦策略被更新,旧的数据便不再是「同策略(On-Policy)」数据。

为了获取最新的有效样本,就必须将新模型部署给用户并收集其行为数据。这意味着需要一套高效的基础设施,以快速部署新的模型检查点,并缩短从用户产生数据到数据进入下一轮训练流程的时间。

目前,Cursor 推出一个检查点并收集所需数据需要 1.5 到 2 小时。尽管这在人工智能行业已属高效,但仍有进一步优化的空间。

Cursor 这次更新让你心动了吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

环球网资讯
2025-11-14 06:45:32
李连杰返老还童越扒越有!好友证实王宁也做了大血净,官媒早披露

李连杰返老还童越扒越有!好友证实王宁也做了大血净,官媒早披露

古希腊掌管月桂的神
2025-11-13 15:23:54
狗咬邻居被摔死后主人上门打砸遭反杀,该案一审未当庭宣判,检方认为被告人系防卫过当

狗咬邻居被摔死后主人上门打砸遭反杀,该案一审未当庭宣判,检方认为被告人系防卫过当

扬子晚报
2025-11-13 22:32:07
影子调查|连云港一公司女职员陪酒之死:赴宴5名镇干部被处理,家属起诉追问死因

影子调查|连云港一公司女职员陪酒之死:赴宴5名镇干部被处理,家属起诉追问死因

澎湃新闻
2025-11-14 12:42:28
超700台光刻机!荷兰ASML公司可能要全部回购?外媒:事情闹大了

超700台光刻机!荷兰ASML公司可能要全部回购?外媒:事情闹大了

大卫聊科技
2025-11-13 13:44:04
全运会乒乓球男团:上海3-0战胜江苏,许昕两战全胜

全运会乒乓球男团:上海3-0战胜江苏,许昕两战全胜

懂球帝
2025-11-14 12:16:38
高市早苗发表涉台错误言论,中方密集发声!

高市早苗发表涉台错误言论,中方密集发声!

上游新闻
2025-11-14 15:11:04
突然爆雷!总部解散,曾宣称“国资背景”,5000名投资者近10亿被套,大多来自亲戚朋友相互推荐

突然爆雷!总部解散,曾宣称“国资背景”,5000名投资者近10亿被套,大多来自亲戚朋友相互推荐

鲁中晨报
2025-11-14 10:55:26
百度AI:熬过“起大早”的孤独,等来时代的奖励

百度AI:熬过“起大早”的孤独,等来时代的奖励

定焦One
2025-11-13 20:07:12
贝克汉姆家陷僵局?大布提出和解条件:除非爸妈给老婆道歉!这...可能吗?

贝克汉姆家陷僵局?大布提出和解条件:除非爸妈给老婆道歉!这...可能吗?

英国那些事儿
2025-11-13 23:27:08
神舟二十号为什么被撞了?权威解读——

神舟二十号为什么被撞了?权威解读——

BRTV新闻
2025-11-06 16:21:50
这里正在发生真正的种族灭绝,他们却开启了休假模式

这里正在发生真正的种族灭绝,他们却开启了休假模式

以色列计划Pro
2025-11-13 21:42:59
母亲称女儿被骗柬埔寨 已怀孕6个月 欲卖房凑20万赎金

母亲称女儿被骗柬埔寨 已怀孕6个月 欲卖房凑20万赎金

大象新闻
2025-11-14 11:22:03
马筱梅直播大方承认:玥儿霖霖被大S教很好!比有的大人还尊重人

马筱梅直播大方承认:玥儿霖霖被大S教很好!比有的大人还尊重人

小娱乐悠悠
2025-11-14 14:49:41
这是真饿了,太阳报:哈兰德赛后买了近70个芝士汉堡请全队吃

这是真饿了,太阳报:哈兰德赛后买了近70个芝士汉堡请全队吃

懂球帝
2025-11-14 12:03:09
49中26!火箭第一神射手!和亚当斯爆发冲突

49中26!火箭第一神射手!和亚当斯爆发冲突

篮球实战宝典
2025-11-14 14:02:07
“狗咬人致命案”新进展:9人砸窗破门误伤自己人,导致妹夫重伤

“狗咬人致命案”新进展:9人砸窗破门误伤自己人,导致妹夫重伤

汉史趣闻
2025-11-13 21:05:13
越南军方内部报告曝光:中国军力强大到让邻国彻底清醒

越南军方内部报告曝光:中国军力强大到让邻国彻底清醒

Hi秒懂科普
2025-11-14 13:06:11
医生被护士骂的理由能有离谱?网友:我一直以为护士是医生的佣人

医生被护士骂的理由能有离谱?网友:我一直以为护士是医生的佣人

解读热点事件
2025-11-13 00:15:03
资金用完!全国多地已暂停汽车报废更新补贴

资金用完!全国多地已暂停汽车报废更新补贴

极目新闻
2025-11-12 22:48:27
2025-11-14 17:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11714文章数 142505关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

29岁程序员疑被骗至东南亚 出租屋内留下一张神秘纸条

头条要闻

29岁程序员疑被骗至东南亚 出租屋内留下一张神秘纸条

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

本地
时尚
数码
教育
公开课

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

秋天穿衣真的一点都不难!从这些穿搭中收获灵感,舒适又耐看

数码要闻

Steam Frame发布后,Valve宣告Index VR头显已停产

教育要闻

九宫格填数字,四年级三阶幻方

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版