网易首页 > 网易号 > 正文 申请入驻

李飞飞、Jeff Dean押注!不卷大模型,专练越用越聪明的AI

0
分享至


新智元报道


【新智元导读】卷更大的模型,不再是唯一答案。新问题是模型能不能在真实场景中越用越聪明。一家叫Trajectory的公司押注这一趋势,要把Cursor的成功秘密做成AI新基建。

5月27日,一家叫Trajectory的公司,正式从隐身模式走入公众视野。

据WIRED报道,它刚刚完成1500万美元种子轮,投后估值1.15亿美元。领投方是Conviction,Bessemer Venture Partners、Radical VC、BoxGroup跟投。


真正炸裂的,是它背后的个人投资者名单:Google DeepMind首席科学家Jeff Dean,「AI教母」World Labs CEO李飞飞,两位AI大佬赫然在列。

他们押注的不是模型,而是模型之外的那一层。

早在去年12月的NeurIPS 2025大会上,强化学习之父、图灵奖得主Rich Sutton,就把同一个判断,摆在了整个AI学术界面前。

而这家公司的三位创始人,背景也都不简单。

CEO Ronak Malde,前Windsurf的AI研究员。去年Google用约24亿美元拿下Windsurf核心人才和资产授权时,他是进入DeepMind的极少数团队核心之一。

另外两位联创也都来自一线AI研发场景。

Arjun Karanam,前Apple AI研究员,参与过Vision Pro相关工作;Michael Elabd,前Google DeepMind机器人部门成员。


Trajectory三位创始人:Michael Elabd(左)、Arjun Karanam (中)Ronak Malde (右)

此外,其11人的研发团队中还汇聚了来自OpenAI、Meta超级智能实验室(Superintelligence Labs)等顶尖机构的AI人才。

Trajectory不是大模型公司。它要干的一件事,是把Cursor闷声做了很久的那件事:让AI从用户的真实使用里持续变聪明,做成所有公司都能用的AI基础设施。

Cursor的进化秘密

藏在反馈闭环里

要理解Jeff Dean和李飞飞,为什么会押注Trajectory这样一家初创公司,必须先搞懂一个概念:反馈闭环。

过去两年,AI编程产品几乎是所有AI应用里进化最快的赛道。

Cursor、Copilot、Windsurf、Claude Code……杀得难解难分。模型一周一个版本,产品体验隔几天就上一个台阶。

它们凭什么进化得这么快?

Malde的答案很简单:这些AI编程工具都在偷偷做同一件事,使用真实使用数据做post-training(后训练),定期把模型再练一遍。

「今天最强的AI,仍然是静态的。」Malde说,「你昨天用的那个模型,今天还会犯同样的错。」这句话点破了当前大模型应用的根本痛点。

举个例子。

OpenAI、Anthropic、Google每隔几个月推一个新版本。但你的客服AI、销售AI、法律AI,并不会因为你昨晚处理了一千个工单,今天就更懂你的业务:它仍然是那个出厂设置的模型。

Cursor的出现,打破了这个魔咒。

它从用户每一次接受补全、每一次修改、每一次撤回里,提取信号,做成训练数据,再回炉模型。每一次产品发版,背后都是一轮真实用户行为驱动的后训练。

Trajectory想做的,正是把这套打法标准化,从AI编程搬进客服、销售、法律。这些行业有个共同点:什么算「成功」,远比代码模糊得多,也更难被数据定义。

但这也最难。代码能不能跑,机器一目了然。一通客服电话有没有解决问题,一份法律文书有没有踩中判例,机器靠什么判断?

Trajectory的解法是另起炉灶:不碰OpenAI、Anthropic的现成模型,而从开源模型出发,照着客户的产品目标做定向后训练。

这一步绕不开。OpenAI、Anthropic的模型再强,权重都攥在它们自己手里,你最多调调接口、喂点提示,动不了模型的筋骨。

而Trajectory要做的事,是拿真实使用数据反复回炉、改写模型本身,因此必须从一个你能完全掌控的开源模型开始。

这种模型被反复回炉,个头不大,只盯着一类窄任务。但Trajectory押注的是,恰恰是在客户最在意的那些场景里,它能跑赢OpenAI、Anthropic那些什么都会的大模型。

不过这只是公司的说法,目前还没有公开benchmark细节。

每砸一单都变成训练数据


据Trajectory官网显示,它已经签下一批早期客户,每一家都是AI原生赛道里的明星公司。

Clay,做GTM(go-to-market,市场进入)和销售线索智能化;Decagon,做企业AI客服;Harvey,做法律AI。

Clay的CEO Kareem Amin说,他们正在测试一个会从用户身上变得越来越聪明的模型,已经看到它从自己错误里学习的实例。「持续学习是Clay路线图上的重要研究方向,Trajectory正在为我们搭建探索这一方向的基础设施。」

Decagon的研究工程师Cyrus Asgari关心的是后训练模型的可引导性。同一个AI客服,部署到不同企业客户那里,「正确的模型行为」是不一样的。Trajectory要解决的,正是怎么严格度量这种可引导性,又用什么训练手段真正提升它。

Harvey的联创Gabe Pereyra把这件事上升到一个新的视角:「法律专业知识活在人类知识的长尾上,是被判例、判断和实践不断重塑的,固定的数据集捕捉不了它。」

也就是说,通用大模型搞不定法律这样的场景,因为这些行业知识每天都在长。

那Trajectory具体怎么做?

以Decagon为例:每当AI客服处理不了一个请求,比如一位想退货的客户被转给人工,这次「失败」就会被Trajectory记录、结构化,进入下一轮后训练。

每砸一次单,都成了下一版模型的训练数据。这样的回炉,最快一周一次。

技术层面,Trajectory的开发者文档显示,它的SDK把智能体行为轨迹(agent traces)和产品遥测数据(product telemetry)转成一种标准化的格式,它为这种格式起的名字,正是「Trajectory」。

这个格式,就是Trajectory做所有事的最小单元。模型训练、效果评估、持续学习都用它。


Trajectory SDK支持从LangSmith等可观测性平台直接接入数据,企业现有的产品日志稍加改造就能用起来。https://docs.trajectory.ai/introduction

一段完整的多轮对话被拆成四层结构:Trajectory(整段对话)→Step(每一轮的累积快照)→Turn(一次用户与智能体的来回)→Message(一条消息)。

每一个Step都被设计成「自包含的训练样本」:给定这段完整上下文,智能体接下来做了什么。

数据进了管线,下一个问题是合规。

哪些数据能进训练?模型更新前要不要批?出问题能不能查?

Trajectory把决定权全部留给客户:SOC 2认证打底,客户自己圈定哪些数据进训练,每一次模型更新都要先过客户自己的评估和审批。

可以看出,Trajectory卖的是一整套「让模型越用越聪明」的基础设施,这正是企业AI落地最缺的一块。

大模型持续学习的管线已经铺开

Trajectory还没有真正实现「持续学习」。至少不是学界定义的那种「实时、在线、每次交互即学习」。

这一点WIRED在报道里也点明了:当前模型大约每周更新一次,更新之间,仍是静态的。

严格说,今天的Trajectory更像是「高频后训练」:把传统几个月一次的版本迭代,压缩到一周一次。

但最难的一步已经迈出去了。

几个月到一周,本身就是数量级的跨越;更重要的是,Trajectory把这套回炉流程跑通成了一条自动化的管线:数据怎么进、模型怎么训、效果怎么评,全部标准化、可复用。

剩下的,就是把周期持续压缩。

联创Elabd对这条路的想象,要比现在大得多:

每天可能也不够,可以是每小时,可以是每次交互。也许每家公司都不止需要一个AI,而是为每个员工都训练一个AI。

当然,愿景再大,眼下要啃的还是工程硬骨头:怎么把企业产品里的真实使用数据,干净、合规、可审计地变成训练数据。

但方向已经清楚。

下一层基础设施正在长出来

把视野拉远一点,Trajectory出现的时间点很微妙。

2024年下半年起,AI赛道的主线就已经在悄悄换。从o1把推理时计算推上台,到Claude的computer use让模型走进真实操作环境,卷更大的预训练,不再是唯一答案。

新的问题已经浮出水面:模型能不能在真实使用中持续变聪明,Trajectory押注的正是这个方向。

而几乎在同一时间,学术界最有分量的人之一,也将判断指向了同一个方向。

去年12月,NeurIPS 2025大会上,Rich Sutton做了一场特邀演讲。

他是公认的「强化学习之父」,与Andrew Barto共同开发了时序差分学习(temporal difference learning)和策略梯度(policy gradient),这是当代强化学习的两根支柱,从AlphaGo到大模型RLHF(基于人类反馈的强化学习)都建于其上。


Andrew Barto

2024年,两人因「对强化学习的奠基性贡献」共同拿下图灵奖。

更关键的是,Sutton几十年来一直在论证一件事:智能来自经验。智能体在与环境的持续交互中,从奖励和反馈里学习,没有终点。这个判断,正是Trajectory这家公司的底层逻辑。


Rich Sutton在2025年12月3日的NeurIPS大会上做了一场特邀演讲,题目为《Oak架构:一种来自经验的超级智能愿景》

当时,Sutton的核心观点是,AI作为一个产业,某种意义上已经走偏了。要回到真正的智能,需要能持续学习的智能体,需要世界模型和规划,需要可学习的高层知识,需要元学习。

作为AI学术界最有分量的声音之一,Sutton把持续学习重新放回了通向超级智能的核心位置。

如今,Trajectory走向台前,Jeff Dean和李飞飞,两位业界最懂模型的人,共同押注这家专门做「持续学习平台」的早期公司。

这意味着这一技术路线,已经被学术界、资本界先后确认。

API时代的AI产品,本质是「调用别人的智能」。但企业用得越深,越容易撞到这条路的天花板:通用模型不可能针对你的客服话术、销售脚本、法律判例做出无限定制。

一旦你想真正拥有「属于自己的智能」,就得在开源模型上做属于自己的后训练。这件事的工程难度正是当前企业AI落地遭遇的最大瓶颈。模型运维、训练数据治理、评估管线、安全合规、可审计性,每一项都不是调个API能解决的。

API时代之后,下一层基础设施正在长出来。这一次,护城河也许不只在模型本身,更在那套让模型变聪明的管线。

谁能把它做成标准,谁就可能拿到下半场的入场券。

参考资料:

https://www.wired.com/story/ex-google-apple-ai-researchers-want-to-make-ai-that-gets-smarter-as-you-use-it/%20

https://trajectory.ai/%20

https://www.bloomberg.com/news/articles/2025-07-11/openai-s-3-billion-deal-to-buy-ai-startup-windsurf-falls-apart

编辑:元宇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宝妈称网购童鞋收到空鞋盒,申请退款被拒后再买同款根据重量差异举证,获平台支持退款

宝妈称网购童鞋收到空鞋盒,申请退款被拒后再买同款根据重量差异举证,获平台支持退款

潇湘晨报
2026-06-01 12:57:26
广州白云机场一航班落地滑行58分钟?航旅纵横显示情况属实,机场客服称将调查

广州白云机场一航班落地滑行58分钟?航旅纵横显示情况属实,机场客服称将调查

上游新闻
2026-06-01 18:27:16
珠峰一半在中国,一半在尼泊尔,为何全世界都默认是中国领地?

珠峰一半在中国,一半在尼泊尔,为何全世界都默认是中国领地?

抽象派大师
2026-06-01 02:00:38
神级躺赢!索汉提前锁定NBA总冠军戒指 本季先后效力马刺尼克斯

神级躺赢!索汉提前锁定NBA总冠军戒指 本季先后效力马刺尼克斯

醉卧浮生
2026-06-01 05:45:13
奚梦瑶婚礼晚宴,4700万珠宝上身,谷爱凌拎24万爱马仕赴宴成陪衬

奚梦瑶婚礼晚宴,4700万珠宝上身,谷爱凌拎24万爱马仕赴宴成陪衬

好贤观史记
2026-06-01 11:38:36
日经指数首次突破67000点

日经指数首次突破67000点

澎湃新闻
2026-06-01 09:34:09
益阳橡胶塑料机械集团有限公司原党委书记、董事长、总经理姚宏建被查

益阳橡胶塑料机械集团有限公司原党委书记、董事长、总经理姚宏建被查

益阳广电
2026-06-01 16:43:40
五年减少3900万!儿童节,越来越冷清了

五年减少3900万!儿童节,越来越冷清了

西部城市
2026-06-01 11:30:39
襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

奇思妙想草叶君
2026-05-31 23:01:42
世界首富押注的火箭发动机:折腾了60年,终于变成了流水线产品

世界首富押注的火箭发动机:折腾了60年,终于变成了流水线产品

平流层散步者
2026-05-27 08:04:47
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
中国人民解放军将于6月1日至14日在黄海进行实弹射击

中国人民解放军将于6月1日至14日在黄海进行实弹射击

俄罗斯卫星通讯社
2026-06-01 15:08:19
辽宁省气象台继续发布强对流天气蓝色预警 +大风预报!

辽宁省气象台继续发布强对流天气蓝色预警 +大风预报!

辽宁卫视
2026-06-01 16:18:14
给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

扬子晚报
2026-06-01 12:26:28
刚刚,英伟达重新定义PC!史上最高效CPU来了

刚刚,英伟达重新定义PC!史上最高效CPU来了

机器之心Pro
2026-06-01 13:59:47
香会爆发激烈交锋,短短3天全球见识了:日菲的软弱,中国的刚强

香会爆发激烈交锋,短短3天全球见识了:日菲的软弱,中国的刚强

浪子阿邴聊体育
2026-05-31 16:46:00
云南瑞丽:请广大市民保持冷静,不恐慌、不聚集

云南瑞丽:请广大市民保持冷静,不恐慌、不聚集

黄河新闻网吕梁
2026-06-01 10:43:02
震碎NBA!父子同队进总决赛!历史首次!

震碎NBA!父子同队进总决赛!历史首次!

柚子说球
2026-06-01 17:28:09
美国媒体报道 伊朗已疏通大量被阻塞的地下导弹设施入口

美国媒体报道 伊朗已疏通大量被阻塞的地下导弹设施入口

国际在线
2026-06-01 14:23:12
饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

卷史
2026-06-01 11:19:40
2026-06-01 19:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15359文章数 66894关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

清华女博士幼子被丈夫抢走 赴南昌未能给儿子过儿童节

头条要闻

清华女博士幼子被丈夫抢走 赴南昌未能给儿子过儿童节

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

小鹏集团5月共交付新车32,158台 小鹏GX Ultra旗舰版订单占比超八成

态度原创

健康
本地
家居
教育
军事航空

干细胞临床研究向患者收费?别踩坑

本地新闻

用剪纸的方式,打开江苏扬州

家居要闻

自信舒展 高背座椅

教育要闻

深圳少有的「鲁班奖」校园,石芽岭下的青春剧场

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版