网易首页 > 网易号 > 正文 申请入驻

学术分享丨卡帕西2025大模型总结火爆硅谷

0
分享至

转自 量子位

2025都有哪些AI趋势,大神卡帕西的年终总结,正在火爆硅谷。

6大论断,硬核又颇有启发:

  • RLVR(可验证奖励强化学习)成为训练新阶段

  • 大模型不应被类比为动物智能

  • Cursor展现了大模型应用的Next Level

  • Claude Code加速端侧智能体普及

  • Vibe Coding将重塑软件行业

  • Nano Banana重塑人机交互


新范式、新应用、新模型……回首望去,过去一年大模型带来的变革让人兴奋。

然而卡帕西大胆预言:

大模型的潜力,才刚刚挖掘10%。

一切不过是刚刚开始……

2025LLM年度回顾

为什么卡帕西认为大模型潜力只挖掘了10%?

一方面展现出强大的推理能力,另一方面也暴露出潜在的理解缺陷,既让人兴奋又让人谨慎,具体包括:

RLVR成为训练新阶段

在年初之前,全世界的大模型都基本遵循以下训练范式:

  • 预训练:代表模型是GPT2和GPT3;
  • SFT(监督微调):标志是2022年发布的InstructGPT;
  • RLHF(人类反馈强化学习):2022年开始广泛流行。

而到了2025年,RLVR开始加入其中。

模型通过在可自动验证的奖励环境中进行强化学习训练,会自发地形成推理策略,比如将问题分解为中间计算、循环计算等,具体可参考DeepSeek R1


而这些策略如果用旧范式其实极难实现,因为大模型的最佳推理轨迹和恢复过程并不清晰。

另外,与SFT和RLHF不同,RLVR由于涉及客观奖励函数的训练,优化时间较长。但事实也证明,RLVR能够带来较高的“能力/成本”比,它消耗了原先用于预训练的计算资源。

因此,RLVR成为这一年大模型能力增长的重要驱动因素,且在大模型规模相当的前提下,强化学习的运行时间大幅度延长。

随之而来的,还有一个全新的调控手段和相关的Scaling Law,可以通过生成更长的推理轨迹和增加思考时间,来控制能力作为测试时间计算量的函数。

2024年末的o1模型是首个RLVR模型的展示,但2025年初o3的发布才是明显的拐点

大模型不应被类比为动物智能

2025年,整个行业第一次开始直观地理解大模型智能的形态——不是在动物进化,而是在召唤幽灵。


由于大模型技术栈的方方面面(神经架构、训练数据、训练算法,尤其是优化压力)都有所不同,所以会导致智能实体之间差异很大,如果单纯用看待动物的视角来理解它们其实是不对的。

从监督层面来讲,人类的神经网络是为了生存而优化,而大模型的神经网络则是为了模仿人类、获得奖励而优化的

随着可验证领域采用RLVR,大模型的性能会快速爆发,并且整体呈现出锯齿状性能特征,也就是常说的锯齿智能。

简单来说,这样的大模型既是通才,也是认知能力有限的小学生,随时可能被越狱攻击,从而导致数据泄漏。


而这也能说明为什么卡帕西自己对基准测试普遍信任不足,核心问题就在于,基准测试几乎在构建之初就是可验证的环境,因此它们极易受到RLVR以及合成数据的影响。

研发大模型的团队也会不可避免地围绕基准测试构建环境,并形成锯齿状的模型表现,换言之,就是在测试集上进行训练。

这也就能解释,为什么现在的大模型可以在所有基准测试中取得压倒性胜利,但仍然未能实现AGI。

Cursor展现了大模型应用的Next Level

值得关注的是,Cursor的出现揭示了大模型应用的一个新层面,也就是今年人们常说的“Cursor for X”


它不仅仅是一个模型接口,而是围绕模型调用构建的应用层,能够:

  • 进行上下文工程 (context engineering) ;

  • 协调多个模型调用,并组成复杂的DAG (有向无环图) ,但需要精心衡量性能和成本;

  • 提供特定应用的GUI;

  • 带有自主性滑块 (autonomy slider) 。

2025年,人们已经花了大量时间集中讨论一个问题:新的AI应用层到底会有多“厚”?

这一层的价值是会被创建底层模型的大模型实验室完全榨干,还是会给垂直领域的大模型应用开发者留下生存空间?

在这一点上,卡帕西预测,大模型实验室未来会趋向于培养出一个“能力全面的大学毕业生”

而大模型应用开发者则会负责组织、微调,并让一整支这样的“学生团队”真正动起来,成为特定行业里可以被部署、可以交付成果的专业人才,这将通过引入私有数据、传感器、执行器以及反馈闭环来实现。

Claude Code加速端侧智能体普及

Claude Code(CC)是首个令人信服的大模型智能体范例。

它利用一种循环的方式将工具使用和推理结合,以解决复杂问题。能够在个人电脑上运行,并将用户的私有环境、数据和上下文加以利用。

与之相反的是OpenAI,它们过多地将精力集中在由ChatGPT编排的云部署容器上,而不是端侧部署。

虽然云端运行的智能体集群通常被视作AGI的终极形态,但当前大模型能力参差不齐,且整体发展处于较为缓慢的过渡阶段。


在这种现实情况下,CC直接让智能体在本地电脑上运行,直接适配开发者工作流程,会更贴合实际需求。可以说,CC才是正确地把握了这一优先级,并将其包装成一种美观简约的命令行界面形式,彻底改变了人们对AI的传统认知。

它让AI不再是类似谷歌的访问网站,而是像栖息在个人电脑里的小精灵,创造了一种与AI互动的全新且独特的模式。

Vibe Coding将重塑软件行业

2025年也是AI跨越能力门槛的一年,只需要通过自然语言就能构建出各种程序

有意思的是,氛围编程和前面提及的锯齿智能都是由卡帕西命名的,但彼时的他还并未料到,这两个词会成为2025年AI发展的最佳注解。


言归正传,在氛围编程的帮助下,编程不再局限于专业人士,任何人现在都能参与其中,而受过训练的专业人士也能通过它编写出更多的有意思的软件。

例如在卡帕西自己的nanochat项目中,他就用氛围编程的方式,在Rust语言中,编写了定制的高效BPE分词器,而不是采用现有的库或学习更多的Rust知识。

总的来说,他认为,氛围编程将重塑软件行业,并改变现有的工作内容。

Nano Banana重塑人机交互

要说今年最令人惊讶、最具范式转移意义的模型之一,就绕不开谷歌的Gemini Nano Banana。


在卡帕西看来,大模型是继计算机时代后的下一个主要的计算范式,在很多层面上彼此之间存在相似性,尤其是用户界面和用户体验(UIUX)方面。

因为人们喜欢以视觉和空间的方式获取信息,所以大模型也应该提供类似格式,对文本进行美化和视觉排版。

而Nano Banana就展现了这一趋势,它并非只关注图像生成这一单一功能,它还将文本生成、图像生成和世界知识全部融合在一起,为未来大模型GUI发展提供了参考。

参考链接:
[1]https://karpathy.bearblog.dev/year-in-review-2025/

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
委内瑞拉代总统:委未受外部势力统治

委内瑞拉代总统:委未受外部势力统治

界面新闻
2026-01-07 07:18:38
她16岁带病夺冠,退役后定居美国,嫁美国帅哥,如今已当上大老板

她16岁带病夺冠,退役后定居美国,嫁美国帅哥,如今已当上大老板

知鉴明史
2025-12-14 10:10:02
比马杜罗遭遇更离奇:美国抓捕“中美亲善大使”,结局出乎意料!

比马杜罗遭遇更离奇:美国抓捕“中美亲善大使”,结局出乎意料!

华人星光
2026-01-06 12:18:23
徐根宝选择参加朱辰杰的婚礼,放弃另一个弟子的婚礼

徐根宝选择参加朱辰杰的婚礼,放弃另一个弟子的婚礼

周扬
2026-01-05 22:53:42
马杜罗被“绑架”到美国,彻底打脸国内的某些军事专家

马杜罗被“绑架”到美国,彻底打脸国内的某些军事专家

微评社
2026-01-05 11:17:53
6-0!6-1!萨巴伦卡太强了,直通冠军,郑钦文真打不过

6-0!6-1!萨巴伦卡太强了,直通冠军,郑钦文真打不过

体育就你秀
2026-01-06 12:20:57
Claude Code最强开源对手!GitHub 50.2k Star了,作者为它烧掉2.4w美元。

Claude Code最强开源对手!GitHub 50.2k Star了,作者为它烧掉2.4w美元。

袋鼠帝
2026-01-06 18:00:31
郑丽文迎来两大好消息:老对头失势、新强援到位,但要警惕柯文哲

郑丽文迎来两大好消息:老对头失势、新强援到位,但要警惕柯文哲

博览历史
2026-01-06 18:16:24
朝鲜谁都不服,却主动将三位中国人写进教科书,还为其树立了铜像

朝鲜谁都不服,却主动将三位中国人写进教科书,还为其树立了铜像

云霄纪史观
2025-12-27 15:49:05
正视差距!中国想复刻美国特种兵“斩首”某岛还缺什么?

正视差距!中国想复刻美国特种兵“斩首”某岛还缺什么?

花花娱界
2026-01-05 20:42:58
马筱梅晒孕肚,一根妊娠纹都没长,一顿4菜2个汤,孕晚期才102斤

马筱梅晒孕肚,一根妊娠纹都没长,一顿4菜2个汤,孕晚期才102斤

心静物娱
2026-01-07 09:38:37
小米正式回应团队与争议KOL接触事件:辞退涉事员工

小米正式回应团队与争议KOL接触事件:辞退涉事员工

手机中国
2026-01-06 23:26:10
迪丽热巴的盛世美颜!

迪丽热巴的盛世美颜!

微微热评
2026-01-06 12:24:48
拜仁5-0完胜,26岁日本球星凌空斩,17岁新星2球1助,18岁新星1球1助

拜仁5-0完胜,26岁日本球星凌空斩,17岁新星2球1助,18岁新星1球1助

凌空倒钩
2026-01-06 23:53:46
杜兰特:离开太阳是我生涯首次被赶走 因此投进绝杀感觉格外好

杜兰特:离开太阳是我生涯首次被赶走 因此投进绝杀感觉格外好

北青网-北京青年报
2026-01-06 15:18:03
台媒:台军一架F-16战机夜间训练时失事,飞行员疑跳伞逃生,目前正在搜救中

台媒:台军一架F-16战机夜间训练时失事,飞行员疑跳伞逃生,目前正在搜救中

环球网资讯
2026-01-06 21:17:27
2026新加坡被预言为全球最惨国?!开年就遭这10大暴击...

2026新加坡被预言为全球最惨国?!开年就遭这10大暴击...

新加坡万事通
2026-01-06 19:06:34
日本预测,未来20年亚洲最发达的“四座城市”,我国几座榜上有名

日本预测,未来20年亚洲最发达的“四座城市”,我国几座榜上有名

牛牛叨史
2024-07-19 23:32:16
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
湖人半场落后鹈鹕51-54,东契奇詹姆斯均得分上双

湖人半场落后鹈鹕51-54,东契奇詹姆斯均得分上双

格斗社
2026-01-07 10:16:39
2026-01-07 10:59:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3808文章数 1489关注度
往期回顾 全部

科技要闻

马斯克杀疯了!xAI官宣200亿美元融资

头条要闻

李文荣被公诉:泄露尚未公开企业重组信息 搞权色交易

头条要闻

李文荣被公诉:泄露尚未公开企业重组信息 搞权色交易

体育要闻

全明星次轮票数:东契奇票王 詹皇超KD升西部第8

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

茅台为何要和分销商彻底说拜拜?

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

教育
本地
房产
数码
公开课

教育要闻

定了!多所高校发布2026保送新政

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

房产要闻

海珠双冠王!中交天翠以强兑现力+生活温度,筑就长期主义产品

数码要闻

联想官宣6月推SteamOS版Legion Go 2掌机

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版