2025年眼看就要收尾,AI圈的年终总结直接炸场了!
OpenAI元老、前特斯拉AI负责人安德烈·卡帕西(Andrej Karpathy)晒出的年终大模型清单,一发布就引爆全网,近两百万网友蹲点围观。
这位曾入选MIT 35岁以下科技创新榜单的大佬,总结里没有半句废话,全是重塑行业格局的“范式级突破”。咱们今天就用大白话拆透,看看今年的AI到底藏着哪些真本事,又有哪些坑要避。
![]()
讲真,2025年大模型的核心提升,压根不是模型体量变大,而是训练路子换了——可验证奖励强化学习(RLVR)直接顶替了之前的RLHF,成了行业通用玩法。
以前训练大模型,全靠人类标注员打分,不仅费钱又慢,遇到数学推理这种复杂活,压根教不会。
但RLVR就聪明多了,它让模型在数学题、代码题这些有标准答案的“题库”里自己刷题,拆解步骤、试错修正,慢慢摸出最优解题思路,这种思考过程,人类想手动设计都难。
![]()
更关键的是,RLVR的评分标准客观又难作弊,能让模型长时间“刷题”修炼。
哪怕是和以前规模差不多的模型,练久了能力也能翻倍,性价比直接拉满,甚至把原本用来做预训练的算力都抢着用。
OpenAI去年底的o1模型先露了手,今年初的o3版本直接迎来质变,成了RLVR落地的标杆,能力提升肉眼可见。
![]()
不是真懂推理,甚至用随机奖励、错误标签训练,某些模型也能涨分,换个新场景就歇菜,泛化能力还得再观察。
这也印证了Karpathy说的“锯齿智能”——现在的AI就是个偏科生,可验证领域是天才,换个场景可能就变笨蛋,就像有工程师说的,AI能解复杂难题,却可能在简单常识题上翻车。
不知道你有没有发现,2025年AI Agent算是彻底火出圈了,但真正能打的,反而不是云端巨头,而是扎进你电脑里的“小幽灵”。
Karpathy在清单里重点夸了Claude Code,说它是第一个让他觉得“像真Agent”的工具。
和OpenAI把Agent放在云端调度不同,Claude Code直接装在你电脑里,能用你的本地环境、数据,循环串联推理与工具调用。
![]()
再难的长周期任务都能啃下来,极简的操作界面更是戳中开发者痛点。
这种贴身干活的定位,比云端Agent更懂实际需求,用着也更顺手。
但Karpathy也没盲目吹,他10月在播客里直言,现在的Agent还有三大短板:不会持续学习、不能真正多模态、操作电脑的能力还差得远,要想达到能“雇佣”的水平,至少还得等十年。
这就像自动驾驶,从90%可靠度冲到99.9999%,每多一个9,都要付出天大的努力。
![]()
Agent爆火的同时,也带火了Karpathy随口创造的“Vibe Coding(氛围编程)”。
现在不用死磕代码,用英语就能搭复杂程序,连Meta、谷歌这些大厂的工程师,都开始用这种方式干活——先写好测试,再让AI生成代码,效率直接翻倍。
普通人能上手编程,工程师能快速赶demo、临时排bug,代码彻底变“廉价”了,用完就能丢,软件形态和职场角色都在跟着变天。
![]()
![]()
12月4日的技术报告显示,Nano Banana Pro已经在生命科学领域落地用起来了,能生成精准的解剖图、代谢路径图,还能合成医学影像帮科研人员训练模型,省了不少时间。
从另一个角度看,Nano Banana也是Gemini家族多模态路线的极致体现。
![]()
2025年的大模型,就是个“偏科天才”——靠RLVR实现能力跃迁,在可验证领域能封神,却在常识题上可能翻车;Agent和氛围编程改变了工作方式,却还没成熟到能“打工”。
Karpathy说行业潜力才发挥10%,这话一点不假。现在的AI就像刚学会走路的孩子,未来十年会慢慢融入每份工作、每种生活,咱们能做的,就是跟上节奏,别被时代甩在身后!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.