![]()
2025年AI圈最猛的变化压根不是谁家算力堆得更高,而是后训练技术的全面崛起。
卡帕西年初发的一个视频,到年底还被AI产品经理们翻来覆去地看,原因很简单,这个视频把AI从“半成品”到“赚钱货”的路子讲得明明白白。
以前大家都盯着基座模型的参数量较劲,现在才发现,真正拉开产品差距的,全在后训练这道工序里。
![]()
2025年最后一天复盘的时候,很多人都发现了一个共识。
基座模型的参数量还在涨,但用户根本不关心这个数字。
用户能感受到的体验差异,全来自SFT的数据质量、RLHF的调优策略还有推理模型的思考能力。
本来想觉得大厂靠着算力优势能一直躺赢,但后来发现不是这么回事。
![]()
对于那些没实力搞大规模预训练的中小企业来说,后训练才是他们能抢蛋糕的主战场。
它不知道什么时候该闭嘴,不知道怎么拒绝用户的无理要求,甚至连自己是谁都搞不清。
后训练的目标,就是把这个“书呆子”改造成能上桌的商业产品。
![]()
这个转变的逻辑其实很清晰,预训练是拼资源的军备竞赛,烧钱烧算力,一般玩家根本玩不起。
后训练是拼策略的产品战场,靠的是对用户需求的理解和技术组合的智慧。
如此看来,2025年的AI行业已经悄悄完成了一次赛道切换,从“谁的模型更大”变成了“谁的产品更懂人”。
![]()
如果把基座模型比作一块刚挖出来的钻石原石,那监督微调(SFT)就是给这块石头定形状的第一步。
预训练的时候,模型只知道傻愣愣地预测下一个词,喂给它的都是乱七八糟的网页数据。
到了SFT阶段,数据就不一样了。
卡帕西强调,这时候要喂给模型的是格式严整的对话数据。
![]()
站在产品经理的角度看,SFT哪里是什么技术微调,这分明是把产品的交互设计固化到模型的权重里。
你希望AI被用户骂的时候礼貌回击,你希望AI写代码的时候遵守行业规范,这些东西都得在SFT阶段用数据教会它。
预训练追求的是“大而全”,SFT追求的是“精而准”。
它的数据量其实不大,也就几万到几十万条,但每一条都得是人类专家精心编写的。
![]()
这里面有个很关键的点,卡帕西也提到了,SFT只能教模型模仿专家的语气和格式,如果预训练的时候模型没见过某个知识点,SFT再怎么教也没用。
很多产品经理都栽在这个坑里,觉得靠SFT就能解决所有问题,最后做出来的产品还是漏洞百出。
毕竟,SFT只能保证模型“会说话”,没法保证模型“说人话”“说好话”。
![]()
SFT解决了模型“怎么说”的问题,可“什么是好话”这个问题,得靠强化学习人类反馈(RLHF)来搞定。
卡帕西说,RLHF的核心是改变模型的生成分布,让它更倾向于产出人类喜欢的回答,比如乐于助人、无害、诚实这些特质。
![]()
毫无疑问,这一点戳中了AI产品商业化的要害。
用户用产品的时候,体验感才是留住他们的关键。
基座模型容易犯的一个大错,就是喜欢一本正经地胡说八道。
你问它一个不存在的人名,它能给你编出一整套生平。
![]()
这是因为模型本质上是个概率统计引擎,它只在乎对话流不流畅,不在乎内容真不真实。
RLHF就是在帮模型纠正这个毛病,通过人类的反馈不断调整模型的输出偏好。
当然,RLHF也不是万能的,它需要大量的人类标注数据,成本不低,但对于想做出差异化产品的团队来说,这笔投入完全值得。
![]()
2025年下半年最火的AI技术,肯定是推理模型,像DeepSeek-R1、OpenAIo1这些产品,一出来就惊艳了整个行业。
而它们的理论基石,就藏在卡帕西的那个视频里。
卡帕西把AlphaGo的原理搬到了大语言模型上,AlphaGo能赢,是因为它能自己跟自己下棋,系统会判定每一次对弈的输赢。
![]()
这个逻辑用到数学和编程领域简直完美,因为这两个领域有明确的对错标准,代码能不能运行,答案对不对,一眼就能看出来。
这就意味着,不需要大量的人类老师做标注,只需要让模型自己反复尝试,做对了给奖励,做错了给惩罚。
在这个过程中,模型慢慢学会了在输出最终答案前,先在内部生成一段思考过程。
它能自我纠错,能反思,能尝试不同的解题路径,这个变化完全重塑了AI产品的商业逻辑和交互逻辑。
![]()
以前的AI是“问一答一”,现在的推理模型能“问一思三”,帮用户解决更复杂的问题。
作为一个在AI圈摸爬滚打几年的产品经理,我特别能理解这种技术变革带来的震撼。
以前我们总想着怎么去抢算力资源,怎么去做大模型参数,现在才明白,真正的核心竞争力是把这些技术工具组合好。
需要准确性的时候调用搜索工具,需要人性化的时候依赖SFT调优,需要攻克难题的时候启动推理模式。
![]()
技术迭代的速度确实快得吓人,但有一点是不变的。
不管技术怎么变,理解用户需求,用最合适的技术组合去满足需求,永远是产品经理的立身之本。
卡帕西的那个视频虽然已经发布了快一年,但现在看依然不过时。
没看过的朋友真的可以去翻出来看看,搞懂了后训练的逻辑,才算真正看懂了AI产品“从1到100”的路径。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.