![]()
做产品的都懂一个道理:上线只是开始,能不能活过冷启动才是生死线。大模型也一样。
港科大和阿里最近放出一项研究,把业内一个默认假设给打破了——你以为SFT(监督微调)阶段表现好的模型,强化学习阶段一定潜力更大?数据说:未必。
这有点像选秀节目。初赛唱得稳的选手,决赛未必能炸场;反而有些初赛磕磕绊绊的,进了实战环节突然开窍。问题出在"舞台"不一样:SFT考的是模仿能力,RL(强化学习)考的是探索能力,两套评分标准。
研究团队的核心发现是:模型在SFT阶段对"不确定样本"的处理方式,才是预测RL潜力的关键指标。他们据此提出自适应冷启动策略——不再一刀切地喂数据,而是让模型自己判断哪些该学、哪些该放,动态调整学习节奏。
实验结果很直接:同样基座模型,用新策略冷启动后,RL阶段的最终性能平均提升15%以上。换句话说,不是模型不行,是开门的方式不对。
一个值得玩味的细节:团队开源的代码里,默认把"不确定样本阈值"设成了0.3。有开发者反馈,调到0.5后在自己业务场景下效果反而更好——看来这个开关,还得结合具体产品手感来拧。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.