网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

训练3个月不如调个开关，大模型冷启动被重新定义

2026-04-04 16:46:34　来源: 全栈遛狗员

北京举报

0

分享至

做产品的都懂一个道理：上线只是开始，能不能活过冷启动才是生死线。大模型也一样。

港科大和阿里最近放出一项研究，把业内一个默认假设给打破了——你以为SFT（监督微调）阶段表现好的模型，强化学习阶段一定潜力更大？数据说：未必。

这有点像选秀节目。初赛唱得稳的选手，决赛未必能炸场；反而有些初赛磕磕绊绊的，进了实战环节突然开窍。问题出在"舞台"不一样：SFT考的是模仿能力，RL（强化学习）考的是探索能力，两套评分标准。

研究团队的核心发现是：模型在SFT阶段对"不确定样本"的处理方式，才是预测RL潜力的关键指标。他们据此提出自适应冷启动策略——不再一刀切地喂数据，而是让模型自己判断哪些该学、哪些该放，动态调整学习节奏。

实验结果很直接：同样基座模型，用新策略冷启动后，RL阶段的最终性能平均提升15%以上。换句话说，不是模型不行，是开门的方式不对。

一个值得玩味的细节：团队开源的代码里，默认把"不确定样本阈值"设成了0.3。有开发者反馈，调到0.5后在自己业务场景下效果反而更好——看来这个开关，还得结合具体产品手感来拧。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

豆包为什么选择了 “最low”的变现方式？

蓝鲸新闻 2026-05-06 11:20:09
495 跟贴 495
朝鲜黑客进入AI时代，三个月狂捞千万美金

英国那些事儿 2026-05-06 23:35:33
0 跟贴 0

海外投资人集体转向！AI最关注这个指标

财联社 2026-04-30 10:25:38
0 跟贴 0

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
中国100式坦克训练画面刷屏，五大黑科技让他们羡慕不已！

下复新鲜事 2026-05-07 00:16:11
0 跟贴 0

实战不是训练

小小熊看剧 2026-05-04 16:16:15
34 跟贴 34

阿里开源：用冻结多模态大模型为文生图训练提供高质量Reward

机器之心Pro 2026-05-06 16:50:57
0 跟贴 0
亲子鉴定师口述：这些我所经历过的奇葩事，件件让人觉得不可思议

千秋文化 2026-05-02 19:45:43
0 跟贴 0

士兵训练时的失误瞬间

拾壹科普 2026-05-05 16:15:53
4 跟贴 4
女兵英姿飒爽，风趣钢笔S训练揭秘！

科技前沿菌 2026-05-06 00:45:06
0 跟贴 0
高强度训练消耗巨大，后方有妈妈暖心加持

云初搞笑 2026-05-05 10:18:32
1 跟贴 1
看我训练日常，时刻准备好，才能打胜仗

悲伤逆流成河水 2026-05-03 08:29:47
0 跟贴 0
网易游戏把大模型冷启动从42分钟压到30秒

像素与芯片 2026-05-06 21:11:36
0 跟贴 0
看这训练强度不低，如此锻炼真够硬核，这毅力实在太惊人

搞笑小哈皮 2026-05-06 10:31:51
1 跟贴 1
媒体：中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

国是直通车 2026-05-05 23:12:13
18491 跟贴 18491
最该自动化的工作，恰恰是最无聊的那些

碳基打工人 2026-05-06 18:23:02
0 跟贴 0
全球首发｜以结构，拓疆界·森地客陆拓锁鞋

单车志 2026-05-06 22:32:12
0 跟贴 0
没见过这么懒的主人，怎么把它训练成这个样子的

重庆观天下 2026-05-04 12:26:26
0 跟贴 0
从“凭经验”到“靠数据”：讯飞和光推动养猪业迈入大模型智能时代——跨界翻译一线经验，让养殖智慧变成可复制算法

每日经济新闻 2026-05-06 11:02:09
0 跟贴 0
Elixir远程岗薪资报告：小众语言的定价困境

码上闲叙 2026-05-04 11:48:31
0 跟贴 0
军训营：团结力量，百态人生

蹲在史书里吃瓜 2026-05-06 01:26:39
3 跟贴 3
朝鲜援俄伤亡人数公开，惨烈程度超乎想象！远超现代战争崩溃阈值

猛虎堂 2026-05-04 09:35:37
0 跟贴 0
女子深夜下班回家，竟被自家房门反锁在外

南阳日报 2026-05-06 19:18:04
153 跟贴 153
围棋实战解析：柒柒黑先困境，实用策略揭秘

巫马仙仪 2026-05-03 10:03:57
1 跟贴 1
法国业内权威谈张雪和中国摩托：张雪让欧洲重新定义了中国摩托！

弱电大林 2026-05-06 02:35:55
1 跟贴 1
G1狂输18分，湖人却有3个亮点，一策略接着用，一人能给战术

体坛大辣椒 2026-05-06 11:59:36
1 跟贴 1
4.3亿公里背后：辅助驾驶正在吃掉近半里程

野生运营 2026-05-06 18:59:13
1 跟贴 1
局座教你：克制是制胜的关键策略！

折花几暮c 2026-05-06 11:15:32
0 跟贴 0
景区装电梯无痛爬山被质疑过度开发

极目新闻 2026-05-02 17:18:12
4157 跟贴 4157
20年等一回！这支不华丽的阿森纳，却最接近欧冠大耳杯

澎湃新闻 2026-05-06 10:56:28
387 跟贴 387
世界杯FIFA开出天价版权，电视转播谈判陷僵局

齐鲁壹点 2026-05-06 12:45:16
3643 跟贴 3643
解放台湾很可能会采用解放天津时的策略

夜叔 2026-05-07 03:39:28
0 跟贴 0
享界S9座椅险夹幼童，语音无法停止，鸿蒙智行说：就这样设计的

歪歌社团 2026-05-07 06:19:24
0 跟贴 0
影子调查｜不“标准”的高标准农田，正在整治

澎湃新闻 2026-05-06 12:34:33
317 跟贴 317
凌晨2点半开门，广东一排骨饭大排长龙！局长带人现场刮姜洗碗

南方都市报 2026-05-06 08:58:57
783 跟贴 783
男子购百万保险被邀免费游老挝花数十万买"熊胆"心虚

上观新闻 2026-05-06 13:24:13
303 跟贴 303
一个胖商人的冒险，测出了大模型的新天花板

灰度测试中 2026-05-06 16:35:23
0 跟贴 0
3.2亿焦虑用户找不到入口：疗愈产品的新机会

心事寄山海 2026-05-06 00:11:21
0 跟贴 0
性能与豪华双突破！极氪001重新定义纯电猎装标杆

车界面PRO 2026-05-06 17:36:32
4 跟贴 4
第一场输10分，骑士4件事没有做对，一策略要换了

体坛大辣椒 2026-05-06 10:17:45
21 跟贴 21

雷霆这么猛也有烦恼，今夏薪资爆炸，这些人恐怕留不住了

雷霆这么猛也有烦恼，今夏薪资爆炸，这些人恐怕留不住了

兵哥篮球故事

2026-05-06 19:15:30

辽宁主帅：上海会夺得新赛季总冠军 7局4胜制很难有球队赢他们4场

辽宁主帅：上海会夺得新赛季总冠军 7局4胜制很难有球队赢他们4场

狼叔评论

2026-05-06 18:18:13

和售后斗智斗勇后，我发现80%燃气灶故障，都可以通过两根针解决

和售后斗智斗勇后，我发现80%燃气灶故障，都可以通过两根针解决

装修秀

2026-05-05 12:00:08

尴尬！央视拍人物短剧被张雪本人吐槽，“我没有这么老吧”引争议

尴尬！央视拍人物短剧被张雪本人吐槽，“我没有这么老吧”引争议

火山詩话

2026-05-05 05:39:56

感谢王竞！国安终获主场首胜，双标判罚助球队工体3球大胜

感谢王竞！国安终获主场首胜，双标判罚助球队工体3球大胜

体坛鉴春秋

2026-05-06 22:22:18

邓文迪三母女闪耀纽约红毯，高定礼服很东方美，俩女儿又瘦又优秀

邓文迪三母女闪耀纽约红毯，高定礼服很东方美，俩女儿又瘦又优秀

揽星河的笔记

2026-05-05 16:55:54

前体操冠军吴柳芳再回应擦边风波：“把债还完了，我才能把体面重新捡起来”；谈及与管晨辰的争执，吴柳芳表示：“我不会去恨一个人”

前体操冠军吴柳芳再回应擦边风波：“把债还完了，我才能把体面重新捡起来”；谈及与管晨辰的争执，吴柳芳表示：“我不会去恨一个人”

扬子晚报

2026-05-07 07:43:31

“洗车的钱比油钱都多！”沪上小区地库“灰天灰地”，“沙尘暴之痛”七年难治→

“洗车的钱比油钱都多！”沪上小区地库“灰天灰地”，“沙尘暴之痛”七年难治→

新民晚报

2026-05-06 18:26:49

上海G1胜山东发布会！卢伟点赞关键球发挥，古德温仍在自我反思！

上海G1胜山东发布会！卢伟点赞关键球发挥，古德温仍在自我反思！

篮球资讯达人

2026-05-06 23:32:02

伤得很深！男子打赏女主播近300万，想结婚时才知对方女儿都20岁了：我只顾为爱冲锋，结果她全是假话

伤得很深！男子打赏女主播近300万，想结婚时才知对方女儿都20岁了：我只顾为爱冲锋，结果她全是假话

台州交通广播

2026-04-10 16:23:25

印尼U17小将：若发挥最佳水平，我认为我们有机会能打进U17世界杯

印尼U17小将：若发挥最佳水平，我认为我们有机会能打进U17世界杯

懂球帝

2026-05-07 00:21:24

福建女校长当众羞辱学生后续：停职后猛料频出，口无遮拦早有前科

福建女校长当众羞辱学生后续：停职后猛料频出，口无遮拦早有前科

今朝牛马

2026-05-06 22:06:50

绝不妥协！穆里尼奥向皇马提三大硬性要求，不答应就不来

绝不妥协！穆里尼奥向皇马提三大硬性要求，不答应就不来

奶盖熊本熊

2026-05-07 05:50:27

全固态硬盘时代结束了？2026年装机新逻辑

全固态硬盘时代结束了？2026年装机新逻辑

野生运营

2026-05-05 21:05:19

安徽一风电项目事故造成5死1伤，施工负责人被吊销证书

安徽一风电项目事故造成5死1伤，施工负责人被吊销证书

风电头条

2026-05-07 00:09:27

十年后，中美南海再对决

杨风

2026-05-05 22:04:32

伊朗消息人士：美方提议包含不可接受条款

伊朗消息人士：美方提议包含不可接受条款

界面新闻

2026-05-06 21:50:18

全球选美冠军白欣禾，性感女神，凹凸饱满美胸大长腿，极致诱惑！

全球选美冠军白欣禾，性感女神，凹凸饱满美胸大长腿，极致诱惑！

喜欢历史的阿繁

2026-05-06 19:20:45

才两年！从巅峰到落寞，AJ真的输了？？

才两年！从巅峰到落寞，AJ真的输了？？

UTAM

2026-05-06 22:16:30

山东vs申花一役谢文能佩戴黑色臂章出战；韩鹏：节哀

山东vs申花一役谢文能佩戴黑色臂章出战；韩鹏：节哀

懂球帝

2026-05-06 16:54:07

全栈遛狗员

白天跟需求对线，晚上在小区遛狗。

2287文章数 61关注度

往期回顾全部

科技要闻

“马斯克不懂AI”：OpenAI当庭戳老底

头条要闻

特朗普：美伊"很可能"达成协议

头条要闻

特朗普：美伊"很可能"达成协议

体育要闻

活塞1比0骑士：坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜何炅瞒天过海现身

财经要闻

估值450亿美元大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式领克都要快乐

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

艺术

健康

公开课

家居要闻

大胆前卫时尚大宅

教育要闻

中产标配崩盘！钢琴为什么没人学了？

艺术要闻

这位老教授笔下的青年，活力满满

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版