网易首页 > 网易号 > 正文 申请入驻

当模型开始“思考”:CoT 到底在训练什么?

0
分享至

RAG 项目上线后,开发者们往往会陷入一个误区:只要答案正确,模型就算成功。但当模型开始展露思考过程(CoT),你会发现真相远非如此——推理中的逻辑漏洞、无效信息与错误前提瞬间暴露无遗。

———— / BEGIN / ————

如果你已经做过一段时间 RAG 项目,心里大概率会产生一种错觉:只要资料找得准、答案写得好,模型就算“可用了”。

但当模型真正进入推理阶段(Reasoning / DeepThink),你会很快意识到:事情远没有这么简单。

因为这时,模型不再只给你一个“看起来对的结果”,它开始把自己的思考过程也摊在你面前。

而你第一次看到那些 think 内容时,往往会愣一下——“原来它是这么想的?”

模型会“想”,并不一定是好事

直觉上,我们总会觉得:

能展示思考过程,一定比直接给答案更高级、更可信。

但在真实项目中,情况恰恰相反。一旦模型开始显式推理,它的问题反而更容易暴露。

你会看到很多熟悉又危险的场景:

  • 推理过程写得很长,看起来很努力,但中间偷偷跳过关键步骤

  • 前提一开始就错了,后面却一路“自洽”地推到一个错误结论

  • 思考内容和最终回答高度重复,信息效率极低


如果没有 think,这些问题可能会被一个“还凑合的答案”掩盖;但一旦把思考过程亮出来,模型到底靠不靠谱,一眼就能看出来。

CoT 不是让模型“想更多”,而是“想对一点”

很多人第一次接触 CoT(Chain of Thought),都会产生一个误解:

是不是让模型把脑内过程全写出来就行?

但在训练和标注层面,CoT 从来不是“放飞思路”。相反,它追求的是一种被约束、被整理过的思考方式。

一个真正合格的 CoT,不是看起来“聪明”,而是:

  • 每一步推理都有必要性

  • 前后逻辑能对得上

  • 没有为了展示能力而炫技

  • 最终服务的是回答,而不是思考本身


换句话说,CoT 训练的不是“会不会想”,而是“怎么想才不出事”。

为什么模型也需要“快思考 / 慢思考”?

在 CoT 项目里,经常会用一个非常人类的类比来解释它的意义。

人其实一直在两种模式之间切换:

  • 快思考:靠经验、直觉、惯性,反应快,但容易犯错

  • 慢思考:一步步分析,消耗注意力,但结果更稳


而大模型在默认状态下,几乎就是一个极端放大的快思考系统。它的优势是反应快、表达流畅,但代价是——它很少停下来检查自己是不是走偏了。

CoT 的作用,本质上就是给模型强行踩一脚刹车。哪怕只是一个简单的提示词:

“让我们一步步思考。”

你都会明显感觉到,模型的输出结构开始发生变化。

Prompting CoT、SFT、RM,其实各司其职

在项目里,CoT 往往不会单独出现,而是和 SFT、RM 一起被讨论。如果从“模型在学什么”这个角度来看,它们的分工其实非常清楚。

  • Prompting CoT不改模型,只改提示。像是在跟模型说:“这次你别急,按我给的节奏想。”

  • SFT(监督微调)把“好的思考路径 + 好的回答”变成训练数据,让模型逐渐内化这种结构。

  • RM(奖励模型)不直接参与回答,而是在背后判断:哪种推理更合理,哪种更符合人类偏好。


在成熟项目里,这三者更像是一个组合拳,而不是谁“更高级”、谁“可以被替代”。

CoT 标注,标的不是“聪明”,而是“靠谱”

很多第一次参与 CoT 项目的人,都会把注意力放在:

答案对不对?

但很快就会被纠正一个认知:在 CoT 项目里,答案对了,思考错了,一样不行。

标注时,真正被反复检查的往往是:

  • 模型是否准确理解了用户需求

  • 推理中是否存在明显逻辑错误

  • 是否有大量无意义、重复的思考内容

  • think 和 response 是否真正对齐


你会遇到大量这样的数据:答案勉强能用,但思考过程完全不合格。

而在 CoT 项目里,这类数据通常必须被改写。

一个很容易被忽略的关键点:信息效率

CoT 项目真正难的地方,往往不在“推理能力”,而在信息控制能力。

一个好的 CoT:

  • 不会为了显得聪明而写太多

  • 不会把 response 又在 think 里复述一遍

  • 不会暴露与任务无关的思路

  • 每一步都能说清“为什么要走到这里”


从这个角度看,CoT 训练的,其实是模型的表达纪律,而不只是逻辑能力。

如果说 RAG 解决的是:模型该不该说、该说什么的问题。

那 CoT 解决的,其实是:模型是怎么想的,这个想法值不值得信。

到这里,这一整天的内容已经形成了一条非常清晰的主线:从查资料 → 用资料 → 做判断 → 结构化思考。

而这条主线,正是大模型从“能用”,走向“可信”的必经之路。

本文来自作者:青蓝色的海

想要第一时间了解行业动态、面试技巧、商业知识等等等?加入产品经理进化营,跟优秀的产品人一起交流成长!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
涨疯了!一盒100根,价值400万元,堪比上海一套房,龙头股狂飙

涨疯了!一盒100根,价值400万元,堪比上海一套房,龙头股狂飙

每日经济新闻
2026-01-07 13:59:07
太棒了!苹果推出 iPhone 换电池半价活动

太棒了!苹果推出 iPhone 换电池半价活动

XCiOS俱乐部
2026-01-07 15:03:15
男子听信“偏方”将5厘米的水蛭塞进尿道,水蛭顺着尿道向内爬行“安家”膀胱,开始疯狂吸血释放抗凝血物质

男子听信“偏方”将5厘米的水蛭塞进尿道,水蛭顺着尿道向内爬行“安家”膀胱,开始疯狂吸血释放抗凝血物质

观威海
2026-01-07 09:22:09
塌房的一级演员闫学晶,做错了两件事

塌房的一级演员闫学晶,做错了两件事

李月亮
2026-01-07 19:31:56
针对我国对日本断供稀土等,日本舆论炸锅,日本当局回应让人气愤

针对我国对日本断供稀土等,日本舆论炸锅,日本当局回应让人气愤

时时有聊
2026-01-07 09:58:43
科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

徐德文科学频道
2026-01-06 19:51:55
日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

之乎者也小鱼儿
2026-01-07 13:51:26
江苏调查组在徐湖平别墅搜出啥?太离谱!

江苏调查组在徐湖平别墅搜出啥?太离谱!

鹤羽说个事
2026-01-07 11:06:57
亚洲杯首轮就乱了:东南亚球队领跑,东道主多打一人险胜无缘榜首

亚洲杯首轮就乱了:东南亚球队领跑,东道主多打一人险胜无缘榜首

侧身凌空斩
2026-01-07 04:22:06
南京“一混凝土搅拌车撞电动两轮车致3死1伤”事故,调查报告公布

南京“一混凝土搅拌车撞电动两轮车致3死1伤”事故,调查报告公布

澎湃新闻
2026-01-07 16:30:26
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
中方是否计划采取行动帮助马杜罗夫妇获释?外交部回应

中方是否计划采取行动帮助马杜罗夫妇获释?外交部回应

新京报政事儿
2026-01-07 15:41:25
绑架马杜罗的“原班人马”,全部飞抵欧洲,美军第二战已确定目标

绑架马杜罗的“原班人马”,全部飞抵欧洲,美军第二战已确定目标

依偎在角落
2026-01-07 10:30:44
凌晨1点,老黄又扔“核弹”!英伟达 Vera Rubin 芯片问世,算力暴涨5倍,我看傻了...

凌晨1点,老黄又扔“核弹”!英伟达 Vera Rubin 芯片问世,算力暴涨5倍,我看傻了...

AI范儿
2026-01-06 07:59:53
伊朗安全部队放下武器加入抗议,哈梅内伊倒计时开始

伊朗安全部队放下武器加入抗议,哈梅内伊倒计时开始

移光幻影
2026-01-07 15:18:07
哈梅内伊的末路正徐徐展开

哈梅内伊的末路正徐徐展开

难得君
2026-01-07 00:04:43
世界真是草台班子,小米官方表示新款 SU7 标错了价格!

世界真是草台班子,小米官方表示新款 SU7 标错了价格!

XCiOS俱乐部
2026-01-07 19:38:42
美国衰落,就是一个巨大的谎言

美国衰落,就是一个巨大的谎言

枫冷慕诗
2026-01-06 12:28:30
开局即冲刺!关注这座“双万城市”的升级战

开局即冲刺!关注这座“双万城市”的升级战

智谷趋势
2026-01-06 21:19:45
阿森纳女足新援因外表出众引来低俗评论,俱乐部关闭评论区

阿森纳女足新援因外表出众引来低俗评论,俱乐部关闭评论区

懂球帝
2026-01-07 12:56:05
2026-01-08 00:39:00
人人都是产品经理社区 incentive-icons
人人都是产品经理社区
想要成为大牛先从学做产品开始
64294文章数 311517关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

时尚
手机
艺术
游戏
家居

李梦系穿搭,就这么养成了

手机要闻

曝Galaxy S26系列2月25日发布,不会涨价!

艺术要闻

24位国画大师联手,震撼美学体验等你来!

网友惊呆了!《美末2》艾莉孩子竟是美女动捕制作的

家居要闻

宁静不单调 恰到好处的美

无障碍浏览 进入关怀版