网易首页 > 网易号 > 正文 申请入驻

当模型开始“思考”:CoT 到底在训练什么?

0
分享至

RAG 项目上线后,开发者们往往会陷入一个误区:只要答案正确,模型就算成功。但当模型开始展露思考过程(CoT),你会发现真相远非如此——推理中的逻辑漏洞、无效信息与错误前提瞬间暴露无遗。

———— / BEGIN / ————

如果你已经做过一段时间 RAG 项目,心里大概率会产生一种错觉:只要资料找得准、答案写得好,模型就算“可用了”。

但当模型真正进入推理阶段(Reasoning / DeepThink),你会很快意识到:事情远没有这么简单。

因为这时,模型不再只给你一个“看起来对的结果”,它开始把自己的思考过程也摊在你面前。

而你第一次看到那些 think 内容时,往往会愣一下——“原来它是这么想的?”

模型会“想”,并不一定是好事

直觉上,我们总会觉得:

能展示思考过程,一定比直接给答案更高级、更可信。

但在真实项目中,情况恰恰相反。一旦模型开始显式推理,它的问题反而更容易暴露。

你会看到很多熟悉又危险的场景:

  • 推理过程写得很长,看起来很努力,但中间偷偷跳过关键步骤

  • 前提一开始就错了,后面却一路“自洽”地推到一个错误结论

  • 思考内容和最终回答高度重复,信息效率极低


如果没有 think,这些问题可能会被一个“还凑合的答案”掩盖;但一旦把思考过程亮出来,模型到底靠不靠谱,一眼就能看出来。

CoT 不是让模型“想更多”,而是“想对一点”

很多人第一次接触 CoT(Chain of Thought),都会产生一个误解:

是不是让模型把脑内过程全写出来就行?

但在训练和标注层面,CoT 从来不是“放飞思路”。相反,它追求的是一种被约束、被整理过的思考方式。

一个真正合格的 CoT,不是看起来“聪明”,而是:

  • 每一步推理都有必要性

  • 前后逻辑能对得上

  • 没有为了展示能力而炫技

  • 最终服务的是回答,而不是思考本身


换句话说,CoT 训练的不是“会不会想”,而是“怎么想才不出事”。

为什么模型也需要“快思考 / 慢思考”?

在 CoT 项目里,经常会用一个非常人类的类比来解释它的意义。

人其实一直在两种模式之间切换:

  • 快思考:靠经验、直觉、惯性,反应快,但容易犯错

  • 慢思考:一步步分析,消耗注意力,但结果更稳


而大模型在默认状态下,几乎就是一个极端放大的快思考系统。它的优势是反应快、表达流畅,但代价是——它很少停下来检查自己是不是走偏了。

CoT 的作用,本质上就是给模型强行踩一脚刹车。哪怕只是一个简单的提示词:

“让我们一步步思考。”

你都会明显感觉到,模型的输出结构开始发生变化。

Prompting CoT、SFT、RM,其实各司其职

在项目里,CoT 往往不会单独出现,而是和 SFT、RM 一起被讨论。如果从“模型在学什么”这个角度来看,它们的分工其实非常清楚。

  • Prompting CoT不改模型,只改提示。像是在跟模型说:“这次你别急,按我给的节奏想。”

  • SFT(监督微调)把“好的思考路径 + 好的回答”变成训练数据,让模型逐渐内化这种结构。

  • RM(奖励模型)不直接参与回答,而是在背后判断:哪种推理更合理,哪种更符合人类偏好。


在成熟项目里,这三者更像是一个组合拳,而不是谁“更高级”、谁“可以被替代”。

CoT 标注,标的不是“聪明”,而是“靠谱”

很多第一次参与 CoT 项目的人,都会把注意力放在:

答案对不对?

但很快就会被纠正一个认知:在 CoT 项目里,答案对了,思考错了,一样不行。

标注时,真正被反复检查的往往是:

  • 模型是否准确理解了用户需求

  • 推理中是否存在明显逻辑错误

  • 是否有大量无意义、重复的思考内容

  • think 和 response 是否真正对齐


你会遇到大量这样的数据:答案勉强能用,但思考过程完全不合格。

而在 CoT 项目里,这类数据通常必须被改写。

一个很容易被忽略的关键点:信息效率

CoT 项目真正难的地方,往往不在“推理能力”,而在信息控制能力。

一个好的 CoT:

  • 不会为了显得聪明而写太多

  • 不会把 response 又在 think 里复述一遍

  • 不会暴露与任务无关的思路

  • 每一步都能说清“为什么要走到这里”


从这个角度看,CoT 训练的,其实是模型的表达纪律,而不只是逻辑能力。

如果说 RAG 解决的是:模型该不该说、该说什么的问题。

那 CoT 解决的,其实是:模型是怎么想的,这个想法值不值得信。

到这里,这一整天的内容已经形成了一条非常清晰的主线:从查资料 → 用资料 → 做判断 → 结构化思考。

而这条主线,正是大模型从“能用”,走向“可信”的必经之路。

本文来自作者:青蓝色的海

想要第一时间了解行业动态、面试技巧、商业知识等等等?加入产品经理进化营,跟优秀的产品人一起交流成长!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
300亿大案!公安部出手,这帮吃人不吐骨头的“吸血鬼”终于凉了

300亿大案!公安部出手,这帮吃人不吐骨头的“吸血鬼”终于凉了

泠泠说史
2026-01-06 18:56:19
马杜罗救兵到了,美遭围殴,中俄罕见9打1,三角洲美军连夜转向?

马杜罗救兵到了,美遭围殴,中俄罕见9打1,三角洲美军连夜转向?

文雅笔墨
2026-01-07 13:30:05
B费昨天和定位球教练C费一起喝咖啡,后者已随阿莫林离队

B费昨天和定位球教练C费一起喝咖啡,后者已随阿莫林离队

懂球帝
2026-01-07 20:07:18
男歌手罗启聪涉制毒贩毒被抓

男歌手罗启聪涉制毒贩毒被抓

观威海
2026-01-07 13:55:07
去过养老院才发现:健康的老人并不受欢迎,有钱的也比没钱的痛苦

去过养老院才发现:健康的老人并不受欢迎,有钱的也比没钱的痛苦

人间百态大全
2026-01-07 06:40:02
张学良晚年吐真言:西安事变我只是名义上的,真正的主角是他!杨虎城后人上门,他为何闭口不谈?

张学良晚年吐真言:西安事变我只是名义上的,真正的主角是他!杨虎城后人上门,他为何闭口不谈?

历史回忆室
2025-12-16 14:26:14
美联储,降息大消息!100个基点?

美联储,降息大消息!100个基点?

魏家东
2026-01-07 14:25:47
到了年纪就会上演“嘴唇消失术”?嘴唇的厚薄对颜值的影响好直观

到了年纪就会上演“嘴唇消失术”?嘴唇的厚薄对颜值的影响好直观

上官晚安
2026-01-02 00:27:14
南京官宣43个景区免费开放日

南京官宣43个景区免费开放日

荔枝新闻
2026-01-07 11:18:06
马筱梅拍孕妇写真,露出大孕肚后惹来不少争议!网友:铁定是女孩

马筱梅拍孕妇写真,露出大孕肚后惹来不少争议!网友:铁定是女孩

娱乐团长
2026-01-07 20:13:46
始祖鸟成了海南特产,东北人在三亚疯狂扫货

始祖鸟成了海南特产,东北人在三亚疯狂扫货

源Sight
2026-01-06 18:51:56
钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

削桐作琴
2025-12-10 16:53:18
金日成,已任浙江大学特聘研究员、博士生导师

金日成,已任浙江大学特聘研究员、博士生导师

双一流高校
2026-01-07 07:58:46
终于知道为啥要抓马杜罗的夫人了!知道她厉害,没想到这么厉害!

终于知道为啥要抓马杜罗的夫人了!知道她厉害,没想到这么厉害!

今日养生之道
2026-01-06 20:07:20
新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社
2026-01-06 17:32:44
马杜罗被抓,郑丽文发出警告,台当局删除5字,准备随时逃命?

马杜罗被抓,郑丽文发出警告,台当局删除5字,准备随时逃命?

博览历史
2026-01-06 18:11:54
看完电影版《寻秦记》,为古天乐一声叹息!终于理解江华为何拒演

看完电影版《寻秦记》,为古天乐一声叹息!终于理解江华为何拒演

头号电影院
2026-01-05 13:56:04
田朴珺拿走人脉,王石只剩年龄

田朴珺拿走人脉,王石只剩年龄

深水财经社
2026-01-05 21:19:06
雷军大动作!小米新车,增加机械门把手

雷军大动作!小米新车,增加机械门把手

财通社
2026-01-07 18:35:01
天呐!终于知道为什么有的人完全不会内耗了 ​​​

天呐!终于知道为什么有的人完全不会内耗了 ​​​

夜深爱杂谈
2026-01-06 20:24:39
2026-01-07 20:56:49
运营派
运营派
互联网运营学习交流平台
1500文章数 28关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

结束访华行程当天 李在明最新涉华表态

头条要闻

结束访华行程当天 李在明最新涉华表态

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

时尚
游戏
艺术
亲子
教育

看起来很好亲的唇,能养出来?

2026搬砖收益最稳定的手游来了!大话手游交易服到底怎么搬砖

艺术要闻

David Grossmann:不一样的风景画

亲子要闻

这孩子玩不起了

教育要闻

当教育从“育分”转向“育人”,才能改变陪跑者的现状

无障碍浏览 进入关怀版