放弃 CoT？Agentic 时代为什么更需要隐式推理？|显式|智能体|cot

放弃 CoT？Agentic 时代为什么更需要隐式推理？

2025-09-28 15:25:40　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：机器之心）

机器之心PRO · 会员通讯 Week 39

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1.放弃 CoT？Agentic 时代为什么更需要隐式推理？

为何显示推理无法打破「1Hz」壁垒？Agentic AI 与 CoT 存在哪些冲突？隐式推理为何重新开始流行？TiS 对比 TbS 有哪些优势？隐式推理成为「实时推理」主流路径还有哪些挑战？为什么隐式推理能绕过「黑箱」困境？...

2. 先验+后验加持，大模型能否 hold 住推理预测的现实「溢出」？

静态考卷太简单，FutureX 能把「记忆型」模型拉到真正的未来考场吗？执行错误「积少成多」，大模型长程任务失效不能只让推理「背锅」？当推理「用兵」碰上财务预测等现实场景，模型能否稳定「指挥」从而落地？过往的模型预测技术在往哪些方向发力？先验记忆与后验反思机制，未来能为模型预测带来新的突破吗？...

3. 站在巨人的肩膀上：Sergey Levine 预测机器人在五年内实现「完全自主」

为什么机器人的「全能时刻」是伪命题？Sergey Levine 为何更关注机器人「飞轮」？是什么让 Levine 预测机器人将「一年启动飞轮，五年完全自主」？为什么机器人发展速度会远超自动驾驶？莫拉维克悖论如何指导机器人技术改进？为什么 Levine 相比「仿真」更重视真实数据？...

本期完整版通讯含 3 项专题解读 + 31 项本周 AI & Robotics 赛道要事速递，其中技术方面 12 项，国内方面 9 项，国外方面 10 项。

本期通讯总计 29386 字，可免费试读至 8%

消耗 288 微信豆可兑换完整本期解读（约合人民币 28.8 元）

要事解读① 放弃 CoT？Agentic 时代为什么更需要隐式推理？

引言：随着 CoT 在可靠性、效率和计算成本等层面暴露出固有局限，难以打破「1Hz」壁垒，隐式推理会是 Agentic AI 实现「实时推理」的正解吗？

显示推理为何不会是未来的唯一模式？

1、近几年中，以 CoT 为代表的显式推理范式推动了 LLM 推理能力的飞跃。通过将「思考」过程外化为人类可读的文本步骤，AI 在复杂问题求解上取得了前所未有的准确性和透明度，并迅速成为业界流行的最佳实践。

2、然而，随着学术界的持续探索和产业向 Agentic AI 的倾斜，显示推理的的优势正迅速转变为发展的瓶颈，其固有的局限性也逐步暴露，难以成为 Agentic 时代的主流范式。

3、在对 LLM 推理能力本质帮助的层面，近期多项研究指出 CoT 所呈现的逻辑链条可能并非真正的推理过程，而更像是一种脆弱的、结构化的模式匹配。

① UIUC 的研究者在 2025 年 5 月的工作中提出了一个理论框架来证明 CoT 有时会损害归纳能力，他们将 CoT 推理建模为一个离散的、序列化的操作过程，并推导发现在需要归纳推理的任务上，强制进行显式推理反而会主动引入并放大错误，损害模型的性能。[1-1]

② 7 月由 Yoshua Bengio 参与的由 Mila、牛津、AI2 等高校研究者提出的工作质疑了 CoT 的「可解释性」。该工作揭示了 CoT 推理常常与模型实际的隐藏计算路径不符，其表现出的「分步思考」能力往往是「不忠实」（unfaithful）的，因而不应将其视为可解释性技术。[1-2]

③ ASU 研究者在 8 月的研究发现，CoT 推理更像是对训练数据分布内模式的复现。一旦输入任务与训练数据分布存在差异，这种看似稳固的推理链条就会迅速失效，呈现出类似「海市蜃楼」的脆弱性。[1-3]

4、在推理能力之外，显式推理的内在运行机制使其难以适应未来 Agent 时代的需求。其核心问题在于，它为 AI 的每一次「思考」都征收了高昂的「性能税」。

① 显示推理的「思考」过程极其耗时，而需要实时响应的 Agent（如语音助手、游戏 NPC）无法适应这种延迟，且这种思考对大多数简单、直观的问题毫无必要，因而被诟病为「废话生成器」。[1-4]

② CoT 每次思考所消耗的大量 token 直接增加了 API 调用成本，这使得大规模、高频次的 Agent 应用在经济上变得不可行。[1-5]

5、如果将不同类型的智能决策过程映射为「智能频谱」，未来 AI Agent 的一个关键能力，是能够根据任务难度动态调整其「思考」的深度和速度，即在不同的「频率」之间切换。（详见 Pro 会员通讯 2025 Week 31 期）

① 「智能频谱」是 1X 的 AI 副总裁 Eric Jang 提出的概念，类似电磁波谱，一端为「极慢的智能」，一端为「极快的智能」。当前主流 AI 聊天助手处于「1-2Hz 的智能」，远不及人类自然、流畅的对话节奏（约为 10Hz）。

② Eric Jang 强调未来通用的智能体需要必须能够覆盖整个智能频谱，覆盖从缓慢的战略规划（0.1Hz），到流畅的日常对话（10Hz），再到高超的瞬时反应（50Hz）。

6、相比显示推理常用的「先思后言」（Think-before-Speaking，Tbs）的模式，近期在隐式推理上的探索证明了这种将推理过程内化到模型的潜在空间中，摆脱语言的束缚，具备更低延迟和成本的范式更适配智能体的任务场景。

① 在性能之外，隐式推理此前最大的「黑箱」问题，也可能随着人们对智能体可靠性要求的变化而不再成为硬伤。

实时推理的 Agentic，隐式推理成为「实时推理」主流路径还有哪些挑战？

1、在 AI Agent 从实验室走向现实世界的过程中，此前流行的「先思后言」（TbS）范式在很多非实时、高风险的决策场景中（如法律文书分析）具备必要性。

① TbS 的设计哲学与人类深思熟虑的沟通方式高度一致，即在给出结论前，先在内部完成审慎的思考和规划。这种范式提供了一个必要的、不受干扰的「计算窗口」，让模型能够完整地构建其逻辑链条。

② 在法律文书分析、医疗诊断辅助或复杂代码生成等领域，准确性和可验证性是首要原则 TbS 范式确保了模型在输出前，已经完成了全面的、基于完整上下文的思考，其生成的显式推理步骤可供人类专家审查和验证。

2、然而，当 Agent 开始作用于真实物理环境，其「实时推理」能力直接影响用户的交互体验，也导致流行的 TbS 范式无法适用于更贴近生活的语音助手、车载系统等场景中，用户无法忍受 AI 在回答前「思考」长达数秒的尴尬停顿。

① 如 DeepSeek-R1 和 OpenAI o1 等采用 TbS 范式的模型已具备一定程度的复杂推理能力，但「深度思考」功能带来的延迟使其无法用于端到端对话模型。

② 深度思考或完全不思考带来了两种极端体验，即要么得到一个「强大但反应迟钝」的助手，要么得到一个「迅速但思维简单」的助手。

3、针对端到端对话模型在实时性与推理能力之间的矛盾，研究者尝试探索理论上更为高效的「隐式推理」方法，其推理过程完全在其内部的、不可见的潜在表示（latent structures）中进行，不生成任何中间文本步骤。[1-6] [1-7]

① 由于无需生成冗长的中间文本，隐式推理的速度极快，计算成本也远低于显式推理。然而，早期隐式推理工作因为性能局限和可解释性方面的局限而没有显式推理（如 CoT）流行。

② 在早期或较小的模型中，没有显式步骤指导的隐式推理，难以在复杂的多步问题上实现泛化。模型倾向于学习浅层模式匹配，而不是真正的结构化推理。因此，当问题的结构稍微变化时，模型的准确性就会急剧下降。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.