网易首页 > 网易号 > 正文 申请入驻

放弃 CoT?Agentic 时代为什么更需要隐式推理?

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心PRO · 会员通讯 Week 39

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1.放弃 CoT?Agentic 时代为什么更需要隐式推理?

为何显示推理无法打破「1Hz」壁垒?Agentic AI 与 CoT 存在哪些冲突?隐式推理为何重新开始流行?TiS 对比 TbS 有哪些优势?隐式推理成为「实时推理」主流路径还有哪些挑战?为什么隐式推理能绕过「黑箱」困境?...

2. 先验+后验加持,大模型能否 hold 住推理预测的现实「溢出」?

静态考卷太简单,FutureX 能把「记忆型」模型拉到真正的未来考场吗?执行错误「积少成多」,大模型长程任务失效不能只让推理「背锅」?当推理「用兵」碰上财务预测等现实场景,模型能否稳定「指挥」从而落地?过往的模型预测技术在往哪些方向发力?先验记忆与后验反思机制,未来能为模型预测带来新的突破吗?...

3. 站在巨人的肩膀上:Sergey Levine 预测机器人在五年内实现「完全自主」

为什么机器人的「全能时刻」是伪命题?Sergey Levine 为何更关注机器人「飞轮」?是什么让 Levine 预测机器人将「一年启动飞轮,五年完全自主」?为什么机器人发展速度会远超自动驾驶?莫拉维克悖论如何指导机器人技术改进?为什么 Levine 相比「仿真」更重视真实数据?...

本期完整版通讯含 3 项专题解读 + 31 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 9 项,国外方面 10 项。

本期通讯总计 29386 字,可免费试读至 8%

消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元)


要事解读① 放弃 CoT?Agentic 时代为什么更需要隐式推理?

引言:随着 CoT 在可靠性、效率和计算成本等层面暴露出固有局限,难以打破「1Hz」壁垒,隐式推理会是 Agentic AI 实现「实时推理」的正解吗?

显示推理为何不会是未来的唯一模式?

1、近几年中,以 CoT 为代表的显式推理范式推动了 LLM 推理能力的飞跃。通过将「思考」过程外化为人类可读的文本步骤,AI 在复杂问题求解上取得了前所未有的准确性和透明度,并迅速成为业界流行的最佳实践。

2、然而,随着学术界的持续探索和产业向 Agentic AI 的倾斜,显示推理的的优势正迅速转变为发展的瓶颈,其固有的局限性也逐步暴露,难以成为 Agentic 时代的主流范式。

3、在对 LLM 推理能力本质帮助的层面,近期多项研究指出 CoT 所呈现的逻辑链条可能并非真正的推理过程,而更像是一种脆弱的、结构化的模式匹配。

① UIUC 的研究者在 2025 年 5 月的工作中提出了一个理论框架来证明 CoT 有时会损害归纳能力,他们将 CoT 推理建模为一个离散的、序列化的操作过程,并推导发现在需要归纳推理的任务上,强制进行显式推理反而会主动引入并放大错误,损害模型的性能。[1-1]

② 7 月由 Yoshua Bengio 参与的由 Mila、牛津、AI2 等高校研究者提出的工作质疑了 CoT 的「可解释性」。该工作揭示了 CoT 推理常常与模型实际的隐藏计算路径不符,其表现出的「分步思考」能力往往是「不忠实」(unfaithful)的,因而不应将其视为可解释性技术。[1-2]

③ ASU 研究者在 8 月的研究发现,CoT 推理更像是对训练数据分布内模式的复现。一旦输入任务与训练数据分布存在差异,这种看似稳固的推理链条就会迅速失效,呈现出类似「海市蜃楼」的脆弱性。[1-3]

4、在推理能力之外,显式推理的内在运行机制使其难以适应未来 Agent 时代的需求。其核心问题在于,它为 AI 的每一次「思考」都征收了高昂的「性能税」。

① 显示推理的「思考」过程极其耗时,而需要实时响应的 Agent(如语音助手、游戏 NPC)无法适应这种延迟,且这种思考对大多数简单、直观的问题毫无必要,因而被诟病为「废话生成器」。[1-4]

② CoT 每次思考所消耗的大量 token 直接增加了 API 调用成本,这使得大规模、高频次的 Agent 应用在经济上变得不可行。[1-5]

5、如果将不同类型的智能决策过程映射为「智能频谱」,未来 AI Agent 的一个关键能力,是能够根据任务难度动态调整其「思考」的深度和速度,即在不同的「频率」之间切换。(详见 Pro 会员通讯 2025 Week 31 期)

① 「智能频谱」是 1X 的 AI 副总裁 Eric Jang 提出的概念,类似电磁波谱,一端为「极慢的智能」,一端为「极快的智能」。当前主流 AI 聊天助手处于「1-2Hz 的智能」,远不及人类自然、流畅的对话节奏(约为 10Hz)。

② Eric Jang 强调未来通用的智能体需要必须能够覆盖整个智能频谱,覆盖从缓慢的战略规划(0.1Hz),到流畅的日常对话(10Hz),再到高超的瞬时反应(50Hz)。

6、相比显示推理常用的「先思后言」(Think-before-Speaking,Tbs)的模式,近期在隐式推理上的探索证明了这种将推理过程内化到模型的潜在空间中,摆脱语言的束缚,具备更低延迟和成本的范式更适配智能体的任务场景。

① 在性能之外,隐式推理此前最大的「黑箱」问题,也可能随着人们对智能体可靠性要求的变化而不再成为硬伤。

实时推理的 Agentic,隐式推理成为「实时推理」主流路径还有哪些挑战?

1、在 AI Agent 从实验室走向现实世界的过程中,此前流行的「先思后言」(TbS)范式在很多非实时、高风险的决策场景中(如法律文书分析)具备必要性。

① TbS 的设计哲学与人类深思熟虑的沟通方式高度一致,即在给出结论前,先在内部完成审慎的思考和规划。这种范式提供了一个必要的、不受干扰的「计算窗口」,让模型能够完整地构建其逻辑链条。

② 在法律文书分析、医疗诊断辅助或复杂代码生成等领域,准确性和可验证性是首要原则 TbS 范式确保了模型在输出前,已经完成了全面的、基于完整上下文的思考,其生成的显式推理步骤可供人类专家审查和验证。

2、然而,当 Agent 开始作用于真实物理环境,其「实时推理」能力直接影响用户的交互体验,也导致流行的 TbS 范式无法适用于更贴近生活的语音助手、车载系统等场景中,用户无法忍受 AI 在回答前「思考」长达数秒的尴尬停顿。

① 如 DeepSeek-R1 和 OpenAI o1 等采用 TbS 范式的模型已具备一定程度的复杂推理能力,但「深度思考」功能带来的延迟使其无法用于端到端对话模型。

② 深度思考或完全不思考带来了两种极端体验,即要么得到一个「强大但反应迟钝」的助手,要么得到一个「迅速但思维简单」的助手。

3、针对端到端对话模型在实时性与推理能力之间的矛盾,研究者尝试探索理论上更为高效的「隐式推理」方法,其推理过程完全在其内部的、不可见的潜在表示(latent structures)中进行,不生成任何中间文本步骤。[1-6] [1-7]

① 由于无需生成冗长的中间文本,隐式推理的速度极快,计算成本也远低于显式推理。然而,早期隐式推理工作因为性能局限和可解释性方面的局限而没有显式推理(如 CoT)流行。

② 在早期或较小的模型中,没有显式步骤指导的隐式推理,难以在复杂的多步问题上实现泛化。模型倾向于学习浅层模式匹配,而不是真正的结构化推理。因此,当问题的结构稍微变化时,模型的准确性就会急剧下降。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
必须拿下!卡里克别再心软!曼联这位 “高估球星” 该放替补!

必须拿下!卡里克别再心软!曼联这位 “高估球星” 该放替补!

澜归序
2026-03-15 17:30:23
小时候课本上猛夸的3个历史人物,长大后才发现:他们坏到骨子里

小时候课本上猛夸的3个历史人物,长大后才发现:他们坏到骨子里

收藏大视界
2026-03-07 18:11:42
申花1比1战平浙江队,杨皓宇赛后被球迷质疑,直言他以后别上了

申花1比1战平浙江队,杨皓宇赛后被球迷质疑,直言他以后别上了

懂个球
2026-03-15 23:40:03
随着国米1-1,尤文图斯1-0,那不勒斯2-1,意甲最新积分榜出炉

随着国米1-1,尤文图斯1-0,那不勒斯2-1,意甲最新积分榜出炉

侧身凌空斩
2026-03-15 06:05:01
拓媒:斯普利特的执教未达预期 他和克罗宁可能下赛季都得走人

拓媒:斯普利特的执教未达预期 他和克罗宁可能下赛季都得走人

兰亭墨未干
2026-03-15 21:38:06
四大超巨锁定一阵,伦纳德恐成无冕之王

四大超巨锁定一阵,伦纳德恐成无冕之王

茅塞盾开本尊
2026-03-15 22:04:21
120岁虚云老和尚晚年告诫:戒色戒的不是女色,而是这东西

120岁虚云老和尚晚年告诫:戒色戒的不是女色,而是这东西

千秋文化
2026-03-13 20:45:01
成都汽车撞人致7死伤:画面流出,19岁肇事者被扒,事发原因披露

成都汽车撞人致7死伤:画面流出,19岁肇事者被扒,事发原因披露

博士观察
2026-03-14 16:37:28
深圳宝马4S店“销冠店”停摆,店内财产已被法院查封

深圳宝马4S店“销冠店”停摆,店内财产已被法院查封

南方都市报
2026-03-14 16:52:20
毕了业才知道大学老师有多厉害!网友:这种级别领导连门都找不到

毕了业才知道大学老师有多厉害!网友:这种级别领导连门都找不到

另子维爱读史
2026-03-13 22:11:08
315影子调查|私域直播围猎老年群体(下):精巧的“茧房”谁来破

315影子调查|私域直播围猎老年群体(下):精巧的“茧房”谁来破

澎湃新闻
2026-03-15 15:03:19
倒计时8天!3月15日调整后92/95号汽油价格,今天油价又大涨了

倒计时8天!3月15日调整后92/95号汽油价格,今天油价又大涨了

猪友巴巴
2026-03-15 14:45:03
凌晨在北京去世、谈8个男朋友,75岁刘晓庆身上的标签有多离谱

凌晨在北京去世、谈8个男朋友,75岁刘晓庆身上的标签有多离谱

漫婷侃娱乐
2026-03-15 09:49:29
国投白银LOF:3月16日开市起至当日10:30停牌

国投白银LOF:3月16日开市起至当日10:30停牌

每日经济新闻
2026-03-15 19:51:33
马杜罗将被迫全盘托出?特朗普好友曝惊人内幕:他正准备把盟友卖个好价钱!

马杜罗将被迫全盘托出?特朗普好友曝惊人内幕:他正准备把盟友卖个好价钱!

娱乐圈的笔娱君
2026-03-14 20:45:35
高至霆凭《我的山与海》出圈,不仅演技获赞,网友还给他一个称号

高至霆凭《我的山与海》出圈,不仅演技获赞,网友还给他一个称号

仙味少女心
2026-03-14 22:37:37
武大杨某媛考上公务员的事反转了

武大杨某媛考上公务员的事反转了

大张的自留地
2026-03-14 16:18:29
中央定调2026年养老金调整,1966年前出生者或获更多倾斜

中央定调2026年养老金调整,1966年前出生者或获更多倾斜

让心灵得以栖息
2026-03-14 19:02:00
根据爱因斯坦的理论,瞬移到6500万光年外,就能看见恐龙灭绝?

根据爱因斯坦的理论,瞬移到6500万光年外,就能看见恐龙灭绝?

观察宇宙
2026-03-14 19:59:31
茅台非标产品实行代售,接近茅台人士:正在征求合作意向,经销商可拿5%佣金

茅台非标产品实行代售,接近茅台人士:正在征求合作意向,经销商可拿5%佣金

红星新闻
2026-03-15 16:49:23
2026-03-16 00:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2484450文章数 5903关注度
往期回顾 全部

科技要闻

传裁员20%,新模型难产:Meta AI仍没理顺

头条要闻

专家:若美宣布停火 伊朗或顺势接受并宣布取得"胜利"

头条要闻

专家:若美宣布停火 伊朗或顺势接受并宣布取得"胜利"

体育要闻

卢卡绝杀掘金:湖人有季后赛氛围了?

娱乐要闻

周小闹回应刘文祥塌房:我晚上吃啥啊

财经要闻

3·15晚会曝光7大乱象 这些企业被点名!

汽车要闻

倾听用户声音 东风奕派三款新车亮相

态度原创

时尚
房产
艺术
数码
军事航空

内娱小白花,公然模仿某巨星却被全网夸爆?

房产要闻

销量扑街!建鑫·如意芳华,为何成了全荔湾卖得最差的新盘?

艺术要闻

汤唯惊艳写真,气质女神美到让人窒息!

数码要闻

全球首台:维修达人成功将苹果MacBook Neo扩容至1TB存储

军事要闻

伊朗船只逼近美航母 美连开数炮全打空

无障碍浏览 进入关怀版