网易首页 > 网易号 > 正文 申请入驻

放弃 CoT?Agentic 时代为什么更需要隐式推理?

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心PRO · 会员通讯 Week 39

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1.放弃 CoT?Agentic 时代为什么更需要隐式推理?

为何显示推理无法打破「1Hz」壁垒?Agentic AI 与 CoT 存在哪些冲突?隐式推理为何重新开始流行?TiS 对比 TbS 有哪些优势?隐式推理成为「实时推理」主流路径还有哪些挑战?为什么隐式推理能绕过「黑箱」困境?...

2. 先验+后验加持,大模型能否 hold 住推理预测的现实「溢出」?

静态考卷太简单,FutureX 能把「记忆型」模型拉到真正的未来考场吗?执行错误「积少成多」,大模型长程任务失效不能只让推理「背锅」?当推理「用兵」碰上财务预测等现实场景,模型能否稳定「指挥」从而落地?过往的模型预测技术在往哪些方向发力?先验记忆与后验反思机制,未来能为模型预测带来新的突破吗?...

3. 站在巨人的肩膀上:Sergey Levine 预测机器人在五年内实现「完全自主」

为什么机器人的「全能时刻」是伪命题?Sergey Levine 为何更关注机器人「飞轮」?是什么让 Levine 预测机器人将「一年启动飞轮,五年完全自主」?为什么机器人发展速度会远超自动驾驶?莫拉维克悖论如何指导机器人技术改进?为什么 Levine 相比「仿真」更重视真实数据?...

本期完整版通讯含 3 项专题解读 + 31 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 9 项,国外方面 10 项。

本期通讯总计 29386 字,可免费试读至 8%

消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元)


要事解读① 放弃 CoT?Agentic 时代为什么更需要隐式推理?

引言:随着 CoT 在可靠性、效率和计算成本等层面暴露出固有局限,难以打破「1Hz」壁垒,隐式推理会是 Agentic AI 实现「实时推理」的正解吗?

显示推理为何不会是未来的唯一模式?

1、近几年中,以 CoT 为代表的显式推理范式推动了 LLM 推理能力的飞跃。通过将「思考」过程外化为人类可读的文本步骤,AI 在复杂问题求解上取得了前所未有的准确性和透明度,并迅速成为业界流行的最佳实践。

2、然而,随着学术界的持续探索和产业向 Agentic AI 的倾斜,显示推理的的优势正迅速转变为发展的瓶颈,其固有的局限性也逐步暴露,难以成为 Agentic 时代的主流范式。

3、在对 LLM 推理能力本质帮助的层面,近期多项研究指出 CoT 所呈现的逻辑链条可能并非真正的推理过程,而更像是一种脆弱的、结构化的模式匹配。

① UIUC 的研究者在 2025 年 5 月的工作中提出了一个理论框架来证明 CoT 有时会损害归纳能力,他们将 CoT 推理建模为一个离散的、序列化的操作过程,并推导发现在需要归纳推理的任务上,强制进行显式推理反而会主动引入并放大错误,损害模型的性能。[1-1]

② 7 月由 Yoshua Bengio 参与的由 Mila、牛津、AI2 等高校研究者提出的工作质疑了 CoT 的「可解释性」。该工作揭示了 CoT 推理常常与模型实际的隐藏计算路径不符,其表现出的「分步思考」能力往往是「不忠实」(unfaithful)的,因而不应将其视为可解释性技术。[1-2]

③ ASU 研究者在 8 月的研究发现,CoT 推理更像是对训练数据分布内模式的复现。一旦输入任务与训练数据分布存在差异,这种看似稳固的推理链条就会迅速失效,呈现出类似「海市蜃楼」的脆弱性。[1-3]

4、在推理能力之外,显式推理的内在运行机制使其难以适应未来 Agent 时代的需求。其核心问题在于,它为 AI 的每一次「思考」都征收了高昂的「性能税」。

① 显示推理的「思考」过程极其耗时,而需要实时响应的 Agent(如语音助手、游戏 NPC)无法适应这种延迟,且这种思考对大多数简单、直观的问题毫无必要,因而被诟病为「废话生成器」。[1-4]

② CoT 每次思考所消耗的大量 token 直接增加了 API 调用成本,这使得大规模、高频次的 Agent 应用在经济上变得不可行。[1-5]

5、如果将不同类型的智能决策过程映射为「智能频谱」,未来 AI Agent 的一个关键能力,是能够根据任务难度动态调整其「思考」的深度和速度,即在不同的「频率」之间切换。(详见 Pro 会员通讯 2025 Week 31 期)

① 「智能频谱」是 1X 的 AI 副总裁 Eric Jang 提出的概念,类似电磁波谱,一端为「极慢的智能」,一端为「极快的智能」。当前主流 AI 聊天助手处于「1-2Hz 的智能」,远不及人类自然、流畅的对话节奏(约为 10Hz)。

② Eric Jang 强调未来通用的智能体需要必须能够覆盖整个智能频谱,覆盖从缓慢的战略规划(0.1Hz),到流畅的日常对话(10Hz),再到高超的瞬时反应(50Hz)。

6、相比显示推理常用的「先思后言」(Think-before-Speaking,Tbs)的模式,近期在隐式推理上的探索证明了这种将推理过程内化到模型的潜在空间中,摆脱语言的束缚,具备更低延迟和成本的范式更适配智能体的任务场景。

① 在性能之外,隐式推理此前最大的「黑箱」问题,也可能随着人们对智能体可靠性要求的变化而不再成为硬伤。

实时推理的 Agentic,隐式推理成为「实时推理」主流路径还有哪些挑战?

1、在 AI Agent 从实验室走向现实世界的过程中,此前流行的「先思后言」(TbS)范式在很多非实时、高风险的决策场景中(如法律文书分析)具备必要性。

① TbS 的设计哲学与人类深思熟虑的沟通方式高度一致,即在给出结论前,先在内部完成审慎的思考和规划。这种范式提供了一个必要的、不受干扰的「计算窗口」,让模型能够完整地构建其逻辑链条。

② 在法律文书分析、医疗诊断辅助或复杂代码生成等领域,准确性和可验证性是首要原则 TbS 范式确保了模型在输出前,已经完成了全面的、基于完整上下文的思考,其生成的显式推理步骤可供人类专家审查和验证。

2、然而,当 Agent 开始作用于真实物理环境,其「实时推理」能力直接影响用户的交互体验,也导致流行的 TbS 范式无法适用于更贴近生活的语音助手、车载系统等场景中,用户无法忍受 AI 在回答前「思考」长达数秒的尴尬停顿。

① 如 DeepSeek-R1 和 OpenAI o1 等采用 TbS 范式的模型已具备一定程度的复杂推理能力,但「深度思考」功能带来的延迟使其无法用于端到端对话模型。

② 深度思考或完全不思考带来了两种极端体验,即要么得到一个「强大但反应迟钝」的助手,要么得到一个「迅速但思维简单」的助手。

3、针对端到端对话模型在实时性与推理能力之间的矛盾,研究者尝试探索理论上更为高效的「隐式推理」方法,其推理过程完全在其内部的、不可见的潜在表示(latent structures)中进行,不生成任何中间文本步骤。[1-6] [1-7]

① 由于无需生成冗长的中间文本,隐式推理的速度极快,计算成本也远低于显式推理。然而,早期隐式推理工作因为性能局限和可解释性方面的局限而没有显式推理(如 CoT)流行。

② 在早期或较小的模型中,没有显式步骤指导的隐式推理,难以在复杂的多步问题上实现泛化。模型倾向于学习浅层模式匹配,而不是真正的结构化推理。因此,当问题的结构稍微变化时,模型的准确性就会急剧下降。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美日彻底急了!高市早苗宣布:要联手在6000米海底搞“大动作”

美日彻底急了!高市早苗宣布:要联手在6000米海底搞“大动作”

时尚的弄潮
2025-11-12 00:10:30
真惨!上市三天跌去40%,进场的股民全被一锅端

真惨!上市三天跌去40%,进场的股民全被一锅端

风风顺
2025-11-11 04:10:03
深度长文:通俗理解爱因斯坦的广义和狭义相对论,收藏了!

深度长文:通俗理解爱因斯坦的广义和狭义相对论,收藏了!

宇宙时空
2025-11-09 09:02:37
祖院长是凤凰男,知情人曝妻子不愿意离婚,偷拍视频者至今成谜

祖院长是凤凰男,知情人曝妻子不愿意离婚,偷拍视频者至今成谜

一言二拍pro
2025-11-11 10:59:35
004航母动力系统有了新突破!央视报道了:核反应堆将开始运行?

004航母动力系统有了新突破!央视报道了:核反应堆将开始运行?

李博世财经
2025-11-11 13:58:31
小米汽车4万+交付量引争议!网友锐评:左手倒右手?信你个鬼

小米汽车4万+交付量引争议!网友锐评:左手倒右手?信你个鬼

吃瓜局
2025-11-11 16:25:43
莆田12岁女孩被虐死案二审宣判:继母主观恶性深,犯罪手段极其残忍,情节极其恶劣,维持死刑判决

莆田12岁女孩被虐死案二审宣判:继母主观恶性深,犯罪手段极其残忍,情节极其恶劣,维持死刑判决

大风新闻
2025-11-11 16:07:03
美军严重误判,五角大楼认为不管咋轰炸中国,解放军都不敢还手​

美军严重误判,五角大楼认为不管咋轰炸中国,解放军都不敢还手​

文史微鉴
2025-11-11 14:45:44
夺冠大热轰然倒下!8人轮换浙江逆天改命杀进决赛,丁伟一战封神

夺冠大热轰然倒下!8人轮换浙江逆天改命杀进决赛,丁伟一战封神

后仰大风车
2025-11-11 18:07:19
瑟尔斯基宣布控制住红军城局势,歼敌3万多人,425团表现出色

瑟尔斯基宣布控制住红军城局势,歼敌3万多人,425团表现出色

环球热点快评
2025-11-10 08:41:36
斯诺克喜讯:赵心童4-0胜世界第7,火热状态进小组决赛

斯诺克喜讯:赵心童4-0胜世界第7,火热状态进小组决赛

陈赩爱体育
2025-11-12 00:49:17
苹果新配件iPhone Pocket亮相:将手机“随身穿戴”,1299元起售

苹果新配件iPhone Pocket亮相:将手机“随身穿戴”,1299元起售

IT之家
2025-11-11 17:26:06
记者:曼奇尼执教萨德年薪1100万欧,成为世界薪酬第9高教练

记者:曼奇尼执教萨德年薪1100万欧,成为世界薪酬第9高教练

懂球帝
2025-11-11 16:36:05
阿莫林上任一周年,曼联发生了哪些改变?

阿莫林上任一周年,曼联发生了哪些改变?

体坛周报
2025-11-12 00:00:16
震惊!航班登机口一瞒报孕期孕妇坦言已超36周,出问题要航司负责

震惊!航班登机口一瞒报孕期孕妇坦言已超36周,出问题要航司负责

火山诗话
2025-11-11 06:06:29
沉默24小时后,中方宣布援菲,受灾人数超百万,马科斯被要求辞职

沉默24小时后,中方宣布援菲,受灾人数超百万,马科斯被要求辞职

吴欣纯Deborah
2025-11-11 18:34:07
你要打多久我就陪多久!只要大陆战机敢越线,台军就开第1枪击落

你要打多久我就陪多久!只要大陆战机敢越线,台军就开第1枪击落

许穋很机智
2025-11-10 01:52:53
17分钟视频毁了曾医生?

17分钟视频毁了曾医生?

蜻蜓世音
2025-11-10 14:39:45
曾琦老公曝光,祖院长老婆被挖出,网友:理解他们俩为何在一起了

曾琦老公曝光,祖院长老婆被挖出,网友:理解他们俩为何在一起了

李昕言温度空间
2025-11-11 22:30:23
以色列打算将困在地道中的哈马斯流放至第三国,但没有国家愿接收

以色列打算将困在地道中的哈马斯流放至第三国,但没有国家愿接收

桂系007
2025-11-12 02:27:49
2025-11-12 03:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1351352文章数 4444关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

家居
教育
亲子
游戏
旅游

家居要闻

国美学子 打造筑梦空间

教育要闻

老师们不奢望减轻什么负担,只希望能实行8小时工作制!

亲子要闻

没人生娃了?上海一产科医生称:从一晚上8个剖腹产到现在1个没有

《无尽传说 Remastered》评测:前进"/> 主站 商城 论坛 自运营 登录 注册 《无尽传说 Remastered》评测:前进 星河 2025-...

旅游要闻

11月11日最佳情报|淄博池上镇山川如画,五龙潭公园泉清柳黄

无障碍浏览 进入关怀版