将思维链（CoT）引入具身世界，哪种路径能真正打通机器人的“知行合一”？|字母|推理|模态|cot|神经网络|深度思考模型

分享至

大模型处理复杂问题时，它越来越倾向于生成一个推理链条。这条链，把一个复杂问题，拆解成多个推理环节，一步步得出结论。

支撑这种推理能力的，是一种被反复验证的技术路径：思维链（Chain of Thought，简称 CoT）。这项技术并不新，本质上是一种提示工程的升级版——通过引导模型“慢慢想”，强迫其展开清晰的推理流程。

早期的 CoT 停留在语言层面，即“思维可视化”；而在具身智能领域，它的角色正在发生变化——不再只要“想得清楚”，更要“做得明白”。也就是说，CoT 正从语言中的逻辑链条，演变成机器人行为背后的核心认知机制。

越来越多公司正在尝试将 CoT 应用到具身智能的架构设计中。主流做法是基于分层结构，借助预训练视觉语言模型（VLM）作为感知与推理的中枢，用自然语言能力“驱动”物理动作。

而一些更前沿的团队，如自变量机器人，正试图通过统一的“多模态到多模态”生成架构，从根本上重构这一过程：不仅让机器人“看”和“想”，更让它们以类似人类的整体性方式思考、计划、行动——而非三者割裂。

这就像人类学习骑自行车：没有人能单纯靠分步骤的语言描述学会骑行。初学者往往需要调动全身肌肉一次次试错，真正的掌握，则是身体在实践中的形成的一整套连贯动作，将复杂的身体自由度收敛为腰腿间的协调发力。这种从感知到行动的整体性学习，恰恰是割裂的模态拼接的方式无法实现的。

这种探索背后的核心命题是：机器人的“认知”与“行为”，是否可以被彻底打通？

连接"思考"与"行动"的 CoT

“具身 CoT 的意义超越了单纯的语言任务规划，它是连接抽象思考与具体行动的绝对核心。”自变量机器人 CTO 王昊告诉 AI 科技评论。

CoT，最初是一种语言模型在面对复杂问题时用于逐步推理的提示技巧，而当它被引入具身智能领域时，它承担的角色已远不止于此——它正在成为大模型从感知世界、理解任务到执行动作的核心桥梁。

简单来说，传统的语言模型思考（CoT）是在一个封闭的、符号化的世界里进行逻辑推演，而机器人的行动则发生在开放、动态、充满不确定性的物理世界。两者之间存在天然的巨大鸿沟，具体来看：

首先，具身 CoT 是一种融合推理，其每一步思考都必须融合视觉、空间与物理常识，确保了逻辑从一开始就与物理世界绑定；其次，这种扎根现实的推理使其能够进行“动态 grounding（需要加中文解释）”，将模糊指令实时分解为与环境持续交互的子任务链，让思考过程本身就是一个感知-规划-行动的循环；最终，这必然导向因果驱动的行动，即机器人的每个动作都是由思维链上的具体推理步骤所直接生成，并且每步推理都会受到动作在环境中执行带来的影响。

释义：“动态 grounding” 指机器人将抽象符号、语言或概念与动态变化的现实世界感知信息（如视觉、触觉等）实时关联的过程，让机器人能在环境变化中理解概念并调整行为，是实现智能交互的关键能力。

目前，包括英伟达、谷歌、自变量等公司正在探索将 CoT 引入具身任务中，用以提升多模态大语言模型（MLLM）在物理世界中的决策能力。技术路径上，大致分为两种方向：分层架构与端到端模型。

以英伟达为例，其在 2025 年 GTC 大会后推出 Cosmos-Reason1 采用了分层架构+CoT的方式。该系统基于模块化的感知、推理、控制流程构建了层次化物理本体，能够生成显式、可解释的动作序列，具备良好的追溯性和验证性。

一位业内专家告诉 AI 科技评论，这种路径“工程上更稳健、调试更方便。”尤其是对于能被明确拆解的任务，比如叠衣服等，分层结构非常管用。但他也指出，这一路径存在天然的上限：“一旦任务场景变复杂，模块之间的信息传递容易出问题，尤其是面对环境变化时，响应往往滞后。”

AI 科技评论了解到，多数企业或研究团队选择分层结构的原因之一在于工程可控性强。尤其是双系统架构在实验中表现稳定，从语言到视觉再到行动由中间信号传递，更容易实现闭环。但缺点也显而易见，一旦要应对复杂推理、解决随机问题时，完成难度直线上升。

显然，认知深度是更进一步的问题。另一位业内人士指出，“真正的具身智能，不只是能看、能想、能说，更要知道自己在做什么，以及怎么做。”物理世界的高度复杂性和不确定性，要求具身智能必须解决两个核心问题：

一是知道在做什么。例如，去倒一杯水，必须理解“水是液体，杯子倾斜才会倒出，而不是机械地把一个圆柱体倾斜到某个角度。
二是知道怎么做。例如，偏瘫患者，即使有明确意图，也无法准确控制自身的动作及与外界的交互。

在王昊看来，这也是分层架构的本质问题之一。他指出，首先是“表征瓶颈”——信息在不同模块之间频繁传递，会发生压缩与损失；其次是“难以涌现”——模块之间的结构割裂，让模型很难自然学到跨模态的物理因果和直觉常识。

因此，自变量机器人选择了另一条路线：端到端的具身 CoT。他们设计了一整套统一的多模态生成架构，试图在同一个神经网络中处理视觉、语言、触觉和动作等不同模态的信息。

“我们的目的是消除人为划分的模态边界，把它们都看作一个‘高维信息流’。”王昊说。

这种统一架构，主要在于信息流的融合：让视觉、语言、动作等各种模态的信息在同一个空间里可以自由地流动。关键突破在于他们引入了一种“多任务多模态生成”的监督机制。

王昊表示，他们要求模型在训练时必须学会任意模态之间的转换，比如用语言生成图像、用图像预测下一步动作。“这种机制会驱动会强迫模型去学习模态之间深层的因果联系。”

过去在单一模态生成上，其他公司已有所尝试。谷歌 DeepMind 的 RT 系列已经实现了语言到动作的直接映射；斯坦福大学团队也在测试将 CoT 与物理环境仿真融合，以实现更自然的机器人操作规划。

王昊解释，为了让机器人从“看懂”走向“会做”，统一的、多模态的思维链能够驱使系统呈现出一种类似人类的“整体性认知”：在面对未知任务时，能够在一个表示空间中同时完成视觉理解、语义推理、物理预测与动作规划，不再依赖串行模块处理。

自然涌现

与分层结构通过模块拆解任务不同，自变量机器人的统一架构更关注模型内部思维过程的自然涌现。

他们推出的具身智能模型，基于统一神经网络架构，在执行复杂任务时引入 CoT 机制，不再依赖人工拆分的感知、推理和控制流程，而是让模型自主完成从感知到动作的完整闭环。

这种设计带来的挑战是显而易见的：系统不仅要能“做”，还要能“想清楚再做”，甚至“边想边做边说”。这意味着模型需要具备复杂推理能力、连续操作能力以及多模态表达能力，能够将视觉、语言和动作有效对齐，并实时呈现思维链条。

在多个具身任务实验中，自变量机器人的具身模型展示出了三类关键能力：

第一个是符号-空间推理能力。

符号-空间推理能力是指机器人不仅能理解符号的含义，比如文字、图形等抽象信息，还能够将这些符号与物理空间中的对象、位置和操作建立对应关系，并在此基础上做出合理推理与操作决策。

比如，当机器人看到一幅手绘的“五角星”图案时，它首先需要识别这个图形所代表的含义，并联想到对应的字母拼写，比如“S”“T”“A”“R”。接着，系统要理解这些字母在二维平面中的排列顺序，进一步推理出一个有语义的英文单词。

但这还不够，机器人还要把这种符号信息转化为动作指令——比如用积木在三维空间中重新“搭建出”这个单词的拼写。这需要它具备：

对图形/字母的识别能力（视觉感知）
对字母组合的语义理解与推理（语言与因果）
对目标在空间中的相对位置规划能力（空间操作）

整个过程体现了视觉感知、因果推理和空间操作的深度融合。

【视频演示1：机器人根据手绘图形拼出对应单词】

第二个是物理空间推理能力。

物理空间推理能力表示机器人在面对一个现实环境中的物体或任务时，能够理解物体之间的空间关系、物理属性，如重力、支撑、平衡等，并据此推理出合理的操作顺序与结果。这种能力是机器人真正“理解”环境并做出符合常识决策的关键。

【视频演示2：观察积木操作步骤并搭建对应空间形状】

视频中，机器人能从积木图片中看懂每一步怎么做，按部就班地拾取相应积木并妥善摆放。

一连串动作的背后，是机器人对整个结构的空间理解和因果推理。比如哪块积木起支撑作用，先放哪块才能保持整体稳定，甚至能预测如果换一种顺序搭建，积木结构会不会倒。更重要的是，机器人能把自己的思考过程用语言清晰地表述出来，解释为什么要这么放置、哪里需要注意重力和结构的平衡。

可以说，机器人基于深层的物理理解，独立完成复杂的三维结构搭建，展现了物理直觉与推理能力的有机结合。

第三个是具备推理链的自主探索能力。

推理链的自主探索能力是指机器人在面对一个未知或不确定的任务时，不再依赖预设规则或外部指令，而是能像人一样，自主观察环境、调动已有知识，构建出一套连贯的推理过程，来指导自己的行动。这是从“被动执行”走向“主动决策”的关键能力。

【视频演示3：带有推理过程的物品搜索】

在 Demo 中，当机器人得到指令：“找到蓝色的布偶玩具并把它拿到桌子中间”。没有任何记忆参考的机器人，开始根据指令进行探索：先查看桌面物品，逐一挪开杯子、衣服，试图找到玩偶；随后又依次拉开抽屉，寻找可能的藏匿处。

整个过程，机器人展现出的不是机械式执行，而是一种目标导向的推理能力，意味着机器人能够理解任务目标，并推理出合理的行动路径，“自己想办法完成任务”。

以上三个过程，机器人需要在操作中实时输出推理过程，这要求模型在统一架构中实现物理操作、视觉和语言推理的精确同步，“这种推理过程是端到端学习的自然涌现”。

因此 CoT 不再是工程技巧，而是真正成为驱动机器人思考和行动的重要机制。在这一过程中，模型架构、任务反馈机制与训练范式的每一步演进，都教会机器人以新的方式理解世界，完成交互。

此外，端到端统一具身思维链让机器人还具备了从视频中学习的能力和协作推理能力。

在观察人类操作的视频时，机器人并不只是模仿动作表面，而是尝试去“看懂人类在做什么”——它从视频中推断出人类行为背后的真实意图和目标状态。这意味着它不仅能学会怎么做，更能理解“为什么这么做”。

【视频演示4：从视频中推断动作信息意图并自主执行】

这种能力远不止是复制动作，而是一种融合了视频理解、人类意图识别和任务目标推理的复杂能力。它让机器人具备了初步的自主学习能力。

结语

在具身智能的发展路径上，CoT 正逐渐成为连接感知、推理与行动的核心技术。无论是分层架构还是端到端模型，各方都在寻找更好的方式，让机器人真正理解并适应物理世界。

自变量机器人选择了一条天花板更高的路：在统一的端到端架构中推动多模态思维链的自然涌现。

他们相信，只有抛弃拼接式的多模态融合方式，才能打通视觉、语言和行动之间的壁垒，让机器人像人一样，在行动中感知，在感知中思考，思考的结果又即时地、非线性地体现在行动中，从而形成更加丰富的“思维环”，以适应复杂的物理世界。

这是一场对具身认知的重构，让机器人具备真正的整体性能力。或许就从这样一条思维链起，机器人将开始真正走进现实世界。

文中视频可查看文章：https://mp.weixin.qq.com/s/i6zmzBlMxEZWh7F2H6b-iw

雷峰网雷峰网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.