新加坡科技设计大学等多校合作：AI需通过交互学习物理世界认知|机器人|复杂度|真实世界

分享至

这项由新加坡科技设计大学、新加坡管理大学、中国科学技术大学和南洋理工大学联合开展的突破性研究发表于2026年2月的预印本平台arXiv，论文编号为2602.21015v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们看到一个复杂的机械锁或者需要把各种形状的积木装进盒子里时，大脑会自然而然地分析物体之间的关系，预测哪些动作可行，哪些会失败。但对于人工智能来说，这种看似简单的能力却是一个巨大挑战。研究团队发现，当前最先进的人工智能系统虽然能够识别图片中的物体，甚至能够回答关于图片的复杂问题，但一旦需要它们真正动手操作、与物理世界进行多步骤交互时，表现却令人失望。

研究人员注意到，现有的人工智能评估方法存在一个根本性缺陷：它们主要关注的是让AI"看"和"说"，就像让学生只看教科书上的图片然后回答问题，而不是让他们真正动手做实验。这种评估方式无法检验AI是否真正理解物体之间的物理约束关系，比如哪个积木必须先移动，哪个方向是可行的移动路径。

为了解决这个问题，研究团队创建了一个名为CHAIN（动作与交互因果层次）的全新测试平台。这个平台就像一个专门为AI设计的"物理实验室"，里面有各种需要精确操作的3D拼图和装箱任务。与传统的图片问答不同，CHAIN要求AI必须在虚拟的物理环境中实际操作物体，通过反复尝试、观察结果、调整策略来完成任务。

一、从被动观察到主动操作的革命性转变

传统的人工智能评估就像让一个厨师只看菜谱图片就判断他的烹饪水平，而不让他真正下厨炒菜。当前主流的评估方法叫做"视觉问答"，AI看一张图片，然后回答相关问题。比如给AI看一张积木照片，问它"红色积木在蓝色积木的哪边"，AI能够准确回答。但这种能力和真正理解物理世界的差距就像纸上谈兵和实战的区别。

研究团队意识到，真实世界的问题解决需要的是"闭环"思维。就像我们玩魔方时，每一步操作都会改变整个局面，我们需要根据新的状态调整下一步策略。这种能力包含三个相互关联的要素：首先是理解当前状态下哪些动作在物理上是可行的，其次是预测这些动作会带来什么后果，最后是根据结果调整整体策略。

CHAIN测试平台的核心创新在于，它不再满足于AI的"一次性回答"，而是要求AI在一个完整的任务过程中进行多达数十次的决策循环。每一次操作后，环境会发生真实的物理变化，AI必须重新观察、重新思考、重新决策。这种设计模拟了人类解决实际问题的真实过程，也揭示了AI在处理动态、交互式任务时的真实能力水平。

更重要的是，CHAIN测试的任务都有严格的物理约束。就像真实世界中，你不能让两个物体同时占据同一个空间，你不能让积木凭空悬浮。这些约束不是人为添加的规则，而是来自于物理引擎的真实模拟。这意味着AI不能通过记忆标准答案来"作弊"，它必须真正理解物理世界的运作规律。

二、精心设计的物理推理挑战

CHAIN平台包含两大类精心设计的任务，每一类都针对AI的不同物理推理能力。第一类是传统木工拼图的3D版本，这些拼图的灵感来源于中国古代的鲁班锁和孔明锁。这些看似简单的木制玩具实际上包含了极其复杂的几何约束和操作顺序要求。

以六根木条组成的鲁班锁为例，虽然最终目标是将其完全拆解，但这个过程绝不是随意的暴力拆解。每根木条都与其他木条形成精密的卡扣关系，必须按照特定的顺序移动。有时候，你需要先将A木条向左推动两厘米，这样才能释放B木条，然后B木条的移动又会为C木条的取出创造条件。整个过程就像一个复杂的舞蹈编排，每一步都必须精确无误。

研究团队根据拼图的复杂程度设计了三个难度级别。简单级别包含六个零件的基础拼图，中等难度涉及十几个零件的复合结构，而困难级别则包含超过三十个零件的高度复杂设计。难度的提升不仅体现在零件数量上，更体现在约束关系的复杂程度上。在困难级别的任务中，某些零件的移动可能会同时影响多个其他零件的可移动性，形成复杂的连锁反应。

第二类任务专注于3D空间装箱问题。听起来简单，实际上这是一个集几何学、空间推理和长期规划于一体的综合挑战。AI需要将各种形状的3D积木装进一个固定大小的容器中，要求完全填满且没有重叠。这个任务的难点在于早期决策对后续可能性的限制。比如，如果你先放置了一个L形积木在容器中央，剩余空间就被分割成几个不规则区域，后续积木的放置选择会大大受限。

装箱任务同样分为三个难度等级，主要通过容器大小、积木数量和形状复杂度来区分。简单级别可能是一个2×2×3的小盒子配几个基础形状，而困难级别则可能是3×3×4的大容器配上各种异形积木。更有挑战性的是，所有这些任务都是通过程序自动生成的，意味着可以产生几乎无限的变化，确保AI无法通过记忆特定解法来"作弊"。

三、构建可控且公平的测试环境

为了确保测试结果的可信度和可重复性，研究团队开发了一套严格的任务构建流程。这个流程就像电影制作中的质量控制环节，每个候选任务都必须通过多重筛选才能进入最终的测试集合。

第一步是任务筛选，团队从专业拼图网站收集候选拼图，但并非所有拼图都适合AI测试。他们设定了三个关键筛选标准：首先是因果依赖性，只有那些必须按特定顺序操作的拼图才被保留，那些可以随意拆解的简单拼图被排除。其次是可行性评估，确保拼图既不会过于简单让测试失去意义，也不会难到无法在计算机中稳定模拟。最后是人类难度验证，研究团队邀请拼图专家实际操作每个候选拼图，根据完成时间将其分类为简单（5分钟内）、中等（5-15分钟）或困难（15分钟以上）。

第二步是环境标准化，由于收集来的拼图设计千差万别，团队需要将它们统一转换为可控的数字化环境。对于复杂的机械拼图，他们使用Unity游戏引擎来精确模拟物理约束和接触关系。对于相对简单的装箱任务，则使用轻量级的Python 3D引擎来提高开发效率。无论使用哪种技术，所有任务都采用统一的交互界面：每个物体都有独特的颜色标识，AI通过指定颜色来选择和操作物体。

第三步是评估协议设计，这是整个系统的核心创新之一。与传统的单次问答不同，CHAIN采用完全的闭环评估。每个评估回合中，AI会接收当前的视觉观察、任务描述和简化的操作历史，然后选择一个具体动作。系统执行这个动作并更新环境状态，然后将新的观察反馈给AI。这个循环持续进行，直到AI成功完成任务或达到预设的步数上限。

为了确保评估的公平性，所有AI模型都在完全相同的条件下接受测试。它们使用相同的视觉观察角度、相同的动作选择范围、相同的步数预算。更重要的是，每个任务都有客观的成功标准：拼图任务要求最终状态与目标配置完全匹配，装箱任务则要求容器被完全填满且无重叠。

四、评估指标的全面考量

CHAIN平台不仅关注AI是否能完成任务，更关注它们是如何完成任务的。研究团队设计了一套多维度的评估体系，就像评价一个厨师不仅要看菜品是否美味，还要考虑烹饪效率、食材利用率和成本控制。

任务成功率是最直观的指标，采用Pass@1形式，即AI在单次尝试中成功完成任务的比例。这个指标直接反映了AI的基础能力水平。但研究团队发现，仅仅知道成功率是不够的，还需要了解AI是如何达到成功的。

规划效率指标专门针对成功完成的任务进行分析。平均步数记录AI完成任务所需的实际操作次数，而最优距离则计算AI的解法与理论最优解之间的差距。比如，某个拼图的最优解法需要8步，但AI用了12步完成，那么多出的4步就被记录为冗余操作。标准化距离进一步将这个差距按任务难度进行归一化，使得不同复杂度的任务结果可以公平比较。

成本效率指标则从实际应用角度考量AI的经济可行性。研究团队详细统计了AI在解决每个任务过程中消耗的计算tokens数量，包括输入处理、推理过程和输出生成的总和。通过换算成实际的API调用成本，他们得出了"每解决一个任务需要多少美元"的具体数据。这个指标对于评估AI技术的商业应用可行性具有重要意义。

有趣的发现是，这三类指标之间并非总是正相关的。某些AI模型虽然成功率较高，但会采用大量的试错和回溯策略，导致步数冗余和成本上升。而另一些模型可能成功率中等，但一旦成功就非常高效。这种差异反映了不同AI系统在探索策略和确定性推理之间的不同权衡。

五、当前AI系统的表现真相

研究团队对包括GPT-5.2、Claude Opus 4.5、Gemini 3 Pro等在内的16个最先进AI模型进行了全面测试。测试结果既有令人鼓舞的发现，也暴露了现有技术的显著局限性。

在整体表现上，闭源商业模型普遍优于开源模型。GPT-5.2取得了最佳的综合成绩，成功率达到22.9%，成功任务数为25个。在开源模型中，Kimi-k2.5表现最好，成功率为13.8%。但即便是最优秀的模型，其表现距离人类专家仍有巨大差距。

更引人深思的是两类任务之间的巨大表现差异。在3D装箱任务上，顶级AI模型能够达到10.4%到31.2%的成功率，显示出一定的空间推理能力。但在拼图任务上，绝大多数模型的成功率仅在0.0%到3.1%之间，表现几乎可以说是惨不忍睹。这种差异反映了AI在处理不同类型物理约束时能力的巨大差异。

通过深入分析失败案例，研究团队发现了AI系统的几个根本性问题。在拼图任务中，AI最大的困难在于无法有效识别和利用隐藏的几何约束。即使研究人员提供了部分内部结构的参考信息，AI仍然无法可靠地找到解锁拼图的第一步关键操作。它们往往会陷入盲目的试错循环，对候选积木进行几乎随机的探索，缺乏基于约束的系统性推理。

在装箱任务中，AI面临两个主要挑战。第一个是对象集合的复杂性和耦合关系。简单任务可以通过局部合理的放置策略解决，但中高难度任务需要全局优化的紧密装箱决策，这超出了大多数AI的规划能力。第二个是全局空间规划能力不足。大多数AI采用贪婪策略，优先放置"容易处理"的物品，但这往往导致后期剩余空间的碎片化，迫使它们进行代价高昂的移除和重新规划。

成本分析揭示了另一个重要问题。表现更好的模型往往需要更多的计算资源。GPT-5.2虽然成功率最高，但每解决一个任务的成本达到1.3美元。相比之下，一些轻量级模型虽然成功率较低，但成本效率更高。这种权衡关系对于实际应用具有重要意义，特别是在需要大规模部署的场景中。

六、交互式评估与传统方法的对比

为了验证交互式评估的必要性，研究团队还设计了对照实验，比较AI在交互式环境和传统单次回答模式下的表现差异。结果显示，交互能力对于物理推理任务的重要性远超预期。

在单次回答模式下，AI只能看到任务的初始状态图片，然后必须输出一个完整的解决方案，不允许中途调整。这种模式下，所有被测试的AI在拼图任务上的成功率都降至0.0%，而装箱任务的成功率也大幅下降。GPT-5.2从交互式的31.2%下降到单次回答的9.1%，Gemini-3-Pro从26.0%下降到9.1%。

这种差异说明了两个重要问题。首先，CHAIN测试的任务无法通过预先计算的静态推理可靠解决，需要基于中间反馈的动态调整。这证明了交互式评估确实在测试AI的闭环物理推理能力，而不是简单的模式识别或记忆回放。其次，即使是适度的成功也依赖于迭代的约束发现过程，而不是从初始观察就能完全推导出的解决方案。

研究团队还探索了多重采样和奖励模型重排序等优化策略的效果。令人惊讶的是，传统的"生成多个候选方案然后选择最佳"的策略在CHAIN任务上效果有限。Pass@2和Pass@4的成绩提升微乎其微，这表明问题的根源不在于随机性，而在于AI对物理约束理解的根本不足。

同样，基于奖励模型的候选方案重排序也只带来了边际改善。研究团队测试了专门训练的奖励模型和更强的视觉语言模型作为判断器，但它们的改进效果都不如简单的多次采样。这暗示着当前的奖励信号质量不足以可靠区分好坏策略，特别是在需要长期规划的复杂物理任务中。

七、视频生成模型的物理推理能力测试

除了测试传统的文本和图像AI模型，研究团队还将评估扩展到了最新的视频生成模型，包括SORA 2、WAN 2.6、VEO 3.1、KLING 2.6和HUNYUANVIDEO 1.5。他们设计了一个特殊的子任务：给模型展示一个完整的鲁班锁图片，然后要求它生成展示拆解过程的视频。

这个测试的设计极其严格。研究团队提供了详细的物理约束说明：所有部件都是刚性木块，不能弯曲变形；不允许部件互相穿透；运动必须是连续的，不能突然传送；每个部件只能沿着允许的方向滑动，在完全脱离前不能旋转；必须遵循真实的解锁顺序，先移除关键部件，然后依次移除其他部件；严格匹配参考图片的几何形状和部件数量。

测试结果令人震惊：没有任何一个视频生成模型能够成功完成拆解任务。所有模型都表现出系统性的灾难性失败，而且问题的严重程度随着结构复杂度增加而显著恶化。

在简单的两根木条拼图测试中，一些模型表现出对指令的表面理解，但违反了基本的物理法则。SORA 2和WAN 2.6经常生成直接平移提取目标木条的动画，完全忽略了互锁约束使这种运动在物理上不可行。随着任务复杂度提升到六根木条的配置，这些模型越来越频繁地偏离规定的逐步程序，转而执行随机或未定义的动作序列。

更严重的问题出现在其他模型身上。VEO 3.1、KLING 2.6和HUNYUANVIDEO 1.5经常出现更严重的表征崩溃，丧失对物体结构和物体身份的一致性。在简单任务中，它们经常生成损坏的配置，包括扭曲的几何形状和虚假组件。在复杂任务中，这种行为升级为完全的幻觉：模型可能会添加、移除或合并木条，或者将拼图转换为无法识别的结构。

这些结果表明，尽管现代视频生成模型可以产生视觉上令人信服的运动或简单的物理事件转换，但它们在处理结构化、约束驱动的交互方面仍然完全不可靠。特别是需要基于对象中心推理和物理可行性的多步操作任务，远远超出了当前模型的能力范围。

八、难度分层揭示的能力边界

通过详细分析不同难度级别的任务表现，研究团队发现了AI能力的清晰边界和渐进特征。在装箱任务中，难度的增加伴随着性能的平滑下降，这表明AI具有一定程度的可扩展空间推理能力，只是在复杂性增加时会逐渐失效。

具体来说，顶级模型如GPT-5.2和Claude-Sonnet-4.5在简单装箱任务上能达到100%的成功率，显示它们完全掌握了基础的3D空间推理。在中等难度任务上，GPT-5.2保持55.0%的成功率，而Claude-Sonnet-4.5下降到20.0%，表明不同模型在处理复杂空间关系时的能力差异。在困难任务上，所有模型的表现都急剧下降，最好的结果也只有6.3%。

这种渐进式下降模式说明装箱任务的瓶颈主要在于随着约束增加而指数级增长的搜索空间，以及需要更长远规划来避免后期的空间碎片化问题。AI模型具备基本的几何推理能力，但缺乏复杂场景下的全局优化策略。

相比之下，拼图任务展现出完全不同的难度特征。即使在最简单的级别，顶级模型的成功率也仅有10.0%，而中等和困难级别的成功率更是降至0.0%。这种"悬崖式"的性能下降模式表明，拼图任务的主要瓶颈不是渐进的复杂性增加，而是对3D互锁和结构中心推理本身的根本性困难。

这种差异揭示了AI在不同类型物理推理中的能力分布。对于主要依赖空间几何关系的任务，AI展现出一定的可扩展能力，尽管在复杂场景下会遇到规划深度的限制。但对于需要推理隐藏约束和多体相互作用的任务，AI表现出更根本性的理解缺陷，需要推理涉及隐藏阻塞约束和从部分观察中可行的多步分离轨迹的能力。

九、研究意义与未来展望

这项研究的意义远超出AI技术本身的评估，它为我们理解智能系统与物理世界的交互提供了全新视角。CHAIN平台首次系统性地揭示了当前AI技术在物理推理方面的真实能力边界，打破了基于静态图像测试可能产生的过度乐观估计。

从技术发展角度来看，研究结果指出了几个关键的改进方向。首先是需要更好的物理约束理解能力，特别是从部分观察中推断隐藏几何关系的能力。其次是长期规划能力的提升，让AI能够预见早期决策对后续行动空间的影响。最后是闭环学习机制的完善，使AI能够从交互反馈中快速调整策略。

从应用前景来说，这项研究为评估AI系统在实际部署中的可靠性提供了重要基准。无论是工业机器人、家庭服务机器人，还是虚拟现实中的智能助手，都需要具备与物理世界进行复杂交互的能力。CHAIN平台可以在这些系统实际部署前提供可靠的能力评估。

研究团队也坦承了当前工作的局限性。由于每个高质量的机械拼图都需要大量手工建模和调试，目前的拼图任务数量相对有限。虽然装箱任务可以程序化生成几乎无限的变化，但拼图任务的扩展需要更多工程投入。此外，由于闭环交互的高计算成本，目前的评估主要基于单次尝试，未来需要更多计算资源来支持多次采样评估。

展望未来，研究团队计划在几个方向扩展这项工作。首先是任务多样性的扩展，添加更多类型的物理推理挑战，如流体力学、弹性变形等。其次是评估协议的优化，开发更高效的交互机制来降低评估成本。最后是与实际机器人平台的整合，将虚拟环境中的发现转化为真实世界的应用指导。

说到底，这项研究提醒我们，尽管AI在图像识别、文本生成等领域取得了令人瞩目的进展，但在理解和操作复杂物理世界方面仍有很长的路要走。真正的人工智能不仅要能看、能说，更要能在复杂多变的物理环境中做出明智的决策和有效的行动。CHAIN平台为这一目标的实现提供了重要的测量工具和改进方向，也让我们对AI技术的未来发展有了更清醒和准确的认识。

对于普通读者而言，这项研究的启示是双重的。一方面，它让我们看到当前AI技术的真实边界，避免对AI能力的过度期待。另一方面，它也展示了科学研究如何通过严谨的方法论来推进人类对智能本质的理解。无论AI技术如何发展，人类独有的创造力、直觉和综合判断能力仍将是不可替代的宝贵资源。

Q&A

Q1：CHAIN测试平台与传统AI评估方法有什么根本区别？

A：传统AI评估主要让AI看图片回答问题，就像让学生只看教科书不做实验。CHAIN平台要求AI在3D物理环境中实际操作物体，通过多步骤交互完成任务，能真正测试AI是否理解物理世界的约束关系和因果逻辑。

Q2：为什么AI在装箱任务上比拼图任务表现更好？

A：装箱任务主要考验空间几何推理，AI具备一定的可扩展能力。而拼图任务需要推理隐藏的几何约束和复杂的零件依赖关系，这种结构化物理推理是AI的根本性弱项，即使最简单的拼图AI成功率也只有10%。

Q3：当前最强AI模型在CHAIN测试中表现如何？

A：最好的GPT-5.2模型整体成功率仅22.9%，在拼图任务上几乎全部失败（3.1%），装箱任务稍好（31.2%）。这说明即使是最先进的AI，在需要真正动手操作的物理推理任务中仍远低于人类水平。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.