AI物理推理能力不足阻碍自动化发展进程|速度|视觉|机器人

AI物理推理能力不足阻碍自动化发展进程

2026-01-28 22:41:04　来源: 至顶AI实验室

北京举报

分享至

QuantiPhy是一个全新的基准测试和训练框架，用于评估AI是否能够对视频图像中的物理属性进行数值推理。QuantiPhy揭示了当今模型在估算尺寸、速度和距离等基本物理量方面存在困难，但为未来发展指明了方向。

在一段绿色台球桌的视频中，几个彩色球随机在屏幕上滚动。大多数人都能相当准确地估算出任意一个台球的速度，但让AI做同样的事情时，结果却可能差异巨大。事实证明，AI在物理学方面表现并不出色。

QuantiPhy的开发者表示，AI无法理解物理世界正在阻碍机器人技术、自动驾驶汽车和其他视觉感知领域的新时代到来。这项新测试正在记录AI在物理世界理解方面的滞后但不断改进的表现。

QuantiPhy评估AI在给定物体某一属性（如台球直径）时，对物体尺寸、速度和加速度进行数值估算的能力。它允许研究人员比较不同模型，看哪个最好、哪个改进最快。最重要的是，作者表示，借助QuantiPhy，他们现在知道如何让AI变得更好。

斯坦福转化人工智能实验室主任、斯坦福视觉与学习实验室和HAI成员、介绍QuantiPhy的新预印本论文的资深作者Ehsan Adeli解释说："迄今为止，模型似乎严重依赖预训练的世界知识——依靠记忆的事实——而不是从视觉和文本输入进行真正的定量推理。它代表了我们测量AI理解和与现实世界互动能力的重大飞跃。"

共同第一作者、博士生和SVL实验室成员Tiange Xiang补充说："QuantiPhy既是基准测试，让我们能够公平评估当今最流行模型的物理理解能力，也是一个模型本身，展示了所有模型如何改进。"

因此，作者表示QuantiPhy可能有助于推动同时理解视频、图像和文本的模型——视觉语言模型或VLM——从简单的语言合理性转向对世界的数值准确理解，这将使机器人和自动驾驶汽车更智能、更有用、更安全。

AI的定量理解局限性

虽然生成式AI模型在总结大量文本、写作文和诗歌以及生成原创图像等定性能力方面令人印象深刻，但它们在对物理世界的定量理解方面持续表现不足。

从定性角度看，AI可以准确描述椰子从棕榈树掉到下面海滩的情景，但无法准确估算椰子的速度。在这些与物理相关的问题上，"AI产生的回答听起来合理，但仔细分析后发现几乎只是猜测"，Adeli说。

"即使是最好的模型在估算二维视频中物体的距离、方向和尺寸时，表现也很少比随机猜测好，"Xiang说。"这不是一个微不足道的缺陷。在评估AI改进基础物理能力和帮助开发者磨练这些技能方面，QuantiPhy代表了向物理感知AI迈出的关键一步。"

家用机器人和自动驾驶汽车需要做得更好。家用机器人必须理解打鸡蛋时需要比切胡桃南瓜时施加更温和的力，或者应该等搅拌器叶片停止旋转后再取出碗。工业机器人需要类似技能来导航工厂车间和操纵物体组装产品。自主安防摄像头需要这样的能力来识别对其保护的贵重资产的威胁。

QuantiPhy的开发过程

为了开发QuantiPhy，研究团队采用了结合现实世界和模拟数据的多方面方法。他们从互联网收集了超过3300个视频，并在实验室记录实验。"我们建立了一个配备四到五个摄像头的空间，手动记录了几个物理交互，使我们能够为QuantiPhy提供准确的3D数据，"Xiang回忆说。

然后，他们让QuantiPhy开始工作。在一种训练方法中，QuantiPhy被要求评估视频并通过某种试错过程自行进行定量评估。在第二种方法中，QuantiPhy预先被输入了人类用来进行准确计算的逐步过程。令人惊讶的是，端到端学习方法——没有明确的手工设计推理步骤——表现最佳。结果表明，强迫模型遵循人类设计的推理步骤有时会阻碍定量学习。

"我们试图给模型一个先机，提示它首先计算图像帧中的像素数量来估算图像中各种物体的大小，然后将该比例转换为现实世界单位，"Xiang解释了团队的过程。"然而令人惊讶的是，直接、无提示的方法效果更好。AI自主学习效果最佳。"

STAI/SVL实验室研究生、共同第一作者Puyin Li指出，该项目的一个主要发现是VLM过度依赖预训练世界知识。也就是说，它们使用记忆的事实而不是视觉输入。"它们的方法更像是猜测而不是推理，"Li说。"我们测试的证据支持这一点。"

例如，Li说在测试中，VLM通常在复杂场景中表现更好，这些场景为"猜测"提供了更大的机会，同时也使准确的物体检测和测量变得更加困难。同样，当呈现反事实情境时，VLM表现"糟糕"。在一个视频中，团队告诉VLM假设场景中的汽车长6000米，并要求估算汽车的宽度。人类可能会适应并根据比例变化进行推理，而VLM在这种情况下倾向于"幻觉"。最后，即使没有提供视频，VLM也对QuantiPhy的问题回应得相当好。

"VLM是非常成功的猜测者，"Li解释说——即使这些答案没有基于视觉测量，也能产生合理的答案。

未来应用前景

未来，更好的物理推理可能产生深远影响。在医疗保健领域，QuantiPhy可以辅助精密机器人手术。在自主诊断中，它可以帮助分析医学图像并注意物理变化。在家用机器人领域，物理理解可以增强机器人与环境交互的能力，成为更好的伙伴和合作者。自动驾驶汽车同样应该从改进的空间推理中受益，以提高安全性和效率。

该团队接下来希望使用多摄像头输入完善QuantiPhy在三维空间中的推理能力，使QuantiPhy能够进行更准确的空间计算，并在更复杂的空间中改进视觉语言模型，如旋转动力学（想象旋转的球和涡轮机）、可变形物体（在手术或制造中）、不同的摄像头视角和复杂的多体交互（从汽车到航天器和先进机器人）。

"我们很兴奋能够开拓我们认为是AI新领域的东西，"Xiang总结道。"我们相信机器人技术的未来依赖于具有QuantiPhy刚刚开始揭示的那种复杂物理推理能力的AI。"

Q&A

Q1：QuantiPhy是什么？它能做什么？

A：QuantiPhy是一个全新的基准测试和训练框架，用于评估AI是否能够对视频图像中的物理属性进行数值推理。它可以评估AI在给定物体某一属性时，对物体尺寸、速度和加速度进行数值估算的能力，并允许研究人员比较不同模型的表现。

Q2：为什么AI在物理推理方面表现不好？

A：研究发现，AI模型过度依赖预训练的世界知识，使用记忆的事实而不是从视觉输入进行真正的定量推理。它们的方法更像是猜测而不是推理，即使在没有视频输入的情况下也能产生看似合理的答案。

Q3：QuantiPhy对未来有什么应用价值？

A：QuantiPhy可以帮助改进机器人技术和自动驾驶汽车的物理理解能力。在医疗保健领域可辅助精密机器人手术，在家用机器人领域可增强环境交互能力，在自动驾驶领域可提高空间推理能力，从而让这些系统更智能、更有用、更安全。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.