![]()
QuantiPhy是一个全新的基准测试和训练框架,用于评估AI是否能够对视频图像中的物理属性进行数值推理。QuantiPhy揭示了当今模型在估算尺寸、速度和距离等基本物理量方面存在困难,但为未来发展指明了方向。
在一段绿色台球桌的视频中,几个彩色球随机在屏幕上滚动。大多数人都能相当准确地估算出任意一个台球的速度,但让AI做同样的事情时,结果却可能差异巨大。事实证明,AI在物理学方面表现并不出色。
QuantiPhy的开发者表示,AI无法理解物理世界正在阻碍机器人技术、自动驾驶汽车和其他视觉感知领域的新时代到来。这项新测试正在记录AI在物理世界理解方面的滞后但不断改进的表现。
QuantiPhy评估AI在给定物体某一属性(如台球直径)时,对物体尺寸、速度和加速度进行数值估算的能力。它允许研究人员比较不同模型,看哪个最好、哪个改进最快。最重要的是,作者表示,借助QuantiPhy,他们现在知道如何让AI变得更好。
斯坦福转化人工智能实验室主任、斯坦福视觉与学习实验室和HAI成员、介绍QuantiPhy的新预印本论文的资深作者Ehsan Adeli解释说:"迄今为止,模型似乎严重依赖预训练的世界知识——依靠记忆的事实——而不是从视觉和文本输入进行真正的定量推理。它代表了我们测量AI理解和与现实世界互动能力的重大飞跃。"
共同第一作者、博士生和SVL实验室成员Tiange Xiang补充说:"QuantiPhy既是基准测试,让我们能够公平评估当今最流行模型的物理理解能力,也是一个模型本身,展示了所有模型如何改进。"
因此,作者表示QuantiPhy可能有助于推动同时理解视频、图像和文本的模型——视觉语言模型或VLM——从简单的语言合理性转向对世界的数值准确理解,这将使机器人和自动驾驶汽车更智能、更有用、更安全。
AI的定量理解局限性
虽然生成式AI模型在总结大量文本、写作文和诗歌以及生成原创图像等定性能力方面令人印象深刻,但它们在对物理世界的定量理解方面持续表现不足。
从定性角度看,AI可以准确描述椰子从棕榈树掉到下面海滩的情景,但无法准确估算椰子的速度。在这些与物理相关的问题上,"AI产生的回答听起来合理,但仔细分析后发现几乎只是猜测",Adeli说。
"即使是最好的模型在估算二维视频中物体的距离、方向和尺寸时,表现也很少比随机猜测好,"Xiang说。"这不是一个微不足道的缺陷。在评估AI改进基础物理能力和帮助开发者磨练这些技能方面,QuantiPhy代表了向物理感知AI迈出的关键一步。"
家用机器人和自动驾驶汽车需要做得更好。家用机器人必须理解打鸡蛋时需要比切胡桃南瓜时施加更温和的力,或者应该等搅拌器叶片停止旋转后再取出碗。工业机器人需要类似技能来导航工厂车间和操纵物体组装产品。自主安防摄像头需要这样的能力来识别对其保护的贵重资产的威胁。
QuantiPhy的开发过程
为了开发QuantiPhy,研究团队采用了结合现实世界和模拟数据的多方面方法。他们从互联网收集了超过3300个视频,并在实验室记录实验。"我们建立了一个配备四到五个摄像头的空间,手动记录了几个物理交互,使我们能够为QuantiPhy提供准确的3D数据,"Xiang回忆说。
然后,他们让QuantiPhy开始工作。在一种训练方法中,QuantiPhy被要求评估视频并通过某种试错过程自行进行定量评估。在第二种方法中,QuantiPhy预先被输入了人类用来进行准确计算的逐步过程。令人惊讶的是,端到端学习方法——没有明确的手工设计推理步骤——表现最佳。结果表明,强迫模型遵循人类设计的推理步骤有时会阻碍定量学习。
"我们试图给模型一个先机,提示它首先计算图像帧中的像素数量来估算图像中各种物体的大小,然后将该比例转换为现实世界单位,"Xiang解释了团队的过程。"然而令人惊讶的是,直接、无提示的方法效果更好。AI自主学习效果最佳。"
STAI/SVL实验室研究生、共同第一作者Puyin Li指出,该项目的一个主要发现是VLM过度依赖预训练世界知识。也就是说,它们使用记忆的事实而不是视觉输入。"它们的方法更像是猜测而不是推理,"Li说。"我们测试的证据支持这一点。"
例如,Li说在测试中,VLM通常在复杂场景中表现更好,这些场景为"猜测"提供了更大的机会,同时也使准确的物体检测和测量变得更加困难。同样,当呈现反事实情境时,VLM表现"糟糕"。在一个视频中,团队告诉VLM假设场景中的汽车长6000米,并要求估算汽车的宽度。人类可能会适应并根据比例变化进行推理,而VLM在这种情况下倾向于"幻觉"。最后,即使没有提供视频,VLM也对QuantiPhy的问题回应得相当好。
"VLM是非常成功的猜测者,"Li解释说——即使这些答案没有基于视觉测量,也能产生合理的答案。
未来应用前景
未来,更好的物理推理可能产生深远影响。在医疗保健领域,QuantiPhy可以辅助精密机器人手术。在自主诊断中,它可以帮助分析医学图像并注意物理变化。在家用机器人领域,物理理解可以增强机器人与环境交互的能力,成为更好的伙伴和合作者。自动驾驶汽车同样应该从改进的空间推理中受益,以提高安全性和效率。
该团队接下来希望使用多摄像头输入完善QuantiPhy在三维空间中的推理能力,使QuantiPhy能够进行更准确的空间计算,并在更复杂的空间中改进视觉语言模型,如旋转动力学(想象旋转的球和涡轮机)、可变形物体(在手术或制造中)、不同的摄像头视角和复杂的多体交互(从汽车到航天器和先进机器人)。
"我们很兴奋能够开拓我们认为是AI新领域的东西,"Xiang总结道。"我们相信机器人技术的未来依赖于具有QuantiPhy刚刚开始揭示的那种复杂物理推理能力的AI。"
Q&A
Q1:QuantiPhy是什么?它能做什么?
A:QuantiPhy是一个全新的基准测试和训练框架,用于评估AI是否能够对视频图像中的物理属性进行数值推理。它可以评估AI在给定物体某一属性时,对物体尺寸、速度和加速度进行数值估算的能力,并允许研究人员比较不同模型的表现。
Q2:为什么AI在物理推理方面表现不好?
A:研究发现,AI模型过度依赖预训练的世界知识,使用记忆的事实而不是从视觉输入进行真正的定量推理。它们的方法更像是猜测而不是推理,即使在没有视频输入的情况下也能产生看似合理的答案。
Q3:QuantiPhy对未来有什么应用价值?
A:QuantiPhy可以帮助改进机器人技术和自动驾驶汽车的物理理解能力。在医疗保健领域可辅助精密机器人手术,在家用机器人领域可增强环境交互能力,在自动驾驶领域可提高空间推理能力,从而让这些系统更智能、更有用、更安全。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.