网易首页 > 网易号 > 正文 申请入驻

AI物理推理能力不足阻碍自动化发展进程

0
分享至


QuantiPhy是一个全新的基准测试和训练框架,用于评估AI是否能够对视频图像中的物理属性进行数值推理。QuantiPhy揭示了当今模型在估算尺寸、速度和距离等基本物理量方面存在困难,但为未来发展指明了方向。

在一段绿色台球桌的视频中,几个彩色球随机在屏幕上滚动。大多数人都能相当准确地估算出任意一个台球的速度,但让AI做同样的事情时,结果却可能差异巨大。事实证明,AI在物理学方面表现并不出色。

QuantiPhy的开发者表示,AI无法理解物理世界正在阻碍机器人技术、自动驾驶汽车和其他视觉感知领域的新时代到来。这项新测试正在记录AI在物理世界理解方面的滞后但不断改进的表现。

QuantiPhy评估AI在给定物体某一属性(如台球直径)时,对物体尺寸、速度和加速度进行数值估算的能力。它允许研究人员比较不同模型,看哪个最好、哪个改进最快。最重要的是,作者表示,借助QuantiPhy,他们现在知道如何让AI变得更好。

斯坦福转化人工智能实验室主任、斯坦福视觉与学习实验室和HAI成员、介绍QuantiPhy的新预印本论文的资深作者Ehsan Adeli解释说:"迄今为止,模型似乎严重依赖预训练的世界知识——依靠记忆的事实——而不是从视觉和文本输入进行真正的定量推理。它代表了我们测量AI理解和与现实世界互动能力的重大飞跃。"

共同第一作者、博士生和SVL实验室成员Tiange Xiang补充说:"QuantiPhy既是基准测试,让我们能够公平评估当今最流行模型的物理理解能力,也是一个模型本身,展示了所有模型如何改进。"

因此,作者表示QuantiPhy可能有助于推动同时理解视频、图像和文本的模型——视觉语言模型或VLM——从简单的语言合理性转向对世界的数值准确理解,这将使机器人和自动驾驶汽车更智能、更有用、更安全。

AI的定量理解局限性

虽然生成式AI模型在总结大量文本、写作文和诗歌以及生成原创图像等定性能力方面令人印象深刻,但它们在对物理世界的定量理解方面持续表现不足。

从定性角度看,AI可以准确描述椰子从棕榈树掉到下面海滩的情景,但无法准确估算椰子的速度。在这些与物理相关的问题上,"AI产生的回答听起来合理,但仔细分析后发现几乎只是猜测",Adeli说。

"即使是最好的模型在估算二维视频中物体的距离、方向和尺寸时,表现也很少比随机猜测好,"Xiang说。"这不是一个微不足道的缺陷。在评估AI改进基础物理能力和帮助开发者磨练这些技能方面,QuantiPhy代表了向物理感知AI迈出的关键一步。"

家用机器人和自动驾驶汽车需要做得更好。家用机器人必须理解打鸡蛋时需要比切胡桃南瓜时施加更温和的力,或者应该等搅拌器叶片停止旋转后再取出碗。工业机器人需要类似技能来导航工厂车间和操纵物体组装产品。自主安防摄像头需要这样的能力来识别对其保护的贵重资产的威胁。

QuantiPhy的开发过程

为了开发QuantiPhy,研究团队采用了结合现实世界和模拟数据的多方面方法。他们从互联网收集了超过3300个视频,并在实验室记录实验。"我们建立了一个配备四到五个摄像头的空间,手动记录了几个物理交互,使我们能够为QuantiPhy提供准确的3D数据,"Xiang回忆说。

然后,他们让QuantiPhy开始工作。在一种训练方法中,QuantiPhy被要求评估视频并通过某种试错过程自行进行定量评估。在第二种方法中,QuantiPhy预先被输入了人类用来进行准确计算的逐步过程。令人惊讶的是,端到端学习方法——没有明确的手工设计推理步骤——表现最佳。结果表明,强迫模型遵循人类设计的推理步骤有时会阻碍定量学习。

"我们试图给模型一个先机,提示它首先计算图像帧中的像素数量来估算图像中各种物体的大小,然后将该比例转换为现实世界单位,"Xiang解释了团队的过程。"然而令人惊讶的是,直接、无提示的方法效果更好。AI自主学习效果最佳。"

STAI/SVL实验室研究生、共同第一作者Puyin Li指出,该项目的一个主要发现是VLM过度依赖预训练世界知识。也就是说,它们使用记忆的事实而不是视觉输入。"它们的方法更像是猜测而不是推理,"Li说。"我们测试的证据支持这一点。"

例如,Li说在测试中,VLM通常在复杂场景中表现更好,这些场景为"猜测"提供了更大的机会,同时也使准确的物体检测和测量变得更加困难。同样,当呈现反事实情境时,VLM表现"糟糕"。在一个视频中,团队告诉VLM假设场景中的汽车长6000米,并要求估算汽车的宽度。人类可能会适应并根据比例变化进行推理,而VLM在这种情况下倾向于"幻觉"。最后,即使没有提供视频,VLM也对QuantiPhy的问题回应得相当好。

"VLM是非常成功的猜测者,"Li解释说——即使这些答案没有基于视觉测量,也能产生合理的答案。

未来应用前景

未来,更好的物理推理可能产生深远影响。在医疗保健领域,QuantiPhy可以辅助精密机器人手术。在自主诊断中,它可以帮助分析医学图像并注意物理变化。在家用机器人领域,物理理解可以增强机器人与环境交互的能力,成为更好的伙伴和合作者。自动驾驶汽车同样应该从改进的空间推理中受益,以提高安全性和效率。

该团队接下来希望使用多摄像头输入完善QuantiPhy在三维空间中的推理能力,使QuantiPhy能够进行更准确的空间计算,并在更复杂的空间中改进视觉语言模型,如旋转动力学(想象旋转的球和涡轮机)、可变形物体(在手术或制造中)、不同的摄像头视角和复杂的多体交互(从汽车到航天器和先进机器人)。

"我们很兴奋能够开拓我们认为是AI新领域的东西,"Xiang总结道。"我们相信机器人技术的未来依赖于具有QuantiPhy刚刚开始揭示的那种复杂物理推理能力的AI。"

Q&A

Q1:QuantiPhy是什么?它能做什么?

A:QuantiPhy是一个全新的基准测试和训练框架,用于评估AI是否能够对视频图像中的物理属性进行数值推理。它可以评估AI在给定物体某一属性时,对物体尺寸、速度和加速度进行数值估算的能力,并允许研究人员比较不同模型的表现。

Q2:为什么AI在物理推理方面表现不好?

A:研究发现,AI模型过度依赖预训练的世界知识,使用记忆的事实而不是从视觉输入进行真正的定量推理。它们的方法更像是猜测而不是推理,即使在没有视频输入的情况下也能产生看似合理的答案。

Q3:QuantiPhy对未来有什么应用价值?

A:QuantiPhy可以帮助改进机器人技术和自动驾驶汽车的物理理解能力。在医疗保健领域可辅助精密机器人手术,在家用机器人领域可增强环境交互能力,在自动驾驶领域可提高空间推理能力,从而让这些系统更智能、更有用、更安全。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌克兰捐款平台收到大量来自中国的捐款

乌克兰捐款平台收到大量来自中国的捐款

老马拉车莫少装
2026-01-28 21:18:45
高市早苗当众落泪!让民众不用担心中国,关键时刻,金正恩出手了

高市早苗当众落泪!让民众不用担心中国,关键时刻,金正恩出手了

时时有聊
2026-01-28 11:47:55
男子千里送发动机后续:客户正脸曝光 全款已退不再合作 警方介入

男子千里送发动机后续:客户正脸曝光 全款已退不再合作 警方介入

离离言几许
2026-01-28 00:13:38
北京天通苑,一共有700栋楼,房价从2650涨到40000,如今价格分化

北京天通苑,一共有700栋楼,房价从2650涨到40000,如今价格分化

科学发掘
2026-01-28 13:40:30
普通人的机会来了!烟草三代、电力世家成历史,多地开刀近亲繁殖

普通人的机会来了!烟草三代、电力世家成历史,多地开刀近亲繁殖

火山诗话
2026-01-28 09:47:20
欧冠3-2,阿森纳8连胜,头名晋级淘汰赛,哲凯赖什、哈弗茨传射建功

欧冠3-2,阿森纳8连胜,头名晋级淘汰赛,哲凯赖什、哈弗茨传射建功

侧身凌空斩
2026-01-29 05:52:21
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

削桐作琴
2026-01-29 00:03:53
警方回应“杰我睿”事件最新进展

警方回应“杰我睿”事件最新进展

中国新闻周刊
2026-01-28 19:52:30
董明珠卸任仅2天,停职审查、转移资产、办公室恋情,哪个是真的

董明珠卸任仅2天,停职审查、转移资产、办公室恋情,哪个是真的

离离言几许
2026-01-28 20:47:56
确定赛季报销!亚当斯接受左踝手术 火箭寻找前场引援弥补损失

确定赛季报销!亚当斯接受左踝手术 火箭寻找前场引援弥补损失

罗说NBA
2026-01-29 06:59:23
具俊晔设计的大S雕像完工,白色S型非常漂亮,纪念大S去世一周年

具俊晔设计的大S雕像完工,白色S型非常漂亮,纪念大S去世一周年

阿纂看事
2026-01-28 11:40:11
汕头一女生神似敦煌壁画里的古典美人!全网盛赞:这才是东方美

汕头一女生神似敦煌壁画里的古典美人!全网盛赞:这才是东方美

深圳晚报
2026-01-28 21:04:57
这是奇迹!门将特鲁宾读秒4-2破皇马,本菲卡最后一秒挤掉马赛!

这是奇迹!门将特鲁宾读秒4-2破皇马,本菲卡最后一秒挤掉马赛!

懂球帝
2026-01-29 06:32:19
河南男子姓“苟”怕女儿尴尬一起改姓“敬”:总被起外号,自尊心受挫,担心女儿受影响,改了名字自信了

河南男子姓“苟”怕女儿尴尬一起改姓“敬”:总被起外号,自尊心受挫,担心女儿受影响,改了名字自信了

大风新闻
2026-01-28 16:36:36
“留学一年嘴都变大了”,女学生面相变化图走红,牢A果然权威

“留学一年嘴都变大了”,女学生面相变化图走红,牢A果然权威

离离言几许
2026-01-26 16:18:04
83岁卢海鹏开演唱会,上台颤颤巍巍要人扶,和小8岁陈百祥像父子

83岁卢海鹏开演唱会,上台颤颤巍巍要人扶,和小8岁陈百祥像父子

一娱三分地
2026-01-28 18:00:24
东北女生晒春运“出国回家”攻略:连飞俄罗斯两地再坐船回黑龙江,比直飞还便宜

东北女生晒春运“出国回家”攻略:连飞俄罗斯两地再坐船回黑龙江,比直飞还便宜

上游新闻
2026-01-28 15:55:21
火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

青烟小先生
2026-01-28 22:22:57
中国甩出“王炸”!5000万人直接改命!已进入最后倒计时

中国甩出“王炸”!5000万人直接改命!已进入最后倒计时

毛豆论道
2026-01-27 17:51:43
网传哈工大的大瓜:疑一学生刀了俩老师,因不满严苛考勤、工时压榨

网传哈工大的大瓜:疑一学生刀了俩老师,因不满严苛考勤、工时压榨

小星球探索
2026-01-28 23:59:08
2026-01-29 07:39:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1460文章数 157关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

俄方:可以邀请泽连斯基来莫斯科 保障他的安全

头条要闻

俄方:可以邀请泽连斯基来莫斯科 保障他的安全

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

手机
家居
旅游
房产
本地

手机要闻

苹果macOS版iWork停更,用户需下载Apple Creator Studio版

家居要闻

跃式别墅 包络石木为生

旅游要闻

“洋面孔” 成上海地铁风景线,美国志愿者为游客提供 “情绪价值”

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版