网易首页 > 网易号 > 正文 申请入驻

为AI配上"眼睛"和"大脑",让机器真正学会空间推理

0
分享至


这项由中科院信息工程研究所、中科院自动化研究所与百度公司合作的研究发表于2025年,论文编号为arXiv:2512.04563v2。这是一项让人工智能真正学会"看懂"3D世界的突破性研究,对于普通人来说意义重大。

你是否曾经好奇,为什么小孩子看一眼就能知道哪个玩具离自己更近,而号称"聪明"的AI却经常在这种简单问题上犯糊涂?这就好比一个人有一双明亮的眼睛,却没有一个会分析距离和空间关系的大脑。当前的多模态大语言模型就面临着这样的困境——它们能看到图片,也能理解语言,但在判断物体的远近、大小和空间位置关系时,表现得像个"路痴"。

研究团队发现了问题的根源:现有的AI模型就像一个只看过平面照片、从没接触过真实3D世界的人。它们虽然能识别图片中的物体是什么,但对于"哪个更近"、"多大距离"这样的空间问题,往往答非所问。更关键的是,以往的解决方案要么只是给AI配上更好的"眼镜"(提升视觉感知),要么只是训练它的"逻辑思维"(加强推理能力),但从来没有人想过让这两者真正配合起来工作。

于是,研究团队开发了COOPER(Cooperative Perception and Reasoning的缩写)——一个革命性的AI模型。这个名字很有意思,"cooper"本身就有"合作者"的含义,正体现了这项技术的核心理念:让AI的"眼睛"和"大脑"真正学会协作。

**一、给AI装上"3D眼镜":让机器看懂空间深度**

要理解COOPER的创新之处,我们得先明白传统AI的"视觉缺陷"在哪里。普通的AI模型看图片,就像我们看一张平面海报——能识别出上面画的是什么,但完全感受不到距离和深度。如果你拿一张拍摄客厅的照片问AI:"沙发和电视哪个离拍照的人更近?"AI可能会根据物体在图片中的大小来猜测,但这种猜测往往是错的。

COOPER的第一个突破是教会AI生成"深度图"和"分割图"。深度图就像给每个像素标注了到相机的距离,用颜色深浅来表示远近——就像热成像仪显示温度一样,暖色调表示近,冷色调表示远。分割图则是用不同颜色给图片中的每个物体"贴标签",让AI清楚地知道哪些像素属于哪个物体。

这个过程面临一个技术难题:AI原本只会生成普通的彩色图片,现在要让它学会生成这些"特殊图片"。研究团队想出了一个聪明的办法——把深度信息和分割信息都转换成RGB彩色图片的格式。具体来说,他们把深度值通过数学变换映射到RGB颜色空间,把分割的不同区域用不同的RGB颜色来表示。这样,AI就可以用原来生成图片的方法来生成这些辅助信息,不需要大幅改造原有架构。

为了训练这个能力,研究团队收集了大量室内外场景的数据。室内数据来自Hypersim合成数据集,室外数据来自Virtual KITTI数据集。他们让AI学会识别"我要生成深度图"和"我要生成分割图"这样的指令,就像训练一个摄影师学会切换相机的不同拍摄模式。

**二、让AI学会"边看边想":自适应推理的奥秘**

仅仅会生成辅助视觉信息还不够,关键是要让AI知道什么时候该"看",什么时候该"想",以及如何把看到的和想到的结合起来。这就像一个优秀的医生,面对病人时知道什么时候该看X光片,什么时候该凭经验判断,什么时候需要综合各种信息做出诊断。

COOPER的第二个突破是实现了"自适应交错推理"。简单来说,就是让AI学会在回答空间问题时,自主决定是否需要生成辅助视觉信息,以及如何在文字思考和视觉分析之间灵活切换。

这个过程分为两个训练阶段。第一阶段是"监督微调",研究团队用GPT-4o创建了大量示例,展示AI应该如何一步步分析空间问题。这些示例就像是给AI看的"标准答案",教它学会在遇到距离判断问题时生成深度图,在需要计算物体数量时生成分割图,在进行几何推理时主要依靠文字逻辑。

第二阶段是"强化学习",这个阶段更像是让AI在实战中磨练技能。研究团队设计了一个复合奖励机制,叫做CPR奖励(Cooperative Perception-Reasoning Reward)。这个奖励机制包含三个部分:答案正确性奖励、格式规范性奖励和探索引导奖励。探索引导奖励特别巧妙,它根据题目特点来判断是否应该使用视觉辅助——如果是那种用视觉辅助能明显提升准确率的题目,AI选择生成辅助图就会获得奖励;反之,如果是纯逻辑推理就能解决的题目,AI滥用视觉辅助反而会被"扣分"。

这种训练方式让COOPER学会了"因题制宜"。面对询问相对距离的问题,它会主动生成深度图来辅助判断;面对需要计算特定区域物体数量的问题,它会生成分割图来精确定位;面对纯几何逻辑问题,它则会专注于文字推理,不被视觉信息"干扰"。

**三、实验验证:COOPER的"视力体检"结果**

为了验证COOPER的能力,研究团队在多个测试基准上进行了全面的"体检"。这就像给一个声称视力极佳的人做各种视力测试,从看远看近到辨别颜色,全方位检验真实水平。

在空间理解测试中,COOPER在三个主要基准上都表现出色。SIBench是一个综合性的空间推理测试,包含近20个开源基准的23种视觉空间推理设置,COOPER在这里取得了平均6.91%的提升。Q-SpatialBench专门测试距离和大小估计能力,COOPER的表现甚至超过了一些38B参数的大型开源模型,接近GPT-4o的水平。MMVP测试涵盖九种不同的视觉模式和模式,COOPER同样表现优异。

更令人惊喜的是,COOPER在提升空间推理能力的同时,并没有损害其通用能力。在MMBench和MM-Vet这两个测试通用多模态能力的基准上,COOPER相比基础模型还有4.47%的平均提升。这说明专门的空间推理训练实际上还提升了AI的整体理解能力。

研究团队还做了一个有趣的对比实验。他们分别测试了只强化"眼睛"的版本(Perception Enhancement,简称BAGEL-PE)和只强化"大脑"的版本(Reasoning Enhancement,简称BAGEL-RE)。结果发现,单独强化感知能力虽然在空间任务上有提升,但通用能力有所下降;单独强化推理能力则相反。而COOPER通过协调两者,实现了双赢。

特别值得一提的是,即使是只学会生成辅助视觉信息、还没有进行推理训练的版本,在距离和大小估计任务上就已经有了7.92%的提升。这表明仅仅是学会"看懂"3D信息,就已经显著提升了AI的空间理解能力。

**四、COOPER如何"思考":推理过程全解析**

COOPER的推理过程就像一个经验丰富的侦探破案。面对一个空间问题,它首先会仔细分析题目,判断这是什么类型的问题。如果是距离判断类问题,它会生成深度图,然后结合原图和深度图进行分析;如果是需要计算物体数量的情境问答,它会生成分割图来精确识别和计数;如果是纯几何推理问题,它会主要依靠逻辑思维,不被视觉信息"误导"。

举个具体例子,当被问到"从穿4号球衣的球员角度看,他左边有几个队友?"时,COOPER的思考过程是这样的:首先分析这是一个情境问答问题,需要准确识别球员位置和相对关系,于是决定生成分割图。生成分割图后,它能清楚地看到每个球员的位置,然后从4号球员的视角出发,数出左边的队友数量,最终给出准确答案。

整个过程中,COOPER会用"..."标签来进行文字思考,用"..."或"..."标签来生成视觉辅助信息,用"..."标签来给出最终答案。这种交错式的推理过程让AI的思考变得透明可追踪。

**五、技术创新的深层意义**

COOPER的创新不仅仅在技术层面,更在于它改变了我们对AI能力建构的理解。传统观点认为感知和推理是相互独立的能力,可以分别优化。但COOPER证明了,真正的智能来自于感知和推理的深度融合与动态协作。

从技术角度看,COOPER解决了几个长期困扰研究者的问题。首先是统一架构下的多模态生成,它证明了同一个模型可以既生成自然图像,又生成结构化的视觉信息。其次是自适应能力调度,它展示了如何让AI根据任务需求自主选择使用哪些能力。最后是协作式推理,它开创了感知增强推理的新范式。

从应用前景看,COOPER的技术有望在多个领域产生重大影响。在自动驾驶中,车辆需要精确判断与其他车辆和行人的距离关系;在机器人导航中,机器人需要理解复杂环境中的空间布局;在增强现实应用中,系统需要准确理解真实场景的3D结构来放置虚拟物体。

**六、挑战与展望**

尽管COOPER取得了显著成果,但研究团队也坦诚地指出了当前的局限性。目前的实验主要集中在单图空间推理任务上,而真实世界的应用往往需要处理视频流和长时间序列的空间推理。此外,COOPER目前只使用了深度和分割两种辅助模态,未来可能需要整合更多类型的视觉信息,如3D点云数据等。

另一个技术挑战是推理效率。当前版本的COOPER在每次需要生成辅助视觉信息时,都要运行完整的图像生成流程,这在实时应用中可能成为瓶颈。研究团队正在探索如何在保持推理质量的同时提升计算效率。

从更大的视角来看,COOPER开启了"协作式AI"的新方向。未来的AI系统可能不再是单一功能的叠加,而是多种能力的有机融合。这种融合不仅发生在感知和推理之间,还可能扩展到记忆、规划、创造等更多认知能力之间。

这项研究的另一个深远意义在于,它为AI的解释性提供了新思路。通过可视化的推理过程,我们不仅能看到AI得出了什么结论,还能理解它是如何得出这个结论的。这对于AI系统在关键应用场景中的部署具有重要意义。

最终,COOPER代表了AI发展的一个重要里程碑——从单一能力的优化转向多能力的协同,从被动的信息处理转向主动的策略选择,从黑盒式的推理转向可解释的思考过程。这不仅让AI更加智能,也让AI的行为更加可信和可控。有兴趣深入了解这项研究的读者,可以通过论文编号arXiv:2512.04563v2查询完整论文内容。

Q&A

Q1:COOPER和其他AI视觉模型有什么本质区别?

A:COOPER的核心区别在于实现了感知和推理的真正协作。传统AI模型要么只是看得更清楚(感知增强),要么只是想得更深入(推理增强),而COOPER让AI学会了根据问题类型自主决定什么时候该"看"、看什么,以及如何把看到的和想到的结合起来得出答案。

Q2:COOPER生成的深度图和分割图准确度如何?

A:研究显示COOPER生成的辅助视觉信息质量很高。在深度估计方面,它在NYUv2数据集上的表现可媲美专门的深度估计模型Marigold。在分割方面,COOPER往往能生成比原始标注更精细的边界和更清晰的物体区分。

Q3:COOPER技术什么时候能在实际产品中应用?

A:COOPER目前还处于研究阶段,主要在学术基准上验证效果。要真正应用到产品中,还需要解决计算效率、长视频处理等工程问题。不过,这项技术的核心思想——让AI的不同能力协作工作——已经为未来AI产品的设计指明了方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“两万名海面上的‘活靶子’,随时可能被炸成灰烬”

“两万名海面上的‘活靶子’,随时可能被炸成灰烬”

中国新闻周刊
2026-04-26 07:26:10
曝网红猴哥说车新恋情!街头轻抚对方背部,颜值身材不输何钰欣

曝网红猴哥说车新恋情!街头轻抚对方背部,颜值身材不输何钰欣

裕丰娱间说
2026-04-27 08:19:30
大龄剩女可以破防到什么程度?发朋友圈且通知媒人,还向家人告状

大龄剩女可以破防到什么程度?发朋友圈且通知媒人,还向家人告状

丫头舫
2026-04-24 20:40:08
大胜!塔图姆30+11全队第一,布朗20+7恩比德26+10,勇士旧将拉胯

大胜!塔图姆30+11全队第一,布朗20+7恩比德26+10,勇士旧将拉胯

鱼崖大话篮球
2026-04-27 09:38:01
圆周率 π 在数学中的核心应用:海森堡不确定性原理与高斯分布背后的数学本质

圆周率 π 在数学中的核心应用:海森堡不确定性原理与高斯分布背后的数学本质

中科院物理所
2026-04-27 11:25:44
央视曝光儿童化妆品市场乱象:商户为降低成本获取高利润,用成人彩妆假冒儿童专用卖高价,产品实际备案的适用人群只是“普通人群”

央视曝光儿童化妆品市场乱象:商户为降低成本获取高利润,用成人彩妆假冒儿童专用卖高价,产品实际备案的适用人群只是“普通人群”

极目新闻
2026-04-26 21:06:58
成都火灾5死2伤后续:多位知情人曝真相,起火源头终被公开

成都火灾5死2伤后续:多位知情人曝真相,起火源头终被公开

小蜜情感说
2026-04-26 19:52:03
1951年,戴笠独子被处决的消息传到台湾,蒋介石给毛人凤下了一条命令

1951年,戴笠独子被处决的消息传到台湾,蒋介石给毛人凤下了一条命令

晓张说
2026-04-27 07:18:18
中超超巨失误!李昊黄油手,中超已丢50球,杜月徵半场压哨破门

中超超巨失误!李昊黄油手,中超已丢50球,杜月徵半场压哨破门

奥拜尔
2026-04-26 19:52:32
深夜拦截!英国战机乌克兰上空开火:露底了乌军雷达全程连通北约

深夜拦截!英国战机乌克兰上空开火:露底了乌军雷达全程连通北约

基斯默默
2026-04-27 10:09:06
英超独角戏!曼联遇上克星,多赢两场必进欧冠,老队长回来了

英超独角戏!曼联遇上克星,多赢两场必进欧冠,老队长回来了

嗨皮看球
2026-04-27 10:55:01
特朗普危险了?老对手欲重返白宫,对华遏制不变,中方反制已就位

特朗普危险了?老对手欲重返白宫,对华遏制不变,中方反制已就位

杰丝聊古今
2026-04-27 11:28:27
俄罗斯猛烈抨击哈里王子乌克兰之行:这就是那个穿纳粹制服的王子

俄罗斯猛烈抨击哈里王子乌克兰之行:这就是那个穿纳粹制服的王子

寻途
2026-04-27 09:17:05
港股芯片股,集体大涨

港股芯片股,集体大涨

第一财经资讯
2026-04-27 09:41:45
200亿美元?梁文锋这是在做慈善,还是在下一盘更大的棋?

200亿美元?梁文锋这是在做慈善,还是在下一盘更大的棋?

互联网放大镜
2026-04-26 19:17:54
洛卡特利:我去找莫德里奇道歉了,他说他的头很硬

洛卡特利:我去找莫德里奇道歉了,他说他的头很硬

懂球帝
2026-04-27 06:15:55
1939年国民党坑了一小学老师,导致潜伏延安的55名特务被一网打尽

1939年国民党坑了一小学老师,导致潜伏延安的55名特务被一网打尽

掠影后有感
2026-04-24 12:00:57
东方甄选“F4”出走,矛头直指新任管理层,俞敏洪力挺的新CEO,为何与老将难共存?

东方甄选“F4”出走,矛头直指新任管理层,俞敏洪力挺的新CEO,为何与老将难共存?

红星新闻
2026-04-26 19:39:59
28岁赵心童身家上亿,开豪车住别墅,禁赛期间仍与女友形影不离

28岁赵心童身家上亿,开豪车住别墅,禁赛期间仍与女友形影不离

白面书誏
2026-02-26 16:21:41
为什么我们的历史记载这么详细,甚至君臣密谈都能写的清清楚楚?

为什么我们的历史记载这么详细,甚至君臣密谈都能写的清清楚楚?

掠影后有感
2026-04-27 10:53:52
2026-04-27 12:15:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8145文章数 563关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

被问"枪击发生后为何万斯先撤离" 特朗普回应了

头条要闻

被问"枪击发生后为何万斯先撤离" 特朗普回应了

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

房产
健康
教育
数码
军事航空

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

干细胞如何让烧烫伤皮肤"再生"?

教育要闻

9月首招!川师附中新校区来了

数码要闻

2026国补指南!2026HyperX暗影精灵PRO 16锐龙版解读,重度用户速看

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版