阿里巴巴突破：图像编辑模型实现零样本深度估计|算法|向量|知名企业|阿里巴巴集团|深度思考模型

分享至

这项由北京交通大学的王继远、林春雨教授与阿里巴巴AMAP地图团队的孙磊等研究人员合作完成的创新研究于2025年9月发表，论文名为"From Editor to Dense Geometry Estimator"。研究团队还包括来自重庆邮电大学和南洋理工大学的合作者。有兴趣深入了解这项工作的读者可以通过arXiv:2509.04338v1获取完整论文。

想象你正在用手机拍照，拍下一张普通的风景照片。如果告诉你，仅凭这一张照片，计算机就能精确判断出照片中每个物体离你有多远，每个表面的角度和方向如何，你是否会感到惊讶？这正是"单目几何估计"这个听起来很专业的技术所要解决的问题。简单来说，就是让计算机像人眼一样，从一张平面照片中"看出"立体的深度信息。

在我们的日常生活中，这项技术的应用其实随处可见。当你使用手机的人像模式拍照时，手机需要知道哪些部分是背景、哪些是人物，这样才能产生漂亮的虚化效果。自动驾驶汽车需要准确判断前方障碍物的距离，才能安全行驶。增强现实游戏需要了解现实环境的几何结构，才能让虚拟物体看起来真实地"放置"在现实世界中。

传统的解决方案通常分为两个流派：一种是用海量数据训练的"数据派"，就像一个见多识广的老师傅，通过看过无数案例来判断；另一种是"生成派"，它们借用那些能画图的人工智能模型的能力，就像请一个艺术家来帮忙分析画面。然而，这两种方法都有各自的问题：数据派需要消耗巨大的计算资源和训练数据，而生成派虽然数据需求较小，但往往不够精确。

研究团队提出了一个颇具创新性的想法：既然深度估计本质上是一个"图像到图像"的转换任务——输入一张彩色照片，输出一张深度图——那为什么不直接使用那些专门做图像编辑的模型呢？这就好比，与其训练一个全新的翻译官，不如直接找一个已经很擅长语言转换的编辑来做这件事。

基于这个灵感，他们开发了名为FE2E的框架。这个名字的含义是"From Editor to Estimator"，即"从编辑器到估计器"。这个系统建立在当前最先进的图像编辑模型Step1X-Edit的基础上，就像是给一个已经很聪明的图像编辑助手安排了一个新的工作任务。

一、为什么图像编辑模型更适合做几何估计

要理解这项研究的核心创新，我们需要先了解图像编辑模型与传统生成模型的根本差异。可以用厨师的比喻来说明这个问题：传统的图像生成模型就像一个只会凭空创造菜谱的厨师，给他一份文字描述，他能从无到有地做出一道菜。而图像编辑模型则像一个改良菜谱的专家厨师，他需要先看到一道现有的菜，然后根据要求对这道菜进行精确的调整和改造。

研究团队进行了一项细致的对比实验，就像两个厨师同时学习制作同一道新菜。他们选择了Step1X-Edit作为编辑模型的代表，选择了FLUX作为生成模型的代表。这两个模型在架构上非常相似，就像两个有着相同基础技能的厨师，这样比较起来更加公平。

实验结果显示出编辑模型的三个显著优势。首先是起点优势：从训练的第一天开始，编辑模型就表现得更好。这就像一个有经验的改良菜谱专家，即使面对全新的菜系，也能凭借对食材和烹饪技法的深刻理解，很快上手。研究团队发现，在训练初期，编辑模型的内部特征就已经与输入图像的几何结构高度对齐，而生成模型的特征则显得杂乱无序。

其次是学习稳定性：编辑模型的训练过程更加稳定。在训练过程中，生成模型的性能经常出现波动，就像一个学徒厨师时好时坏的表现。而编辑模型则展现出稳定的改进趋势。这种稳定性源于编辑模型的学习方式——它更像是在"精调"已有的技能，而生成模型则需要从头重塑自己的能力结构。

最关键的是性能上限：即使经过长期训练，生成模型也始终无法达到编辑模型的性能水平。这就像两个厨师学习同样长的时间后，有改良经验的厨师总是能做出更精确、更符合要求的菜品。研究数据显示，编辑模型的训练损失最终能降低到0.073，而生成模型则卡在0.08左右，无法继续改进。

研究团队通过可视化分析进一步揭示了这种差异的根本原因。他们发现，编辑模型的特征演化过程更像是"聚焦和细化"——原本就比较清晰的特征变得更加精确和任务导向。而生成模型则经历了"重塑和再造"的过程——需要完全改变原有的混乱特征结构，这个过程不仅困难，而且容易不稳定。

二、解决编辑模型适配中的技术挑战

虽然编辑模型展现出了明显优势，但要让它们胜任几何估计任务，还需要解决几个关键的技术挑战。这就像要让一个擅长改良西餐的厨师去做中餐，虽然基础技能相通，但还需要一些专门的适配和调整。

第一个挑战是训练目标的重新设计。原本的图像编辑任务具有一定的灵活性——同一个编辑指令可能对应多种合理的结果，就像"把这道菜做得更香"可能有很多不同的实现方式。但几何估计任务要求绝对的精确性——每个像素点的深度值应该有且只有一个正确答案。

传统的Flow Matching训练方法会让模型学习一种"瞬时速度"，这种方法在推理时需要多步积分计算，每一步都可能引入误差。研究团队将这个过程比作开车导航：传统方法像是每隔几米就重新规划路线，而他们的新方法则是一开始就确定一条直线路径，然后严格按照这条路径行驶。

具体来说，他们提出了"一致速度"的概念。与其让模型在不同时刻学习不同的变化方向，不如让它学习一个固定的、从起点到终点的直接映射。这样做的好处是消除了多步推理过程中的累积误差，同时大大提高了推理速度。原本需要多次计算的过程现在只需要一步就能完成。

第二个挑战是数值精度问题。现代的图像编辑模型通常使用BFloat16精度进行训练，这对于生成RGB图像来说完全足够——毕竟人眼也看不出那么细微的颜色差异。但几何估计任务对数值精度的要求要高得多，特别是在处理距离信息时。

研究团队发现，如果直接使用传统的线性量化方法，在处理Virtual KITTI数据集时会出现严重问题。这个数据集包含0到80米的深度范围，如果简单地将这个范围线性映射到模型要求的[-1,1]区间，会导致在近距离处出现巨大误差。比如，0.1米和0.26米的距离在模型看来可能是相同的，这显然无法接受。

为了解决这个问题，他们采用了对数量化策略。这种方法的巧妙之处在于，它确保了相对误差在整个距离范围内保持基本恒定。就像相机的光圈设计一样，每一档光圈的变化都代表相同比例的光量变化，而不是相同的绝对光量变化。通过对数量化，无论是近处的小物体还是远处的建筑，模型都能保持相似的相对精度。

第三个挑战是如何充分利用模型的计算能力。研究团队注意到，基于Transformer架构的编辑模型具有全局注意力机制，这意味着模型在处理图像时能够同时关注所有区域的信息。这种特性为同时预测多种几何属性提供了可能性。

他们设计了一种巧妙的"免费联合估计"方案。原本的编辑模型在处理输入时会将条件图像和噪声图像水平拼接，处理后再分离输出。研究团队保留了这种设计，但将原本被丢弃的一部分输出重新利用起来，用于预测表面法向量。这样，一次前向传播就能同时得到深度信息和表面法向量，而且这两种信息可以相互增强和验证。

这种设计的美妙之处在于，深度和法向量本身就是相互关联的几何属性。深度描述了表面在空间中的位置，而法向量描述了表面的方向。当模型同时学习这两种属性时，它对场景几何结构的理解变得更加完整和准确。

三、实验验证与性能表现

为了验证FE2E框架的有效性，研究团队设计了一系列全面的实验。他们的训练数据相对有限，只使用了约71,000张图像，这相比于那些使用数千万张图像的数据驱动方法来说，简直是九牛一毛。训练数据主要来自两个合成数据集：Hypersim（一个逼真的室内场景数据集）和Virtual KITTI（一个模拟街景数据集）。

在深度估计任务上，FE2E展现出了令人印象深刻的性能。在最具挑战性的ETH3D数据集上，FE2E将绝对相对误差（AbsRel）降低到3.8，相比第二名的方法提升了35%。这个提升幅度在学术界是相当显著的，特别是在一个已经相对成熟的研究领域。

更令人惊喜的是，FE2E在KITTI数据集上也表现出色，AbsRel达到6.6，比之前最好的结果提升了约10%。KITTI数据集以其复杂的户外驾驶场景而著名，包含各种光照条件、天气状况和动态对象，是自动驾驶领域的重要基准。

在表面法向量估计任务上，FE2E同样表现优异。在NYUv2室内数据集上，它的平均角度误差降低到16.2度，在更具挑战性的ScanNet数据集上达到13.8度。这些数字看似抽象，但换算成实际应用场景就很直观了：法向量的精度直接影响3D重建的质量和增强现实应用的真实感。

特别值得注意的是FE2E与数据驱动方法的对比。著名的Depth Anything系列模型使用了超过6260万张训练图像，是FE2E训练数据量的约880倍。但FE2E依然在平均排名上超越了这些"数据巨兽"。这个结果清楚地表明，选择合适的基础模型和训练策略，往往比单纯增加数据量更加有效。

研究团队还进行了详细的消融研究，就像拆解一个复杂机器来了解每个零件的作用。他们发现，每个技术组件都对最终性能有重要贡献。编辑模型相比生成模型的优势是基础性的，一致速度训练目标带来了约7-10%的性能提升，对数量化策略解决了数值精度问题，而联合训练则进一步优化了结果质量。

在定性比较中，FE2E展现出的优势更加明显。与其他方法相比，FE2E在处理复杂光照条件时表现更加稳定。比如在极亮或极暗的环境中，其他方法往往会产生模糊或不准确的深度估计，而FE2E能够保持清晰的边界和准确的距离判断。在处理远距离细节时，FE2E也表现出更好的保真度，这对于实际应用来说非常重要。

四、技术创新的深层意义

FE2E的成功不仅仅是一个新算法的胜利，更代表了计算机视觉领域一种新思维方式的确立。传统上，研究者们倾向于为每个特定任务设计专门的模型，或者通过增加训练数据来提升性能。FE2E的成功表明，仔细分析任务特性并选择合适的基础模型，可能比这些传统方法更加有效。

从技术哲学的角度来看，FE2E体现了"巧用现有工具"胜过"重新发明轮子"的智慧。图像编辑模型经过大规模训练，已经学会了理解图像的空间结构和几何关系。与其从零开始训练一个新的深度估计模型，不如充分利用这些已经存在的能力，通过适当的适配来完成新任务。

这种思路对于资源有限的研究团队具有特别重要的意义。训练一个大型深度估计模型需要大量的计算资源和时间，而使用FE2E这样的方法，相对较小的研究团队也能获得世界级的性能。这有助于推动整个领域的民主化发展，让更多研究者能够参与到前沿研究中来。

从实用角度来看，FE2E的高效性也意味着更广泛的应用前景。传统的大规模模型虽然性能优异，但部署成本高昂，限制了它们的实际应用。FE2E相对较小的计算需求使其更适合在移动设备或边缘设备上运行，这为增强现实、智能手机摄影、无人机导航等应用提供了新的可能性。

联合训练策略的成功也启发了对多任务学习的新思考。深度和法向量虽然都是几何属性，但传统上往往被分别处理。FE2E证明了在合适的架构下，相关任务可以相互促进，达到"1+1>2"的效果。这个思路可能启发研究者在其他领域寻找类似的协同机会。

五、面临的挑战与未来发展

尽管FE2E展现出了优异的性能，但研究团队也诚实地指出了当前方法的一些局限性。最主要的限制是计算复杂度相对较高。虽然相比训练一个全新的大型模型来说，FE2E已经相当高效，但与一些轻量级的专用模型相比，它仍然需要更多的计算资源。

在实际测试中，FE2E的推理时间为1.78秒，相比最快的方法Lotus-D的212毫秒，还有显著差距。这种速度差异在某些实时应用中可能成为瓶颈，比如自动驾驶或实时增强现实等对响应速度要求极高的场景。

另一个挑战是基础模型的依赖性。FE2E的成功很大程度上依赖于Step1X-Edit这个高质量的基础编辑模型。随着图像编辑技术的快速发展，新的编辑模型不断涌现，如何将FE2E的核心思想迁移到其他编辑模型上，是一个需要进一步探索的问题。

训练数据的规模虽然相对较小，但研究团队也认识到，在某些对精度要求极高的应用场景中，适当增加训练数据仍然可能带来进一步的性能提升。如何在保持数据效率的同时进一步提升性能，是一个值得探索的方向。

展望未来，研究团队提出了几个有前景的发展方向。首先是模型多样化，他们计划将FE2E的核心思想应用到其他类型的编辑模型上，验证这种"从编辑器到估计器"范式的普适性。其次是任务扩展，除了深度和法向量估计，其他几何属性如语义分割、边缘检测等也可能受益于类似的方法。

技术优化方面，研究团队正在探索如何进一步提升推理速度，包括模型剪枝、知识蒸馏等技术。他们还在研究如何更好地利用模型的并行计算能力，为实时应用铺平道路。

应用拓展方面，FE2E的高精度几何估计能力为许多新兴应用提供了可能。在建筑和工程领域，它可能用于自动化的建筑测量和3D建模。在文物保护方面，它可以帮助创建精确的数字化文物模型。在电影制作中，它可能简化特效制作的前期准备工作。

说到底，FE2E代表的不仅仅是一个新算法，更是一种新的研究思维方式。它告诉我们，在人工智能快速发展的今天，有时候最大的创新不是发明全新的技术，而是以新的角度重新审视和组合现有的工具。通过深入理解不同模型的特性和优势，我们可能发现意想不到的应用潜力，就像FE2E将图像编辑模型的空间理解能力用于几何估计一样。

这项研究的成功也提醒我们，在追求更大、更复杂模型的同时，不要忽视智慧地利用现有资源的重要性。有时候，一个巧妙的想法胜过千万倍的数据和算力。对于那些希望在计算机视觉领域做出贡献但资源有限的研究者来说，FE2E提供了一个很好的示例：创新不一定需要无限的资源，而是需要深刻的洞察和巧妙的方法。

随着技术的不断发展，我们有理由相信，类似FE2E这样的创新思路将会催生更多令人兴奋的应用和突破，为人工智能在现实世界中的广泛应用开辟新的道路。

Q&A

Q1：FE2E是什么？它能做什么？

A：FE2E是由北京交通大学和阿里巴巴AMAP团队开发的新型深度估计框架，全称"From Editor to Estimator"。它能仅从一张普通照片就精确判断出照片中每个物体的距离和表面角度，就像给计算机装上了能"看出"立体深度的眼睛。这种技术可以用于手机人像拍照、自动驾驶汽车避障、增强现实游戏等各种日常应用场景。

Q2：FE2E和传统深度估计方法有什么不同？

A：最大的不同在于FE2E使用图像编辑模型作为基础，而不是从零开始训练或使用纯生成模型。这就像利用一个已经很会改良菜谱的厨师来学做新菜，比从零开始培养厨师要高效得多。实验显示，FE2E在ETH3D数据集上的性能提升了35%，而且只需要其他方法1%的训练数据。

Q3：普通用户什么时候能体验到FE2E技术？

A：虽然FE2E目前还是研究阶段的技术，但其背后的深度估计能力已经在很多产品中有所应用。预计随着技术进一步优化，特别是推理速度的提升，我们可能在未来1-2年内在智能手机的相机功能、AR滤镜应用、以及各种3D扫描APP中看到类似技术的普及应用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.