SIGGRAPH Asia 2025 | 城市场景几何-纹理耦合采集的无人机路径规划|视点|视图

分享至

本文深入研究城市场景几何-纹理耦合捕获问题，提出一种空中路径规划解决方案。具体而言，本课题致力于生成兼顾纹理和几何质量的视点，在最大程度降低视点冗余度的同时，全面提升建筑质量，实现城市环境中结构化几何与纹理的高精度重建，最终达成以低成本生成逼真城市场景的目标。

论文标题： Aerial Path Planning for Urban Geometry and Texture Co-Capture 论文链接： https://arxiv.org/abs/2509.22227 项目主页： https://vcc.tech/research/2025/DroneTex

一、引言

近年来，在获得足够场地信息的前提下，图像采集与场景重建技术已经可以依据场地数据构建高质量的孪生城市三维模型。然而，现有采集技术往往忽视纹理质量在模型真实感中起到的关键作用，导致纹理映射后的结构化模型常常具有明显的视觉问题。针对场地先验知识有限的情况，本研究首次提出城市场景几何-纹理耦合捕获问题。本文旨在使用无人机采集高质量场景图像，用以重建结构化几何与高保真纹理。

本文构建了一种面向带纹理结构化模型的数据采集重建框架，仅需要目标区域的二维建筑轮廓图及安全飞行高度作为输入。首先，本文构建了一个综合纹理质量评估体系，包含两项建筑立面指标，用以指导无人机视点的规划。然后，其提出一种无人机路径规划方法，通过生成垂直下探视点与三维平面视点耦合获取场景几何与纹理细节，进而采用多目标优化策略，在最大化纹理保真度、提升几何精度的同时降低航拍成本。此外，本文还开发了一种兼顾纹理一致性的序列化路径规划算法。本文构建了不同风格与复杂度的合成与真实城市数据集，在数据集上的实验结果表明，本文提出的方法可以有效采集用于重建高质量几何与纹理的航拍图像集，并以较低成本构建高保真的带纹理城市代理模型。

二、技术贡献 ‍

本工作主要贡献如下：

首次提出几何-纹理耦合捕获问题，并提出了一种新的复杂城市重建框架，在仅有场景二维底图和预定义的安全飞行高度数据的前提下，规划无人机图像采集路径用以重建高质量带纹理的三维结构化模型；
提出了一种纹理质量评估体系，用于预测依据所规划视点采集的图像作为立面纹理图时的质量。给定一张二维底图和一组二维视点，本文提出了一个用于量化所重建立面纹理质量的指标，以及一个用于评估每个视点对立面纹理质量贡献程度的指标；
提出了一种多目标视点规划算法，只捕获少量刚需照片，以较低成本构建高质量的代理模型和纹理图。

三、方法介绍

本文主要构建了一套用于高效耦合采集几何与纹理照片的无人机路径规划框架，旨在生成具有真实纹理的建筑场景。该框架以输入的二维轮廓图和无人机安全高度为基础，首先借助二维多边形生成面向立面纹理的下探视点，之后，在几何质量指标的引导下，生成面向建筑几何的倾斜视点。将这两种视点进行组合，进而生成适用于三维建筑场景的3D视点。通过算法生成3D视点后，进行如今规划得到无人机拍摄的路径。按照规划好的路径，无人机可采集到高质量的照片集。基于这些照片，便可开展三维重建工作，生成结构化模型，并为模型进行纹理贴图，最终呈现出具有真实纹理的建筑场景。

图1 整体框架图

总体框架

本文框架注重城市建筑的纹理与几何质量。通过引入新型度量与优化策略，以及多目标视图规划算法，能够生成高质量的纹理和几何模型。在纹理重建方面，能够生成高清、正对、视角一致且有利于结构保持的纹理图；在几何重建方面，能够精确还原场景几何结构，确保三维重建的完整性和准确性。

纹理质量评价

在下探点规划阶段，给定一组初始的2D视点，本文方法需要预测该组视点所合成纹理的质量。为此，本文定义了一个质量系统，用来衡量给定输入有限信息的结果纹理质量。

1. 透视质量：衡量观看平面的视点方向集的一致性，以及视点方向针对立面的正对性。为观测到平面的视点集。

其中， , 为视点集的数量, 为得平均视线方向，为的法向量。

2. 光度质量：度量纹理清晰度以及分辨率一致的质量项，帮助生成的纹理更加清晰真实，并帮助采集的图片分辨率趋于一致:

其中，为视点沿着视线方向到平面的距离。，和分别为拍摄距离的最大和最小距离，为视点拍摄的平均距离，。

3. 结构质量：如图2所示，为了测量立面结构的一致性，将每个视点观察到平面的唯一率来作为结构质量的度量，定义为：。本文希望各个视点可见区域之间的重叠程度较小。

图2 视点观测平面示意图

4. 完整度：质量系统使用视点集观测到平面长度区域的覆盖率：，衡量视点集对观测平面的完整度（如图2所示）。其中，为的长度，为只有视点能观测到的长度范围，为所有观测到的视点范围长度。按照上述质量系统，本文引入了两个指标来指导整个规划过程。为视点对平面纹理质量的贡献指标，计算方程为：

其中，，，，。是表示平面纹理质量的度量，计算方程为：

下探视点选择

在提出纹理质量评价系统后，本文在目标二维区域内生成一小组高质量的二维倾斜视图。然而，在二维空间中，适当确定少量视图及其位置和观察方向以最大化立面纹理质量仍然非常具有挑战性，尤其是在遮挡和不确定性普遍存在的复杂城市环境中。

图3 视点初始化与视点平面示意图

图4 视点方向与视点平面观测示意图

如图3(a)所示，先对2D视图初始化生成密集采样点；(b)图中根据建筑区域进行安全过滤，剔除建筑周边 “禁飞区”（以建筑轮廓膨胀安全距离得到），保留下探视点。

可见性分析：对每个候选点，计算其可观测的立面及区域（避免遮挡）。

方向与位置筛选：

方向：为每个立面选择 “接近法线方向” 的视图方向（最大化透视正面性）；
位置：通过迭代移除低质量点（基于视点 - 立面质量求和），直到移除会导致立面完整性下降，最终保留少量高覆盖、高贡献的2D下探点（如图4中间所示）。

视点-立面质量求和公式：

其中为视点，为视点观测到的平面集，为观测平面的方向。

3D视图生成-纵向采样

图5 3D视点采样示意图

垂直序列保证纹理连续性，将每个 2D 下探点沿垂直方向（从安全高度 H向下）生成视图序列，相邻视图间隔为：，其中：

为视点到建筑立面的距离，和分别是所使用的相机传感器焦距和高度，确保纹理重叠度与完整性。例如，单个下探点可生成覆盖整栋建筑立面的垂直视图序列（如图5所示），且所有视图保持一致的观测方向（保证透视一致性）。

下探视点的多目标优化

根据上述的纹理质量评价系统以及3D视点（后续叫做悬停点）采样规则，可以设计计算每个视点成本的方程，通过计算悬停点的总数来计算下探点的成本，然后使用高斯函数来定义每个下探点的合并程度，距离越近的两个悬停点，合并程度越高，会将其合并，因而成本就相对变低，所以下探点成本C的计算方程为：

其中，确保建筑立面的覆盖度，为高斯函数，，。为的纵向采样生成的悬停点总数。

与此同时，在场景重建与优化的任务中，本文目标面临着同时降低成本以及提升场景中立面质量的双重挑战。为应对这一复杂问题，本文将其转化为多目标优化问题进行求解。相较于直接移动单个3D视点，这种操作不仅容易导致纹理质量下降，而且在实际控制中存在较大难度。本文创新性地提出，先对2D视点进行调整，随后将其拓展至3D空间。在这个过程中，所有2D下探视点的位置和观察方向被设定为变量。对于能够观测到立面的情况，其致力于最小化以下目标函数向量：

其中，为2D下探视点与其方向，为当前2D视点在方向下可以观察到的平面集合。

3D平面视点

在完成面向纹理的下探视点生成与优化后，仅依靠这些下探视点，尚无法实现场景建筑几何结构的有效重建。因此，本文加入了生成一组3D视点这一步骤，这些视点为倾斜摄影视点，采用五镜头无人机拍摄，同时拍摄五个方向的照片，旨在进一步完成屋顶与地面纹理的重建，同时实现场景几何的精确还原，保证视点视线覆盖整个规划区域。

图6 平面3D视点优化前后对比示意图

下探视图虽能获取高质量立面纹理，但因视角单一无法满足几何重建的 “多视图差异” 需求，且未覆盖地面与屋顶。因此，本文设计平面视图的主要目标包括：

几何重建：提供多视角观测，保证密集几何精度；
纹理补充：获取地面与屋顶的高透视质量纹理。

其实现步骤如下：

初始化：将2D地图的密集采样点提升至安全高度 H，每个点生成5个视图（1个垂直向下拍地面/屋顶，4个倾斜拍建筑，如图6上所示）；

多目标优化：通过 “位置调整+冗余移除” 减少悬停点；

位置调整：搜索候选点周边区域，选择 “几何重建性+ 纹理质量(地面 / 屋顶)”与“悬停成本” 最优的位置；

冗余移除：迭代删除最冗余的视图（基于几何重建冗余度计算），直到移除会导致几何覆盖不足或重建精度下降。优化后，平面视图密度在建筑周边更高（保证几何精度），整体数量大幅减少（降低成本），如图6所示。

多目标优化公式为：

其中，为视点提供的可重建性质量，为地面屋顶纹理质量，为3D悬停点的个数。在经过上述多次迭代之后，得到一组下探视点以及一组平面3D视点。使得无人机采集的图像既能满足纹理重建，又满足几何重建，同时又考虑到成本最小化。

路径规划

在完成3D视点的生成与优化工作后，这些3D视点将作为无人机的拍摄位置。文章本节的最终任务是规划出一条连续的无人机的拍摄路线，把这些视点连接起来，以便耦合捕获目标场景的几何和纹理信息。本文将此空中路径规划问题，表述为一个标准的旅行商问题。假设有一个图，图中的节点代表各个视点，边则连接着每一对节点。TSP的目标就是在这样的图中，找到一条访问每个节点且代价最小的轨迹。

为了实现空中路径规划，本文把这些3D视点构建成一个全连通图，每个视点对应图中的一个节点，任意一对节点之间都有边相连。在此基础上，本文需要考虑碰撞检测，安全问题，在所有视点对之间，找出一条最短的安全路径。值得注意的是，如果两个相邻视图没有连续拍摄，拍摄时间内的环境照明很可能发生较大变化，进而导致照片出现光度不一致的问题，比如阴影、阳光颜色差异等。因此，考虑到两个视点之间的方向变化和拓扑关系，对于连接视点对的边定义的代价函数为：

其中，是视点（，）之间的邻接关系权重。当视点拍摄同一平面时，，当视点相邻平面时，，其他情况。是（，）之间的直线距离。是（，）之间视线方向夹角。

四、部分结果展示

本文在比较不同无人机路径规划方法所采集图片的定量对比，如下表所示，该方法与先前方法相比，在视图数量，悬停点数以及无人机路径轨迹长度这三项量化指标上本文方法在整体上有更优的表现，且在稠密模型和简化模型重建的误差与完整度，本文方法以更少的悬停点，更少的路径，得到误差更小，完整度更高的效果，如图7所示：

表1 不同无人机路径规划方法的定量比较

图7 不同方法重建的几何对比

下图聚焦建筑模型重建任务，对比了本文方法与已有方法在 “纹理质量” “稠密几何精度” “简化模型细节保留” 三个核心特征上的重建效果。为了更清晰地凸显差异，图中不仅对各特征的局部关键细节（比如纹理的清晰度、稠密几何的结构完整性、简化模型的细节还原度）进行了放大展示，还通过渲染图的color_map将重建误差直观可视化 —— 这种color_map能让误差大小一目了然，颜色差异越显著，就代表对应区域的重建误差越大。从整体对比结果来看，本文方法在这三个特征上的表现更为均衡且出色：既能保证纹理的真实感，又能提升稠密几何的还原精度，还能较好保留简化模型的核心细节，综合性能相对优于其他已有方法。

图8 各个阶段的渲染对比示意图

接下来，图9展示的是在本文在四个虚拟场景中不同方法的纹理贴图的对比，在第八行的前四列可以看到在SN-1这个场景中，本文方法纹理重建结果明显比另外两种方法视角正对，同时较为明显对比还有第三行的前四列中可以得到体现：

图9 虚拟场景结果示意图

完成虚拟场景实验后，本文进一步在多个真实场景中开展了数据采集与模型重建工作，并重点对比了不同方法的纹理重建效果。在定性对比上，图10第8行的纹理细节中，本文方法无论是纹理清晰度（如建筑表面纹路、装饰细节的还原度），还是视角正对性（视图与建筑表面的正面贴合程度），表现都优于OP、DS 两种方法；再看图11第三行的对比，本文方法在 “视角一致性”（不同区域的视图方向更统一）和视角正对性上的优势同样明显，能有效避免纹理出现视角偏移或扭曲。

定量对比结果则集中在表2中：针对四个真实场景的纹理质量，从SSIM（结构相似性，数值越高说明纹理与真实场景越接近）和LPIPS（感知误差，数值越低说明纹理视觉效果越自然）两个核心指标来看，本文方法对大部分纹理的重建效果都更具优势。更关键的是，在保证上述高质量重建效果的前提下，本文方法所需的视图采集数量更少，且采集路径长度也更短，这意味着它在实际场景应用中，能以更低的采集成本和更高的效率完成重建。

图10 真实场景结果示意图

图11 真实场景结果示意图

表2 四个真实场景的定量比较

五、总结与展望

该论文针对无人机城市重建中 “几何与纹理脱节” 的核心痛点，提出了一套从 “质量评估 - 视图规划 - 路径优化 - 场景重建” 的完整解决方案。其创新之处在于：以 “耦合捕获城市场景的几何与纹理信息” 为目标，通过精细化的视图设计与多目标优化，在有限先验条件下实现了 “高质量纹理 + 高精度几何 + 低飞行成本” 的三重平衡。实验表明，该方法在真实与合成场景中均显著优于主流方法，为大规模城市数字化、智能交通场景重建等应用提供了高效可行的技术路径。

六、思考与讨论

Q: 本文方法会不会有拍摄不全导致重建不完整的问题？

A: 尽管论文提出了完整的质量评价体系，但由于无人机采集图像时需要关注安全区域，所以在一些极端复杂的场景中可能会有拍摄不全的情况发生。

Q: 本文方法对地势不一致的场景规划视点是否有问题？

A: 本文在地势不平（例如，山丘）的特殊场景上面会出现此类问题，这是本文方法的一个局限性。

下图展示了本文方法在山丘场景中的视点规划结果：

1.无准确地形高度信息时：由于无法判断地形的实际高低（如哪些区域低、哪些区域高），为避免碰撞风险，本文方法只能在 “安全高度以上” 布置红色下探视点；

2.有充足地形高度信息时：通过地形高度的颜色编码（蓝色代表低海拔、红色代表高海拔），可精准判断安全区域，因此能在 “安全高度以下” 额外布置绿色下探视点。

图12 地势不平场景视点规划示意图

以下是开放性问题，欢迎读者朋友留言讨论：

Q: 在图12当中的问题中，你会想到哪些解决方案呢？

参考文献

[1] Victor Lempitsky and Denis Ivanov. Seamless mosaicing of image-based texture maps. CVPR. 1-6, 2007.

[2] Weidan Xiong, Hongqian Zhang, Botao Peng, Ziyu Hu, Yongli Wu, Jianwei Guo, and Hui Huang. TwinTex: Geometry-aware Texture Generation for Abstracted 3D Architectural Models. ACM TOG & SIGGRAPH Asia. 42(6), 227:1-227:14, 2023.

[3] Hao Fang and Florent Lafarge. Connect-and-Slice: An hybrid approach for re constructing 3D objects. CVPR. 13490-13498, 2020.

[4] Yanping Fu, Qingan Yan, Jie Liao, and Chunxia Xiao. Joint texture and geometry optimization for RGB-D reconstruction. CVPR. 5950-5959, 2020.

[5] Yanping Fu, Qingan Yan, Long Yang, Jie Liao, and Chunxia Xiao. Texture mapping for 3d reconstruction with RGB-D sensor. CVPR. 4645-4653, 2018.

[6] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. CVPR. 586-595, 2018.

[7] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. CVPR. 2881-2890, 2017.

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.