基于深度霍夫投票的建筑点云轻量级表面重建

doi:10.3785/j.issn.1008-973X.2026.02.012

基于深度霍夫投票的建筑点云轻量级表面重建

陈佳舟^,, 朱肖航, 徐阳辉, 高崟, 鲁一慧, 毛真, 李胜龙, 章超权

1. 浙江工业大学计算机科学与技术学院，浙江杭州 310023

2. 莫干山地信实验室，浙江德清 313200

3. 国家基础地理信息中心，北京 100830

4. 山东省国土测绘院，山东济南 250102

Lightweight surface reconstruction method for building point clouds based on deep Hough voting

CHEN Jiazhou^,, ZHU Xiaohang, XU Yanghui, GAO Yin, LU Yihui, MAO Zhen, LI Shenglong, ZHANG Chaoquan

1. College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China

2. Moganshan Geospatial Information Laboratory, Deqing 313200, China

3. National Geomatics Center of China, Beijing 100830, China

4. Shandong Provincial Institute of Land Surveying and Mapping, Jinan 250102, China

收稿日期: 2025-07-17

基金资助:

国家自然科学基金资助项目（62172367）；浙江省尖兵领雁计划研发攻关计划项目（2025C01073）.

Received: 2025-07-17

Fund supported:

国家自然科学基金资助项目（62172367）；浙江省尖兵领雁计划研发攻关计划项目（2025C01073）.

作者简介 About authors

陈佳舟（1984—），男，副教授，从事计算机图形学、人工智能研究.orcid.org/0000-0003-2780-6146.E-mail：cjz@zjut.edu.cn , E-mail：cjz@zjut.edu.cn

摘要

针对实景三维场景中建筑物结构缺失、数据冗余、噪声多等问题，提出新的建筑点云轻量级表面重建方法，进行建筑的多边形网格模型重建. 构建高效的建筑数据集生成框架，自动生成包含5 500个带标签的建筑模型数据. 针对建筑点云中平面提取困难的问题，使用深度霍夫投票预测建筑平面，采用基于面的非极大值抑制算法(F-NMS)有效去除预测的重复面以及错误面. 设计建筑平面相邻关系预测模块，对经过非极大值抑制后的建筑平面进行相邻关系的预测. 定量实验结果表明，与如PolyFit的传统方法相比，所提方法在拟合精度与场景适应性方面均具有显著优势. 使用所提方法重建的建筑多边形网格模型保留了输入建筑点云的主要结构特征，存储量不到原始点云的1%.

关键词： 三维点云 ; 建筑简化 ; 三维重建 ; 霍夫投票 ; 网格模型

Abstract

To address missing structures, data redundancy and noise in real-world 3D scenes, a lightweight surface reconstruction method for building point clouds was proposed that reconstructs polygonal mesh models. An efficient framework for building-dataset generation was proposed, automatically producing 5 500 labeled building models. To ease the plane extraction for building point clouds, the building planes were predicted using deep Hough voting, and a face-based non-maximal suppression algorithm (F-NMS) was used to efficiently remove the predicted duplicate and erroneous surfaces. A building plane adjacency prediction module was designed to predict the adjacency of the building planes after the F-NMS. Quantitative experimental results demonstrate that, compared to traditional methods such as PolyFit, the proposed approach exhibits significant advantages in both fitting accuracy and scene adaptability. The polygonal mesh models reconstructed by the proposed method retain the main structural features of the input building point clouds, with storage requirements reduced to less than 1% of the original point cloud data.

Keywords： 3D point cloud ; building simplification ; 3D reconstruction ; Hough voting ; mesh model

PDF (1954KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

陈佳舟, 朱肖航, 徐阳辉, 高崟, 鲁一慧, 毛真, 李胜龙, 章超权. 基于深度霍夫投票的建筑点云轻量级表面重建. 浙江大学学报(工学版)[J], 2026, 60(2): 341-350 doi:10.3785/j.issn.1008-973X.2026.02.012

CHEN Jiazhou, ZHU Xiaohang, XU Yanghui, GAO Yin, LU Yihui, MAO Zhen, LI Shenglong, ZHANG Chaoquan. Lightweight surface reconstruction method for building point clouds based on deep Hough voting. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(2): 341-350 doi:10.3785/j.issn.1008-973X.2026.02.012

三维建筑是实景三维城市场景中的重要组成部分. 借助无人机搭载的高分辨率相机或激光雷达传感器，利用三维重建技术能够高效地获得大规模的三维建筑模型，模型的表达模式通常为三维点云或三角网格^[1]. 三维建筑模型往往存在顶点数量多、噪声大、结构缺失等缺陷，给建筑模型的存储、传输、可视化与编辑等带来巨大挑战，也阻碍了模型在地理信息、智慧城市、低空经济等领域的应用^[2].

将三维建筑点云重建为稀疏而精确的多边形网格模型能够有效解决上述问题. 多边形网格模型能够紧凑表达物体的表面特征，减少数据存储量，间接提高数据处理和传输的效率. 由于点云数据本身具有无序性和缺乏内在结构的特点，直接从点云中重建结构化、层次化的多边形网格模型难度大，本研究以三维建筑点云为对象，将其重建为轻量级的多边形网格模型. 现有的三维建筑表面重建方法分为2个大类. 1）依据建筑的平面信息重建出网格模型，侧重于利用建筑物的平面布局特征，依赖于建筑平面检测的准确性. 现有的建筑点云平面检测方法主要有RANSAC^[3]以及区域增长法^[4]. RANSAC针对不同的建筑点云手动调节参数，迭代计算的开销较大. 区域增长法依赖于种子点的选择，不合适的种子点可能导致不完整或者错误的区域扩展；该方法对噪声和离群点也比较敏感，容易陷入局部最优解，导致一些重要表面特征丢失. 2）通过识别建筑的边缘或顶点来实现模型的简化，侧重于捕捉建筑物的轮廓和结构特征，但是从建筑点云中直接预测边缘和顶点比较困难.

针对平面预测困难的问题，本研究借鉴深度霍夫投票的3D目标检测算法的思路，通过数据驱动构建建筑点云中的平面预测深度学习模型. 先由PointNet++^[5]网络输出投票点及投票点的特征；再通过投票网络使投票点偏移到平面中心点位置附近；之后进行投票点聚类，使用聚类结果预测建筑平面的参数. 其中平面的预测参数是面的中心点、法线以及置信度. 在本研究中，建筑平面（面）指的是每个平面点云的最小包围框；为了有效去除初始预测平面中存在的众多冗余面，提出基于平面的非极大值抑制算法（face-based non-maximal suppression algorithm，F-NMS）；在网络模型中设计针对建筑平面的相邻关系预测模块，自动构建建筑平面的拓扑关系图；设计建筑轻量级重建的模块，在平面及其相邻关系的基础上进一步提取建筑多边形平面的顶点和边缘，构建准确和紧致的多边形网格模型. 现有的建筑点云数据集主要有Building3D^[6]、UrbanBIS^[7]，这些数据集都没有平面预测所需的标签，为此本研究设计算法，自动将LoD2^[8]的建筑三角网格数据转换为带建筑平面标签的建筑点云数据.

1. 相关工作

1.1. 基于平面的三维建筑表面重建

依据建筑平面信息构建建筑简化模型的常规步骤：1）通过传统算法（如RANSAC、区域增长法）检测得到建筑平面，2）根据平面将模型切割成小块的平面或多边体，3）从这些切割形体中选出合适的子集来构建简化的建筑模型. Nan等^[9]提出PolyFit系统，通过改进的RANSAC提取平面，让提取的平面进行相互切割，形成多个小块的平面，再将问题转化为二值标记问题，从切割出来的大量小块平面中选出合适的候选平面集合，然后将候选平面集合拟合成简化结果. Bouzas等^[10]通过识别建筑平面之间的相邻关系重建出简化模型. Huang等^[11]使用建筑高程图提取建筑轮廓并生成垂直平面，再结合传统算法（如RANSAC）提取的平面重建出简化模型. Bauchet等^[12]提出利用机载LiDAR扫描数据将城市环境中的建筑物重建为简洁多边形网格的方法，使用平面将空间分割成多个多面体，随后基于投票方案和能量函数对多面体进行标注的方法得到建筑物的内外表面，从而得到建筑物的多边形网格. Chen等^[13]使用深度神经网络学习隐式场来选出合适的多面体子集，进而重建出简化模型. Chen等^[14]引入图神经网络来选择多面体子集，重建出建筑的简化模型. He等^[15]提出WindPoly，通过多边形平面检测、自适应分区和环绕数优化，实现无需法向量、高效且几何一致的低多边形网格重建. 上述方法易受噪声干扰，且须手动调节参数，本研究通过深度霍夫投票来预测建筑平面，无需手动调节参数.

1.2. 基于点或线的三维建筑表面重建

相对于平面检测，使用传统方法进行建筑的顶点和边缘检测更易受到噪声干扰，深度学习检测因此备受青睐. 如PBWR系统^[16]，为端到端的建筑屋顶线框预测深度神经网络模型，它先初始化一定数量的线条，随后让网络使用这些线条去拟合点云模型，最终得到建筑屋顶的线框模型. Point2Roof^[17]由深度学习方法从建筑屋顶点云数据中预测建筑角点，再预测角点之间的连接关系，最终得到屋顶的线框模型. 上述方法仅对建筑屋顶进行线框模型重建，面对复杂屋顶时重建结果与真实情况偏差较大，且难以直接应用于整个建筑，特别是在建筑底部存在着部分缺失的情况下. 本研究不直接预测顶点或边缘，而是先预测平面及其相邻关系，再通过平面的求交来获得建筑顶点和边缘，以构建出更准确的建筑多边形模型.

1.3. 基于深度霍夫投票的三维目标检测技术

霍夫投票是计算机视觉领域中经典的形状检测算法. 算法原理是将每个像素点在参数空间中投影，然后在参数空间中寻找出现次数超过阈值的点，这些点对应的参数即为所要检测的几何形状参数^[18-20]. Qi等^[21]借鉴广义霍夫投票过程，提出用于三维目标检测的深度学习方法，赋予点云深度网络投票机制，通过投票生成靠近对象中心的新点，解决点云稀疏导致难以聚合对象中心附近场景上下文的问题. 网络端到端可优化，相比经典霍夫投票多个独立模块难以联合优化的情况^[22]，具有明显优势. 本研究借鉴深度霍夫投票思想，提出针对建筑平面检测的深度霍夫投票网络，解决现有建筑平面检测方法中参数须指定和鲁棒性不足的问题.

2. 算法概述

以建筑的三维点云作为输入，本研究提出端到端的神经网络模型，将这些点云重建为轻量级的建筑多边形网格模型. 如图1所示，网络模型分为平面及相邻关系预测模块和建筑表面重建模块. 在平面及相邻关系预测模块中，基于深度霍夫投票的方法实现投票点的聚类，根据投票结果预测出平面，使用基于面的非极大值抑制算法去除冗余面，对建筑平面进行相邻关系的预测. 在建筑表面重建模块中，利用预测出的平面及相邻关系，由平面求交提取建筑顶点的方式得到建筑顶点，通过检查2个顶点之间是否存在2个相同的建筑平面来提取建筑的边，最后构建多边形网格模型.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 多边形网格重建的算法流程

Fig.1 Workflow for polygon mesh reconstruction

3. 平面及相邻关系预测

3.1. 平面预测

将三维目标检测中基于深度霍夫投票的方法用于建筑点云平面的检测中，让投票点自行偏移至所属平面的中心点附近，实现点云的聚类，根据聚类的结果预测出建筑平面. 平面预测模块的网络结构如图2所示，其中N为输入点云数目，SA1~SA4为自注意力模块，FP1~FP3为前向传播模块，C为投票点特征维度. 主干网络基于PointNet++网络模型设计，结合基于向量的自注意力模块^[23]辅助PointNet++更好地捕捉点云全局的上下文关系. 设主干网络输出的投票点集$ P=\{{\boldsymbol{p}}_{1},{\boldsymbol{p}}_{2}, \cdots ,{\boldsymbol{p}}_{N_{\mathrm{v}}}\} $，其中$ N_{\mathrm{v}} $为投票点的数量，$ {\boldsymbol{p}}_{i}\in {\mathbf{R}}^{D} $为通过PointNet++提取的投票点的特征向量. 霍夫投票过程为

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 基于深度霍夫投票的平面预测网络结构图

Fig.2 Structure of planar prediction network based on deep Hough voting

(1)$ \{{P}^{'}\text{,}\;\Delta x\}=\mathrm{M}\mathrm{L}\mathrm{P}\left(P\right) . $

其中多层感知机（multi-layer perceptron，MLP）网络用于生成投票后的特征$ {P}^{'} $和相对建筑平面中心点的偏移量$ \Delta x $.

聚合建筑点云平面特征的步骤如下. 1）使用最远点采样^[24]在投票点中采样64个中心点，记为$ {K}_{i}，i=1,2,\cdots ,64 $. 2）对$ {K}_{i} $进行聚类：以0.1为半径进行球查询，获取距离最近的16个投票点；若不足16个点，则复制最近点进行补全，记为$ K\times 16\times \left(3+{C}\right) $. 3）使用MLP以及最大池化的方法聚合投票点的特征，得到建筑点云平面特征$ K\times {C}_{\mathrm{f}} $，其中$ {C}_{\mathrm{f}} $为聚合后平面的特征维度. 建筑点云中平面的数量未知，因此假设建筑点云中存在64个建筑平面，使用最远点采样的方法采样64个中心点，原因是绝大部分建筑的LoD2级别模型的平面数量都不超过64个.

完成建筑点云平面的特征聚合后，进行建筑平面预测. 本研究使用3个独立的MLP网络分别进行平面的中心点、法线以及置信度预测. 这种设计能够有效解耦平面不同属性的预测任务，提高模型的灵活性以及预测精度.

3.2. 平面非极大值抑制

预测面的数量大于建筑点云中实际存在的平面数量，须去除冗余平面. 由于与实际平面对应的多个预测平面非常接近，本研究借鉴目标检测中的非极大值抑制算法，提出F-NMS，并使用该算法去除预测面中的冗余面. 进行基于面的非极大值抑制须计算面的相似度，本研究从建筑点云平面的中心点以及法线来计算2个平面的相似度:

(2)$ \mathrm{S}\mathrm{i}\mathrm{m}={\alpha }\times {\mathrm{S}\mathrm{i}\mathrm{m}}_{\mathrm{n}\mathrm{o}\mathrm{r}}+(1-{\alpha })\times {\mathrm{S}\mathrm{i}\mathrm{m}}_{\mathrm{c}\mathrm{e}\mathrm{n}} . $

式中：$ {\alpha } $为2个相似度的混合参数，取$ {\alpha } $=0.5；$ {\mathrm{S}\mathrm{i}\mathrm{m}}_{\mathrm{n}\mathrm{o}\mathrm{r}} $为2个建筑平面的法线相似度，

(3)$ {\mathrm{S}\mathrm{i}\mathrm{m}}_{\mathrm{n}\mathrm{o}\mathrm{r}}=\frac{1}{1-3\times {\ln}\left(1-\left|{\mathrm{c}\mathrm{o}\mathrm{s}}_{\mathrm{s}\mathrm{i}\mathrm{m}}\right|\right)}. $

其中$ {\mathrm{c}\mathrm{o}\mathrm{s}}_{\mathrm{s}\mathrm{i}\mathrm{m}} $为2个法线的余弦相似度. 建筑点云平面中心点的相似度计算方法：计算2个中心点的垂直距离$ d $，并进行归一化处理，$ d=d/{d}_{\mathrm{m}\mathrm{a}\mathrm{x}} $，其中$ {d}_{\mathrm{m}\mathrm{a}\mathrm{x}} $为该点云最小包围盒的对角线长度；使用归一化的垂直距离进行相似度的计算，平面中心点的相似度计算式为

(4)$ {\mathrm{S}\mathrm{i}\mathrm{m}}_{\mathrm{c}\mathrm{e}\mathrm{n}}=\frac{1}{1-10\times {\ln}\left(1-d\right)}. $

预测面中的冗余面主要包括，在真实面的附近生成多个重复的预测面，由错误的投票结果生成的错误面. 如图3所示，假设提出的基于面的非极大值抑制算法的输入为预测面集合$ {F}_{\mathrm{p}\mathrm{r}\mathrm{e}} $，非极大值抑制后的输出面集为$ {F}_{\mathrm{n}\mathrm{m}\mathrm{s}} $，初始时为空，基于面的非极大值抑制算法步骤见算法1.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 平面非极大值抑制算法的输入输出

Fig.3 Input and output of face-based non-maximal suppression algorithm

算法1　基于平面的非极大值抑制算法

输入：预测面集合$ {F}_{\mathrm{p}\mathrm{r}\mathrm{e}} $.

输出：输出面集为$ {F}_{\mathrm{n}\mathrm{m}\mathrm{s}} $.

1. 将$ {F}_{\mathrm{p}\mathrm{r}\mathrm{e}} $按置信度大小降序排列，去除置信度小于0.9的预测面，得到粗过滤的预测面集合$ {F}_{k} $，若$ {F}_{k} $为空，则结束算法.

2. 从$ {F}_{k} $中取出置信度最高的建筑平面$ {f}_{i} $加入集合$ {F}_{\mathrm{n}\mathrm{m}\mathrm{s}} $中，并将$ {f}_{i} $从$ {F}_{k} $中移除，若$ {F}_{k} $为空，则结束算法.

3. 计算$ {f}_{i} $和$ {F}_{k} $中剩余预测面的相似度，将相似度高于0.9的面从$ {F}_{k} $中去除.

4. 若$ {F}_{k} $不为空，则转步骤2，否则结束算法.

3.3. 平面相邻关系预测

受到Hu等^[25]提出的通道注意力机制——压缩-激励（squeeze-and-excitation，SE）模块启发，本研究设计配对面注意力模块（paired face attention module，PFA）来辅助融合2个建筑点云平面的特征，通过动态权重机制增强关键特征，抑制无关信息的干扰. 传统特征拼接方法仅能实现特征的简单组合，无法区分不同通道特征的重要性（如位置坐标、法线向量、置信度等）. PFA能够显著提升模型对复杂拓扑结构的表达能力，它不采用固定融合策略，会针对每对平面特征自适应生成权重矩阵. 在生成的权重矩阵中关键特征的权重较大，不相关特征会被分配较小的权重，使得模型更加关注关键特征并且抑制不相关特征.

如图4所示，2个面特征$ {F}_{i}、{F}_{j} $相加，将初始融合特征分别输入2个独立的SE模块，各自输出的权重矩阵$ \boldsymbol{W} $与原先面的特征逐元素相乘，使用最大池化得到面对的融合特征. 建筑平面相邻关系预测的具体过程：将$ {F}_{\mathrm{n}\mathrm{m}\mathrm{s}} $中的建筑点云平面两两配对，每个建筑点云平面对通过PFA得到邻接特征. 将邻接特征与点云的全局特征进行拼接，通过MLP网络输出2个平面邻接的概率，将邻接概率值大于0.5的面对设置为相邻面对.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 配对面注意力模块

Fig.4 Paired face attention module

3.4. 损失函数

为了让在建筑点云平面中面积较小的平面上的投票点也能够投票到正确的建筑点云平面中心点位置，根据建筑点云平面的面积大小为投票点分配不同的权重. 投票点权重计算式为

(5)$ {W}_{i}=\frac{{N}_{\mathrm{v}}}{{N}_{\mathrm{f}}\times {N}_{i}} . $

式中：$ {W}_{i} $为第$ i $个投票点的权重，$ {N}_{\mathrm{v}} $为投票点的总数量，$ {N}_{\mathrm{f}} $为实际建筑点云平面的数量，$ {N}_{i} $为第$ i $个投票点所属建筑点云平面上投票点的数量. 建筑点云平面的面积越大，该平面上的投票点权重越小；反之，则投票点的权重越大.

平面及相邻关系预测网络的总损失计算式为

(6)$ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}={\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{v}}+{\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{f}}+{\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{n}\mathrm{r}} ; $

(7)$ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}_{\mathrm{v}}=\frac{1}{N_{\mathrm{v}}}\sum_i^{ }\left(\Delta x_i-\Delta x_i^{'}\right)^2\times W_i, $

(8)$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{f}}=\frac{{\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{c}\mathrm{e}\mathrm{n}}+{\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{n}\mathrm{o}\mathrm{r}}+{\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{c}\mathrm{o}\mathrm{n}}}{3}. $

(9)$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{c}\mathrm{e}\mathrm{n}}=\mathrm{M}\mathrm{S}\mathrm{E}\left({p}_{\mathrm{c}\mathrm{e}\mathrm{n}}\text{, }{g}_{\mathrm{c}\mathrm{e}\mathrm{n}}\right),$

(10)$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{c}\mathrm{o}\mathrm{n}}=\mathrm{B}\mathrm{C}\mathrm{E}\left({p}_{\mathrm{c}\mathrm{o}\mathrm{n}}\text{, }{g}_{\mathrm{c}\mathrm{o}\mathrm{n}}\right) . $

式中：$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{v}} $为投票损失，$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{f}} $为建筑平面预测损失，$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{n}\mathrm{r}} $为相邻关系预测损失，$ \Delta {x}_{i} $为第$ i $个投票点的偏移量，$ \Delta {x}_{i}^{{'}} $为实际中第$ i $个投票点到其平面所在中心点的偏移量，$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{c}\mathrm{e}\mathrm{n}} $为预测平面中心点的损失，$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{n}\mathrm{o}\mathrm{r}} $为预测平面法向量的损失，$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{c}\mathrm{o}\mathrm{n}} $为平面置信度预测损失，$ \mathrm{M}\mathrm{S}\mathrm{E} $为均方误差，$ {p}_{\mathrm{c}\mathrm{e}\mathrm{n}} $、$ {g}_{\mathrm{c}\mathrm{e}\mathrm{n}} $分别为预测中心点集合以及对应真值中的中心点标签. 平面法线的预测损失也使用均方误差计算. 须注意，$ {g}_{\mathrm{c}\mathrm{o}\mathrm{n}} $通过计算预测面和对应的真实面之间的相似度得到，$ \mathrm{B}\mathrm{C}\mathrm{E} $为二元交叉熵损失计算函数. 为每个预测面找到对应真值的方法：每个预测面都对应1个投票点的聚类结果，该预测面对应的真值是从该聚类结果里选取属于同一平面分组中投票点数量最多的那个平面. 定义$ {p}_{\mathrm{n}\mathrm{r}} $、$ {g}_{\mathrm{n}\mathrm{r}} $分别为面对相邻关系的预测值和真实值，平面相邻关系预测模块损失的计算式为

(11)$ {\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{n}\mathrm{r}}=\mathrm{B}\mathrm{C}\mathrm{E}\left({p}_{\mathrm{n}\mathrm{r}}\text{, }{g}_{\mathrm{n}\mathrm{r}}\right) . $

4. 建筑表面重建

假设预测出的平面及相邻关系集合$ \mathrm{F}\mathrm{a}\mathrm{c}\mathrm{e}={\{\mathrm{f}\mathrm{a}\mathrm{c}\mathrm{e}}_{1}, {\mathrm{f}\mathrm{a}\mathrm{c}\mathrm{e}}_{2}, \cdots , {\mathrm{f}\mathrm{a}\mathrm{c}\mathrm{e}}_{N_{\mathrm{f}}}\} $，其中$ N_{\mathrm{f}}$为基于面的非极大值抑制后保留的面的数量. 令$ \mathrm{F}\mathrm{a}\mathrm{c}{\mathrm{e}}_{\mathrm{p}\mathrm{r}}=\left({\mathrm{f}\mathrm{a}\mathrm{c}\mathrm{e}}_{i}, {\mathrm{f}\mathrm{a}\mathrm{c}\mathrm{e}}_{j}\right); i, j\in {N_{\mathrm{f}}} $，$ \mathrm{F}\mathrm{a}\mathrm{c}{\mathrm{e}}_{\mathrm{p}\mathrm{r}} $保存的是相邻面对在$ \mathrm{F}\mathrm{a}\mathrm{c}\mathrm{e} $中的序号，$ i < j $. 在得到建筑平面及其相邻关系后，进一步得到建筑的顶点和边缘，最后重建出三维建筑的多边形网格模型.

4.1. 建筑顶点提取与优化

检测相邻关系中所有的三元组，对三元组对应的平面求平面之间的交点，得到建筑的顶点. 三元组是指两两相邻的3个建筑点云平面. 建筑顶点集合$ V=\{{{\boldsymbol{v}}}_{1},{{\boldsymbol{v}}}_{2},\cdots ,{{\boldsymbol{v}}}_{m}\} $，其中$ m $为生成的建筑顶点的数量，$ {{\boldsymbol{v}}}_{i}\in {\mathbf{R}}^{3} $为每个建筑顶点的坐标. 通过循环遍历判断三元组到建筑的所有顶点，但有2个问题待优化. 1）可能产生部分实际中不存在的建筑顶点：进一步计算$ V $中顶点和原始点云数据中点云的最近距离，若距离大于1 m，则将该顶点从顶点集合中删除. 2）可能产生部分重复的顶点：通过合并距离不超过0.5 m的建筑顶点来去除重复的建筑顶点，同时将得到这些建筑顶点的三元组进行合并.

4.2. 建筑边缘提取

由几何结构知识可知，若2个建筑的顶点能够构成边，则这2个建筑顶点附近必定存在2个相同的建筑平面，可以通过直接判断2个建筑顶点对应的三元组是否存在2个及以上的共面来确定2个建筑顶点是否构成边. 设优化后的建筑顶点集合为$ {V}^{{'}}=\{{{\boldsymbol{v}}}_{1}^{{'}},{{\boldsymbol{v}}}_{2}^{{'}},\cdots ,{{\boldsymbol{v}}}_{{m}^{'}}^{{'}}\} $，将优化后的建筑顶点三元组集合设为$ {\mathrm{F}\mathrm{a}\mathrm{c}\mathrm{e}}_{{\mathrm{t}\mathrm{r}\mathrm{i}}^{{'}}}=\{{T}_{1}^{{'}},{T}_{2}^{{'}},\cdots ,{T}_{{m}^{{'}}}^{{'}}\} $. 边缘的提取过程的表达式为

(12)$ E=\left\{\left({{\boldsymbol{v}}}_{i}^{'}\text{，}{{\boldsymbol{v}}}_{j}^{'}\right)|{{\boldsymbol{v}}}_{i}^{'}\text{，}{{\boldsymbol{v}}}_{j}^{'}\in {V}^{'}\text{，}\left|{T}_{i}^{'}\cap {T}_{j}^{'}\right|\geqslant 2\right\}. $

式中：$ \left|{T}_{i}^{'}\cap {T}_{j}^{'}\right| $为2个三元组之间存在2个及以上的共面，$ \left({{\boldsymbol{v}}}_{{i}}^{'},{{\boldsymbol{v}}}_{{j}}^{'}\right) $为构成的边. 建筑的线框模型转换过程如图5所示.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 基于平面及相邻关系的建筑线框模型转换过程

Fig.5 Transformation process of building wireframe model based on plane and adjacency relationship

4.3. 构建多边形网格模型

以单个多边形网格面的提取为例，具体描述提取过程. 取预测面中的面$ f $，设该平面上的顶点集合记为$ {V}_{f} $. 遍历所有的建筑顶点$ {{\boldsymbol{v}}}_{i}^{'}\in {V}^{'} $，检查对应的三元组$ {T}_{j}^{'} $是否包含目标平面$ f $；若$ f\in {T}_{j}^{'} $，则将$ {{\boldsymbol{v}}}_{i}^{'} $加入该平面的顶点集合$ {V}_{f} $中. 遍历边集合$ E $，若边$ \left({{\boldsymbol{v}}}_{i}^{'},{{\boldsymbol{v}}}_{j}^{'}\right) $中的2个顶点都属于$ {V}_{f} $，则将该边加入该平面的边集合$ {E}_{f} $中. 将$ {V}_{f} $以及$ {E}_{f} $构建为图$ {G}_{f}=\left({V}_{f},{E}_{f}\right) $，使用深度优先搜索的方法搜索最大回路，最大回路即为该平面的多边形网格面. 对所有预测面都执行上述操作即可得到建筑点云的多边形网格模型，结果如图6所示. 为了充分节约存储空间，采用多边形网格表示建筑模型，原因是建筑平面多为复杂的多边形，极少为三角形.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 建筑多边形网格模型

Fig.6 Polygonal mesh model of building

5. 实验与评估

5.1. 实验环境

所有实验均由自适应矩估计（adaptive moment estimation，Adam）优化，设置基本的学习率为10×10⁻³，权重衰减为10×10⁻⁵，批大小为64. 使用Pytorch（版本为1.13.1）进行模型搭建，使用NVIDIA RTX A6000 GPUs进行模型训练，在第200个迭代轮次达到最佳性能且损失趋于稳定，总的训练时长约为32 h.

5.2. 数据集准备

数据集源于爱沙尼亚3D空间数据站的LoD2+级建筑三角网格数据^[26]. 为了生成带多种标签的建筑点云数据，设计数据处理原型系统，对原始数据进行如下4个步骤的自动化处理. 1）点云采样：对原始数据进行归一化处理，对每个三角网格执行基于重心坐标的点云采样操作，将所有三角网格的采样结果合并，得到整个建筑的采样点云；2）点云聚类：根据三角面片的法线以及三角面片之间的垂直距离粗略筛选出在同一建筑平面上的三角面片. 通过对比三角面片之间是否存在共点进一步筛选出属于同一建筑平面的三角面片. 该三角面片对应的采样点云即为属于同一平面上的点云；3）相邻关系计算：若2个建筑平面相邻，则对应的2个三角面片集合中必定存在共点，通过判断2个建筑平面对应的三角面片集合是否存在共点得到相邻关系；4）最小包围框计算：提取建筑平面对应的三角面片集合中的所有边并去除重复的边，得到该建筑平面的外边；对外边使用轴对齐包围盒（axis aligned bounding box，AABB）算法^[27]生成建筑平面的最小包围框.

本研究的数据集处理算法适用于大部分基于三角网格的LoD2级建筑数据，数据之间的差异性使得算法中设置的参数不适用所有数据. 为此对生成的每个数据都进行人工检测，手动调整不合格数据的各个参数值，以保证标签的正确性. 若调整后效果仍不理想，则将这个数据丢弃. 自动化处理和手动检查共收集5 500个建筑数据，包含各种类型的建筑样式，每个建筑都带有丰富的语义标签，主要包括以下3种：1）每个点按照所属平面的类别进行标记的标签，2）建筑点云每个平面的最小包围框标签，3）建筑平面之间的相邻关系数据标签. 将建筑数据分成2组，其中5000个数据用于模型的训练，500个数据用于性能评估. 真实环境下采集的点云包含较大噪声，为了提升模型的抗噪能力，为这5000个训练数据都添加标准差为0.01的高斯噪声再进行模型的训练.

5.3. 评价指标

对比重建的多边形网格模型与真值，定量评估本研究所提方法的性能. 测试集数据规模为500，均添加标准差为0.02的高斯噪声，评估指标如下.

1）豪斯多夫距离^[28]（Hausdorff distance，HD），通过计算生成的多边形网格模型和原始网格之间的豪斯多夫距离来评估模型性能，计算式为

(13)$ \left.\begin{array}{c}\mathrm{H}\mathrm{D}\left(P\text{, }G\right)=\mathrm{m}\mathrm{a}\mathrm{x}\left({h}_{d}\left(P\text{, }G\right)\text{, }{h}_{d}\left(P\text{, }G\right)\right);\\ {h}_{d}\left(P\text{, }G\right)=\underset{a\in P}{\mathrm{m}\mathrm{a}\mathrm{x}}\left(\underset{b\in G}{\mathrm{min}}d\left(a\text{, }b\right)\right),\\ {h}_{d}\left(G\text{, }P\right)=\underset{b\in G}{\mathrm{m}\mathrm{a}\mathrm{x}}\left(\underset{a\in P}{\mathrm{min}}d\left(b\text{, }a\right)\right).\end{array}\right\} $

式中：$ P $、$ G $分别为在多边形网格以及原始网格中均匀采样得到的10 000个点的集合，$ \underset{b\in G}{\mathrm{min}}d\left(a,b\right) $为点$ a $到集合$ G $的最短距离，$ \underset{a\in P}{\mathrm{m}\mathrm{a}\mathrm{x}}(\underset{b\in G}{\mathrm{min}}d\left(a,b\right)) $为集合$ P $中所有点到集合$ G $的最短距离的最大值.

2）倒角距离（chamfer distance，CD）^[29]，通过计算集合$ P $和$ G $之间的倒角距离来衡量重建的多边形网格和原始网格之间的相似性，距离越小说明2个网络之间越匹配.

3）定义r_e为建筑多边形网格模型重建的错误率，将HD＞3 m的重建结果认定为重建失败的数据，

(14)$ {r}_{{\mathrm{e}}}=\frac{{N}_{\mathrm{r}\mathrm{f}}}{{N}_{\mathrm{r}\mathrm{t}}+{N}_{\mathrm{r}\mathrm{f}}} . $

式中：$ {N}_{\mathrm{r}\mathrm{f}} $为500组数据中重建失败的案例数量，$ {N}_{\mathrm{r}\mathrm{t}} $为500组数据中重建成功的案例数量.

4）预测面的精确率$ P $和召回率$ R $，精确率表示预测出来的面中与实际存在的面相符的占比，召回率表示真实面中被预测出来的占比.

(15)$ P=\dfrac{{N}_{\mathrm{t}\mathrm{p}}}{{N}_{\mathrm{t}\mathrm{p}}+{N}_{\mathrm{f}\mathrm{p}}},\;R=\dfrac{{N}_{\mathrm{t}\mathrm{p}}}{{N}_{\mathrm{t}\mathrm{p}}+{N}_{\mathrm{f}\mathrm{n}}}. $

式中：$ {N}_{\mathrm{t}\mathrm{p}} $为预测面集中正确预测的面数量，$ {N}_{\mathrm{f}\mathrm{p}} $为预测面集中错误预测的面数量，$ {N}_{\mathrm{f}\mathrm{n}} $为实际中存在但是未被预测出的面数量. 在面的匹配上，设置预测面与真实面之间的相似度超过90%，即认定预测面与真实面相符合. 式（15）中使用的预测面集并未经过F-NMS去除冗余面.

（5）面相邻关系预测的准确率$ {\mathrm{A}\mathrm{c}\mathrm{c}}_{\mathrm{n}\mathrm{r}} $，表示面相邻关系预测网络的准确率，计算式为

(16)$ {\mathrm{A}\mathrm{c}\mathrm{c}}_{\mathrm{n}\mathrm{r}}=\frac{1}{N}\sum _{i=1}^{N}\mathrm{\delta }({\mathrm{P}\mathrm{r}\mathrm{e}\mathrm{d}}_{i}=={\mathrm{G}\mathrm{T}}_{i}) $

式中：$ N $为测试集中需要预测面相邻关系的总样本数；$ {\mathrm{P}\mathrm{r}\mathrm{e}\mathrm{d}}_{i} $为模型对第$ i $个样本的预测结果；$ {\mathrm{G}\mathrm{T}}_{i} $为第$ i $个样本的真实标签；$ \mathrm{\delta }({\mathrm{P}\mathrm{r}\mathrm{e}\mathrm{d}}_{i}=={\mathrm{G}\mathrm{T}}_{i}) $为指示函数，若括号内条件为真，则返回1，否则返回0.

5.4. 建筑点云重建结果

如图7所示，本研究所提建筑点云重建方法能够将离散的建筑点云简化为轻量级的多边形网格模型，且与原始的三维建筑点云非常贴近.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 建筑点云重建结果及过程示例

Fig.7 Results and procedural examples of building point cloud reconstruction

5.5. 消融实验

为了验证本研究提出的损失函数的有效性开展消融实验，对比只使用均方误差计算投票点损失的方法和为投票点赋予不同权重再进行损失计算的方法的性能，结果如表1所示，其中σ为给点云坐标添加的高斯噪声的标准差. 不难看出，根据面积大小为投票点赋予不同权重后，面的精确率和召回率均提升了1%，HD减少了0.04 m.

表 1 投票点损失函数不同权重的消融实验（σ=0.01）

Tab.1 Ablation experiment with different weights for voting points loss function (σ=0.01)

方法	$ P $↑	$ R $↑	$ {\mathrm{A}\mathrm{c}\mathrm{c}}_{\mathrm{n}\mathrm{r}} $↑	HD↓/m
均方误差的投票点权重	0.94	0.95	0.987	0.33
面积自适应权重	0.95	0.96	0.992	0.29

新窗口打开| 下载CSV

为了验证平面相邻关系预测中PFA的有效性，开展消融实验，对比PFA面对特征融合模块与直接将面对特征进行拼接的方法的性能，结果如表2所示. $ {T}_{\mathrm{c}\mathrm{o}\mathrm{n}} $为用于剔除置信度低的平面的阈值，$ {T}_{\mathrm{s}\mathrm{i}\mathrm{m}} $为用于剔除相似度高的平面的阈值，即当2个平面的相似度高于$ {T}_{{\mathrm{sim}}} $时，删除置信度值低的平面. 可以看出，使用PFA模块后平面相邻关系预测的准确率提升了0.7%.

表 2 配对面注意力模块消融实验（σ=0.01）

Tab.2 Ablation experiment on paired face attention module (σ=0.01)

模块	$ P $↑	$ R $↑	$ {\mathrm{A}\mathrm{c}\mathrm{c}}_{\mathrm{n}\mathrm{r}} $↑	HD ↓/m
最大池化+MLP	0.95	0.95	0.985	0.31
PFA	0.95	0.96	0.992	0.29

新窗口打开| 下载CSV

为了验证F-NMS中相似度阈值的敏感性，开展消融实验，分析将F-NMS中的低置信度过滤值、相似度阈值设置为不同值时，对算法性能的影响，结果如表3所示. 可以看出，在相同低置信度过滤值情况下，相似度阈值越高，准确率越低，原因是高相似度阈值导致多余面未被过滤. 综合来说，当低置信度过滤值和相似度阈值均为0.90时，F1分数最高，表明此时所提建筑模型重建方法的综合性能最强.

表 3 基于面的非极大值抑制算法的相似度阈值消融实验（σ=0.02）

Tab.3 Ablation experiments on similarity threshold of facet-based non-maximal suppression algorithm (σ=0.02)

$ {T}_{\mathrm{c}\mathrm{o}\mathrm{n}} $	$ {T}_{\mathrm{s}\mathrm{i}\mathrm{m}} $	$ P $↑	$ R $↑	F1↑
0.85	0.85	0.939	0.947	0.943
	0.90	0.923	0.950	0.936
	0.95	0.861	0.954	0.905
0.90	0.85	0.940	0.942	0.940
	0.90	0.935	0.951	0.943
	0.95	0.875	0.953	0.912
0.95	0.85	0.940	0.939	0.939
	0.90	0.935	0.942	0.938
	0.95	0.893	0.949	0.920

新窗口打开| 下载CSV

5.6. 对比实验

对比不同方法的建筑简化性能. City3D和PolyFit基于传统算法，未使用深度学习技术. PolyGNN是基于深度学习的方法，深度学习模型受训练集的影响很大，为此使用本研究的训练集重新训练PolyGNN. 实验使用的测试集数据规模为500，添加标准差为0.02的高斯噪声. 不同方法的简化性能如表4所示，其中$ {N}_{\mathrm{p}} $为点云数量，$ {N}_{\mathrm{f}} $为面片数量，S为存储量. 不难看出，本研究所提的建筑点云轻量级表面重建方法显著降低了数据的存储量，与原始的建筑点云相比，重建后的多边形网格的存储量不到原来模型的1%. 相比其他方法，所提方法生成的多边形网格模型无论是顶点数和面片数也都是最小的.

表 4 建筑简化性能对比评估表（σ=0.02）

Tab.4 Building simplified performance comparison and evaluation form (σ=0.02)

方法	$ {N}_{\mathrm{p}} $	$ {N}_{\mathrm{f}} $	S/MB	HD/m	CD/m	$ {r}_{{\mathrm{e}}} $/%
原始	2048000	—	112	—	—	—
本研究	4998	3434	0.349	0.30	0.15	4.6
PolyFit^[9]	14708	3782	0.939	0.30	0.14	3.8
City3D^[11]	22522	6520	1.560	0.93	0.59	36.4
PolyGNN^[14]	18224	4440	0.643	0.33	0.15	2.6

新窗口打开| 下载CSV

如图8所示为不同方法生成的建筑模型可视化效果对比. 可以看出，对比其他方法，所提方法重建的建筑多边形网格模型所需面片数量最少且与真值的建筑点云高度相符. City3D须调整到合适的参数才能获得比较好的结果，本研究使用City3D默认的参数进行重建. PolyFit和PolyGNN在某些数据上的HD略小于所提方法的模型，但在表达模型所需的面片数量上，所提方法远远小于PolyFit和PolyGNN. 原因是本研究所提方法表达1个平面只需要1个多边形网格，而PolyFit和PolyGNN需要多个多边形网格.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 三维建筑轻量化重建的不同方法可视化对比(σ=0.02)

Fig.8 Visual comparison of different methods for 3D building lightweight reconstruction (σ=0.02)

真实的建筑点云数据可能包含更多噪声，为此进行不同方法的抗噪性能测试，结果如图9所示. 可以看出，所提方法在不同程度的高斯噪声中都能够重建出高度保真的多边形网格模型. 随着噪声增多，PolyFit、PolyGNN重建的网格模型质量急剧下降，当σ=0.03时，甚至出现无结果产出，输出为空值的情况. 如表5所示为不同方法在不同程度高斯噪声中的抗噪性能定量评估结果. 在σ=0.02时，所提方法的部分指标略低于PolyFit、PolyGNN，为次优结果；当σ=0.03时，所提方法的所有指标都远远高于现有方法. 随着噪声的增加，现有方法的错误率都显著增加，所提方法的错误率稳定在4.2%~4.6%，这进一步说明所提方法对噪声的鲁棒性.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 建筑简化抗噪性可视化对比

Fig.9 Visual comparison building simplified noise resistance

表 5 建筑简化抗噪性定量评估结果

Tab.5 Quantitative evaluation results of building simplified noise resistance

方法	基于学习	CD↓/m		HD↓/m		$ {r}_{{\mathrm{e}}} $↓/%
方法	基于学习	σ=0.02	σ=0.03	σ=0.02	σ=0.03	σ=0.02	σ=0.03
PolyFit^[9]	×	0.14	0.19	0.30	0.42	3.8	17.0
City3D^[11]	×	0.59	0.75	0.93	1.10	36.4	35.2
PolyGNN^[14]	√	0.15	0.24	0.33	0.50	2.6	15.2
本研究	√	0.15	0.17	0.30	0.36	4.6	4.2

新窗口打开| 下载CSV

6. 结　语

本研究提出基于深度学习的建筑点云轻量级表面重建方法. 为了检测出建筑点云中的平面，使用基于深度霍夫投票的方法，将点云聚类到所在平面的中心点附近，提高了建筑平面预测的准确性. 本研究提出基于面的非极大值抑制算法有效去除了预测面中的冗余面；在相邻关系预测模块中，提出配对面注意力模块；设计能够利用预测面以及面相邻关系构建多边形网格模型的方法，实现了建筑点云的有效简化. 所提表面重建方法在保证建筑点云结构完整性的同时，极大降低了存储需求，提高了数据传输和处理效率；在三维城市建模、智慧城市和地理信息系统等领域具有广泛的应用价值. 所提表面重建方法主要针对以平面结构为主的建筑点云，对于包含曲面结构（如圆柱体、圆锥体、球体等）的建筑适用性较弱. 在未来的研究中，1）计划结合基于隐式表示的深度学习方法（如NeRF、SDF）进行曲面建筑的重建能力改进；2）借鉴稳健的低多边形网格表示方法，将建筑点云三角网格化后转化为低多边形网格.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LUO H, ZHANG J, LIU X, et al

Large-scale 3D reconstruction from multi-view imagery: a comprehensive review

[J]. Remote Sensing, 2024, 16 (5): 773

DOI:10.3390/rs16050773 [本文引用: 1]

[2]

于海洋, 封顺天, 崔立鹏

面向城市数字孪生的多尺度三维建模方法研究

[J]. 电子技术应用, 2022, 48 (7): 78- 80