中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Multimodal Information Fusion

Building extraction method for aerial images based on DeepLabv3+ semantic segmentation

  • LIAO Yuanhui ,
  • WANG Jingdong ,
  • LI Haoran ,
  • YANG Heng
Expand
  • College of Automation Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China

Received date: 2023-10-24

  Revised date: 2023-12-20

  Online published: 2024-11-26

Abstract

Aerial imagery can provide rich geographic information. As an important ground object information, quickly and accurately extracting buildings from aerial images can achieve target monitoring, location positioning, and further enrich specific geographic information in a given area. To address the issues of segmentation result merging and irregular contour lines in semantic segmentation algorithms for building extraction, an improved model based on DeepLabv3+ for aerial building extraction is proposed by improving the feature fusion structure, constructing a comprehensive loss function, and incorporating an improved Douglas Peucker algorithm. Experimental results show that the improved model achieves an IoU of 0.794 on the test set, a 14.7% improvement compared to the original model. It effectively avoids the problem of merged segmentation between neighboring buildings and results in more regular segmentation boundaries, enabling more accurate extraction of the building contours.

Cite this article

LIAO Yuanhui , WANG Jingdong , LI Haoran , YANG Heng . Building extraction method for aerial images based on DeepLabv3+ semantic segmentation[J]. Command Control and Simulation, 2024 , 46(6) : 55 -61 . DOI: 10.3969/j.issn.1673-3819.2024.06.010

利用航空影像提取建筑物信息,可进行目标监测、地理信息分析等[1-3]。而语义分割算法可以对图像中每个像素进行分类,分割出建筑物的轮廓,实现对建筑物的提取[4-7]。郭江[8]等人针对DeepLabv3+进行遥感图像建筑物分割时存在小目标建筑物漏分、目标建筑物误分以及边界粘连的问题进行研究,通过添加Daspp-Spm模块以及SE通道注意力机制模块,增强了网络提取建筑物特征和重构空间信息的能力,但对于存在边界模糊与阴影干扰的小尺寸或复杂重叠建筑物仍会出现粘连问题。齐建伟[9]等人以DeepLabv3+的孪生网络为主干,使用多层级特征交互操作实现遥感影像建筑物变化检测,较好地平衡了误检及漏检情况,但对于密集且近邻的建筑物容易粘连。Li[10]等人针对高分辨率遥感图像建筑物分割边缘精度低的问题,通过改进DeepLabv3+特征融合结构以及并联的DANet来提高网络模型的分割精度,但在分割结果直线边缘上存在锯齿,不够契合实际目标建筑物边缘。
综上所述,尽管基于深度学习的方法在航空影像建筑物自动提取方面已经取得了不少成果,但在建筑物近邻分布的场景下,仍然会出现分割结果相互粘连的现象,导致无法清晰地分离各个建筑物。在一些分割结果中,建筑物轮廓线条存在凸起,与真实轮廓标签仍有差距。针对这些问题,本文提出一种改进的基于DeepLabv3+的建筑物提取方法,首先,改进原网络中特征融合结构,采用多层级特征融合方式来获得更全面的特征表示,改善近邻建筑物分割情况;其次,构建综合损失函数,更好地利用空间关系信息,提高建筑物分割的准确性;最后,通过在分割结果图像上添加改进后的Douglas Peucker算法,实现航空影像中建筑物轮廓的规则化提取。

1 网络模型应用与改进

1.1 DeepLabv3+在建筑物分割提取中的应用

DeepLabv3+是一种基于空洞卷积的语义分割网络模型[11],通过空洞空间金字塔池化模块获取多尺度的上下文信息,更好地捕获物体的大小、形状和方向,增强模型对细节的感知能力,提高分割结果的准确性;同时采用编码器-解码器结构,融合不同层级的特征,从而逐渐恢复空间信息来获取更精细的分割对象掩膜。DeepLabv3+网络模型结构如图1所示,网络将输入图片送到主干网络进行卷积提取,再通过空洞空间金字塔池化模块与卷积层得到富含语义信息的深层特征,上采样后与主干网络中抽取的浅层特征进行融合,最后通过卷积与上采样得到输出掩膜。
图1 DeepLabv3+网络模型结构图

Fig.1 Structure of DeepLabv3+ network model

采用DeepLabv3+网络模型对航空影像建筑物进行提取分割,在建筑物分布离散、轮廓形状为矩形时分割效果较好,但在建筑物近邻分布、与周围背景颜色相近时容易产生粘连问题,部分不规则形状建筑物分割边缘欠佳,分割轮廓不准确,具体情况如图2所示。绿色圆圈圈出的为近邻建筑物,在分割时产生粘连,黄色圆圈圈出的为边缘分割欠佳的建筑物。从图中可以看出,DeepLabv3+网络模型能够较好地分割图像中不同形状的建筑物,但分割掩膜边缘粗糙,在分割近邻建筑时存在粘连问题,且分割掩膜存在凸起或凹陷,不契合原图像中建筑物的轮廓形状。因此,本文对DeepLabv3+网络模型进行改进,改善近邻建筑物分割粘连问题,提高网络分割效果,并添加改进后的Douglas Peucker图像后处理算法对分割结果中建筑物轮廓进行规则化校正。
图2 DeepLabv3+网络模型分割结果图

Fig.2 Segmentation results of DeepLabv3+ network model

1.2 改进措施

1.2.1 特征融合结构改进

1)分割粘连问题分析
航空影像中的建筑物类型丰富多样,不同图像中的建筑物通常具有不同的空间布局。在研究过程中发现,航空影像中相邻的建筑物群通常大小相似,结构相仿,且具有相同的颜色纹理特征,DeepLabv3+网络模型在下采样过程中会模糊相邻建筑物间的边界,通过融合一层浅层特征层获取到的细节信息有限,在后续上采样过程中难以有效分离相邻的建筑物,使得分割掩膜粘连。
2)多层级特征融合结构
DeepLabv3+网络模型通过融合特征提取网络浅层特征层和深层特征层来结合全局语义信息和细节信息,提高建筑物的整体分割准确性,但其忽视了中等尺度特征层提供的语义信息和空间位置信息,这些信息对于精确的分割和定位建筑物非常重要。此外,DeeplabV3+网络结构中融合的特征只选择主干网络中的低级特征与编码器得到的高级特征,该特征图能够包含的图像信息特征较少,不足以使解码器准确地恢复目标的边缘信息。因此,本文采用多层级特征融合策略[12],对DeepLabv3+网络特征融合结构进行改进,改进后的网络结构如图3所示。将特征提取网络分为5个层级,每个层级的输出特征图尺寸依次为原图、原图大小的1/2、1/4、1/8、1/16。其中,第二层级的特征层保留了较多的细节信息,第三、四层级的特征层则着重于捕捉不同建筑物间的空间位置关系。选择在解码器中融合第二、三、四层级的特征层,使网络能够在保留较浅层特征层细节信息的同时,平衡局部细节和全局空间结构,更全面地利用模型中不同尺度的特征信息。之后分别将第三、四层级的特征两倍、四倍双线性插值上采样,将三个不同层级的浅层特征在通道层面上拼接,形成新特征,通过1×1卷积调整通道数与4倍上采样后的深层特征进行融合。
图3 改进后DeepLabv3+网络结构图

Fig.3 Structure of improved DeepLabv3+ network

相比于原DeepLabv3+网络模型仅融合一层浅层特征层,单一浅层特征具有较低的空间结构信息和语义表达能力,无法对图像中相邻的建筑物进行准确的分割,多层级特征融合结构的优势在于不同层级的特征表现出不同的语义信息和位置信息,通过将它们进行融合,可以提供更全面的特征表示。多层级特征融合形成的特征层具有更丰富的边缘、纹理、空间位置等细节信息,这些信息能够为模型提供更多线索,帮助其正确判断粘连区域的边界。

1.2.2 损失函数改进

1)损失函数问题分析
通过对本文数据集中背景与建筑物像素点个数统计发现,背景像素与建筑物像素个数比约为2:1,数据集中的两类像素信息占据不同的比例,在分类过程中存在正负样本的不平衡问题。DeepLabv3+网络模型的原始损失函数为分类交叉熵损失(CE Loss),该损失函数适用于多分类任务,为满足建筑物分割任务需求,将CE Loss真实标签one-hot编码的形式改为二分类任务中的真实标签形式以去除多余类别,转换为适用于二分类任务的二值交叉熵损失(BCE Loss)。
由于BCE Loss并不考虑像素之间的空间关系,仅关注每个像素的类别预测,且数据集中建筑物像素比背景像素数量更少,该不平衡会导致模型更偏向于预测背景像素,从而影响建筑物的分割效果。Dice Loss通过计算预测结果和真实标签之间的相似度来减少样本不平衡的影响[13],同时,Dice Loss 在计算相似度时考虑了预测结果和真实标签的重叠区域,对于边界细节具有较高的敏感性,模型会更加关注像素之间的空间关系。因此,本文对BCE Loss进行改进,将BCE Loss和Dice Loss结合起来构建一个综合损失函数,以更好地处理像素样本不平衡问题,并提高建筑物分割的准确性。
2)构建综合损失函数
BCE Loss公式如式(1)所示:
LBCE=- 1 N[yi i = 1 N log(xi)+(1-yi) i = 1 N log(1-xi)]
式中:N为总像素个数;yi为第i个像素的真实标签;xi∈[0,1]为第i个像素预测为建筑物的概率。
Dice Loss公式如下:
LDice=1- 2 | U p r e d U t r u e | | U p r e d U t r u e |
式中:Upred表示预测为建筑物像素点集合,Utrue表示真实标签为建筑物像素点集合。
综合损失函数为

LBCE-Dice=λLBCE+LDice=

1-λ 1 N[yi i = 1 N log(xi)+(1-yi)*

i = 1 N log(1-xi)]- 2 i = 1 N x i y i i = 1 N x i + i = 1 N y i
式中:λ为BCE Loss的权重值;N为总像素个数;yi为第i个像素的真实标签;xi为第i个像素的预测概率值。
相较于单独使用 BCE Loss,将BCE Loss和Dice Loss结合可以在一定程度上平衡建筑物类别和背景类别的权重,提高模型对样本不平衡数据集的适应性。结合这两种损失函数,网络模型可以综合考虑像素级别的分类结果和区域的相似性,更好地利用空间关系信息,提高建筑物分割的准确性。

1.2.3 边缘轮廓提取改进

1)分割结果轮廓问题分析
在对DeepLabv3+网络模型进行改进后,有效分离了近邻建筑物并取得了细化建筑物边界的效果。然而,在分割后图像中建筑物的轮廓形状仍然与标签图像有一定差距,具体表现为边缘有少量锯齿凸起、直角轮廓不够清晰。利用改进的Douglas Peucker算法对提取到的图像进行轮廓优化,能够使结果更加拟合真实标签。因此,本文将改进的Douglas Peucker算法[14]运用于模型分割结果,实现建筑物轮廓的规则化校正。
2)轮廓规则化处理
Douglas Peucker算法以图像中的点集为输入,通过计算两点间的最大距离是否符合预先设定的距离阈值筛选关键点,将经过抽样得到的关键点进行连接得到平滑和简化后的曲线。Douglas Peucker算法提供了一种简单有效的曲线简化方法,但建筑物轮廓多为直线且直角较多,采用Douglas Peucker算法的简化过程会导致线段的方向变得斜率不稳定,使得轮廓失去水平和垂直特性,因此,本文在Douglas Peucker算法的基础上加入了线段的旋转与平移操作,通过判断关键点连接线段的长度,取最长边作为建筑物的主朝向,接着计算各线段与主朝向的夹角进行旋转或平移,形成最终的轮廓规则化结果。改进的Douglas Peucker算法流程图如图4所示。
图4 改进的Douglas Peucker算法流程图

Fig.4 Flowchart of improved DouglasPeucker algorithm

本文采用改进后的Douglas Peucker图像后处理算法,进一步改善了建筑物轮廓的质量,减少了分割结果中的不连续和锯齿状边缘。通过将改进的Douglas Peucker算法与DeepLabv3+模型结合使用,可以获得更加清晰、光滑且准确的建筑物轮廓。该算法能够去除原始轮廓中存在的小波动和噪声,使得直角轮廓更加明显和规整,从而提高建筑物分割的精度和视觉效果。

2 实验结果与分析

2.1 实验环境

实验所采用的计算机实验平台配置如下:操作系统环境为Ubuntu 16.04,硬件配置为Intel的i7-8700CPU以及NVIDIA的GTX 1080Ti的GPU。

2.2 数据集介绍

本文数据集图片来源为谷歌地球卫星地图,从该地图上选取美国各地区的900张含有建筑物的航空影像作为数据集,尺寸为1 024×768像素,选取其中100张作为测试集,其余图片用于模型的训练和验证。为了提高模型对于建筑物检测提取不同场景的鲁棒性和泛化性,本文对训练数据进行了相应的数据处理,通过对图片进行改变亮度和旋转,增加不同噪声干扰等操作,最终得到7 200张图片用于模型训练和测试。

2.3 实验结果及对比分析

为验证改进方法的有效性,本文对上述改进措施进行消融实验,对改进前后的网络在测试集上的交并比IoU作对比,如表1所示。表中DeepLabv3+表示骨干网络,MFF表示添加多层级特征融合结构后的网络,BCE-Dice Loss表示改进损失函数后的网络。
表1 网络改进测试结果前后对比

Tab.1 Comparison of network improvement test results before and after

DeepLabv3+ MFF BCE-Dice Loss IoU
0.647
0.772
0.794
表1可以看出,改进后的网络模型对建筑物分割交并比上升了14.7%。其中,添加多层级特征融合结构后的网络交并比提升了12.5%,这说明不同层级的特征层捕捉了不同层次的信息,通过融合这些层级的特征,可以得到更丰富、更全面的表征能力,将来自不同层级的特征组合在一起,从而提供更全面、更准确的信息供模型学习和决策。改进损失函数后的网络模型交并比提升了2.2%,BCE Loss主要用于二元分类问题,而Dice Loss主要用于衡量预测结果与真实标签的重叠度。将两者结合使用可以综合考虑分类准确性和物体边界匹配程度,提供更全面的损失函数,从而更好地推动模型学习与分割。
网络改进前后分割结果如图5所示。图a)为原始图像,图b)为改进前模型分割结果图像,图c)为改进后模型分割结果图。图b)、c)中红色掩膜为网络模型预测掩膜,将之与原图叠加得到建筑物分割结果图。绿色圆圈圈出的建筑物相互毗邻,在改进前网络模型分割时产生粘连,黄色圆圈圈出的建筑物为边缘分割欠佳的建筑物。可以看出,添加改进措施后提高了网络模型对于近邻建筑物粘连区域的分割能力以及分割不同尺度和不同形状目标上的性能。通过改进损失函数综合考虑分类准确性和物体边界匹配程度,增强模型对建筑物细节的识别和分割能力。
图5 网络改进前后分割结果对比图

Fig.5 Comparison of segmentation results before and after network improvement

采用改进后的Douglas Peucker图像后处理算法对建筑物轮廓进行规则化校正如图6所示,图a)为原始图像,图b)为建筑物的真值标签,图c)为改进后网络模型预测掩膜,图d)为添加改进的Douglas Peucker算法处理后的效果图,图e)为改进后网络模型结合改进的Douglas Peucker算法预测结果。从图c)中可以看出,改进后网络模型预测的掩膜图像与真值标签相比仍存在差距,分割出的建筑物掩膜边缘有锯齿凸起、一些建筑物直角轮廓不够清晰。从图d)规则化处理后的结果可以看出,改进的Douglas Peucker图像后处理算法进一步改善了建筑物轮廓的质量,减少了分割结果中的不连续和锯齿状边缘,建筑物的轮廓不再由不规则曲线组成,而是由直线线段连接形成,规则化后的结果与真实轮廓更加吻合,在方正、结构简洁及边缘直线特征明显的建筑物提取任务中,添加改进的Douglas Peucker算法,不再需要大量的人力来手动修改建筑物轮廓形状,从而显著减少了将建筑物提取结果应用的时间成本。
图6 改进的Douglas Peucker算法处理分割结果对比图

Fig.6 Comparison of the improved Douglas Peucker algorithm processes the segmentation result

3 结束语

本文针对语义分割算法在提取建筑物时存在分割结果粘连、轮廓线条不规则的问题,以DeepLabv3+网络模型为基础,通过改进其特征融合结构,提升了模型的细节信息以及语义信息获取能力,解决近邻建筑物分割粘连问题;通过将BCE Loss和Dice Loss结合构建损失函数,综合考虑分类准确性和物体边界匹配程度,细化分割边缘;通过添加改进后的Douglas Peucker图像后处理算法,增强了边界线条的清晰度和规整性,实现了图像中建筑物轮廓规则化校正。本文研究的网络模型可以较准确地对航空影像中建筑物目标进行识别分割,能够为定位和监测等方面的任务提供帮助。
[1]
秦伟伟, 宋泰年, 刘洁瑜, 等. 基于轻量化YOLOv3的遥感军事目标检测算法[J]. 计算机工程与应用, 2021, 57(21): 263-269.

DOI

QIN W W, SONG T N, LIU J Y, et al. Remote sensing military target detection algorithm based on lightweight YOLOv3[J]. Computer Engineering and Applications, 2021, 57(21): 263-269.

DOI

[2]
李志欣, 裴玉东, 郑璐. 遥感处理技术应用浅述[J]. 现代信息科技, 2020, 4(11): 51-53, 56.

LI Z X, PEI Y D, ZHENG L. Application of remote sensing processing technology[J]. Modern Information Technology, 2020, 4(11): 51-53, 56.

[3]
李强, 张杰, 刘东顺, 等. 基于改进U-Net模型的航空影像建筑物变化检测[J]. 测绘与空间地理信息, 2023, 46(9): 60-63, 67.

LI Q, ZHANG J, LIU D S, et al. Aerial image building change detection method based on improved U-net model[J]. Geomatics & Spatial Information Technology, 2023, 46(9): 60-63, 67.

[4]
CHEN G, YUE X, ZHU Y, et al. Study on building extraction algorithm of remote sensing image based on multi-scale feature fusion[J]. Computer Science, 2023, 50(9):202-209.

DOI

[5]
HU Y, WANG Z, HUANG Z, et al. Polybuilding: polygon transformer for building extraction[J]. ISPRS journal of photogrammetry and remote sensing, 2023.

[6]
BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. ArXiv e-Prints, 2020: arXiv: 2004.10 934.

[7]
YU Y T, LIU C, GAO J Y, et al. Building extracton from remote sensing imagery with a high-resolution capsule networky[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19:1-5.

[8]
郭江, 辛月兰, 谢琪琦. 改进DeepLabV3+的遥感图像建筑物分割[J]. 激光杂志, 2024, 45(5):139-145.

GUO J, XIN Y L, XIE Q Q. Improved building segmentation in DeepLabV3+ remote sensing images[J]. Laser Journal, 2024, 45(5):139-145.

[9]
齐建伟, 王伟峰, 张乐, 等. 基于改进DeepLabV3+算法的遥感影像建筑物变化检测[J]. 测绘通报, 2023(4): 145-149.

DOI

QI J W, WANG W F, ZHANG L /Y, et al. Building change detection of remote sensing image based on improved DeepLabV3+[J]. Bulletin of Surveying and Mapping, 2023(4): 145-149.

DOI

[10]
LI W B, ZHAO S. Semantic segmentation of buildings in high-resolution remote sensing images based on DeepLabV3+ algorithm[J]. Journal of Physics: Conference Series, 2022, 2 400(1):012 037.

[11]
CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]. Proceedings of the European Conference on Computer Vision (ECCV). 2018: 801-818.

[12]
王晓文, 李顶根. 基于改进DeeplabV3+的农村遥感图像屋顶分割[J]. 计算机应用与软件, 2022, 39(7): 174-180.

WANG X W, LI D G. Solar rooftop segmentation in rural areas based on improved deeplabv3+[J]. Computer Applications and Software, 2022, 39(7): 174-180.

[13]
MILLETARI F, NAVAB N, AHMADI S A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C]. 2016 fourth international conference on 3D vision (3DV). IEEE, 2016: 565-571.

[14]
岱超, 刘萍, 史俊才, 等. 利用U型网络的遥感影像建筑物规则化提取[J]. 计算机工程与应用, 2023, 59(8): 105-116.

DOI

DAI C, LIU P, SHI J C, et al. Regularized extraction of remotely sensed image buildings using U-shaped networks[J]. Computer Engineering and Applications, 2023, 59(8): 105-116.

DOI

Outlines

/