中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Multi-source Information Fusion

Land-cover classification with remote sensing images based on low-rank fusion of multimodal features

  • LIU Wenjie ,
  • WU Xiaoning ,
  • DONG Fuan ,
  • ZHANG Jinwen ,
  • LI Yiyang ,
  • CHEN Yong
Expand
  • North Automatic Control Technology Research Institute, Taiyuan 030006, China

Received date: 2024-10-14

  Revised date: 2024-12-09

  Online published: 2025-07-28

Abstract

Multimodal remote-sensing land classification aims to achieve more accurate and comprehensive extraction of land features in remote sensing images by integrating feature information from multiple remote sensing data sources. This article proposes a unified multimodal remote sensing feature classification network, which includes: a weight sharing backbone network responsible for extracting preliminary feature representations from the input data of each modality; The multimodal feature low rank fusion module performs cross modal transmission on high-level semantic features to enhance semantic interaction between modalities; The upsampling operation is responsible for restoring the fused feature map to the same resolution as the input image. This algorithm achieved 91.23% OA and 83.28% mIoU in remote sensing land feature classification tasks, effectively alleviating the problems of insufficient accuracy and insufficient utilization of multimodal information faced by traditional single modal remote sensing classification methods through feature low rank fusion technology, thereby significantly improving the performance of land feature classification.

Cite this article

LIU Wenjie , WU Xiaoning , DONG Fuan , ZHANG Jinwen , LI Yiyang , CHEN Yong . Land-cover classification with remote sensing images based on low-rank fusion of multimodal features[J]. Command Control and Simulation, 2025 , 47(4) : 65 -73 . DOI: 10.3969/j.issn.1673-3819.2025.04.010

遥感地物要素分类旨在对遥感影像进行精细化分类处理,以区分并标识出图像中每一个像素或独立对象所属的具体类别。这一过程不仅为土地利用规划、环境监测、灾害评估等提供了精确的数据基础,还促进了地理信息系统的建设与发展,能够更加科学地认知和管理地球资源与环境[1-2]。近年来,研究人员在地物要素分类领域进行了深入的探索,通过精心设计的复杂网络架构[3-6],从遥感影像中自动学习并提取出丰富的特征信息,以实现各类地物要素的精确划分与识别。随着深度学习技术的持续进步与创新,这一分类任务的精度与效率均得到了显著的提升,为遥感数据的深度挖掘与应用开辟了更广阔的前景。
然而,传统单一模态遥感地物要素分类往往只能提供地表物体的部分特征信息,无法全面反映地物要素的空间分布及上下文关系等复杂特征,限制了分类的准确性和全面性;此外,在遥感图像中,不同地物之间可能存在相互混杂或边界模糊的情况,如建筑物与道路交叉、植被与草坪交错等,单一模态的分类方法往往难以有效区分这些复杂区域,导致分类结果出现误判或漏判。因此,设计统一的多模态地物要素分类网络,从每种模态的遥感数据中提取出有效的特征信息,将不同模态的特征进行融合,以形成更全面的地物特征表示,可以实现对遥感影像更全面、更深入的地物要素分类。

1 问题的提出

1.1 从单模态到多模态地物要素分类

遥感地物要素分类是指利用遥感技术获取的影像数据,通过一系列处理和分析手段,将影像中的地物要素(如植被、水体、建筑物、道路等)按照其特性进行划分和分类的过程,旨在为影像中的每一个像素分配一个类别标签。随着深度学习等先进技术的引入,遥感地物要素分类的精度和效率得到了显著提升,同时在多个领域具有重要的研究意义,如城市规划与管理、农业监测与管理、环境监测与保护、灾害监测与评估等[7-8]
在遥感技术发展的初期,地物要素分类主要依赖于单一模态的数据[9-11],如可见光影像。这种单模态分类方法虽然能够提供一定的地物识别能力,但存在显著的局限性。例如,可见光影像能够清晰地反映地物表面的空间分布和形状特征,但在阴影遮挡或者遇到具有相似光谱特征的物体时,其识别能力会大幅下降。图1展示了单模态地物要素分类面临的挑战,第一行中树木遮挡了草坪,对草坪的识别带来巨大的影响;第二行中屋顶上铺上了植被,但真值标签中对应类别应该为建筑物,仅凭单一可见光影像输入难以实现精准地物要素提取;第三行中树木和草坪具有相似的光谱特征,使得网络难以判别二者,导致地物要素提取失败。因此,单模态地物要素分类精度在复杂环境中的应用受到严重限制,难以满足高精度、高可靠性的分类需求。
图1 单模态地物要素分类面临的挑战示例

Fig.1 Examples of challenges faced by single modal feature classification

为了克服单一模态遥感地物要素分类的局限性,研究者们开始探索多模态地物要素分类的方法。多模态分类利用来自不同传感器和平台的多种模态数据(如可见光正射影像、数字表面模型DSM数据等),其中,可见光正射影像以其高分辨率和丰富的光谱信息,能够清晰地展示地表的空间分布和纹理特征,尤其擅长捕捉地物的颜色、形状等直观信息;而数字表面模型则提供了地表的三维形态信息,包括地形起伏、建筑物高度、植被覆盖等垂直结构特征,将这两种模态的数据结合使用,可以充分利用它们各自的优势,实现信息的互补,从而更全面地描述地物的综合特性。这种能力使得多模态分类在复杂场景中的应用更加广泛和有效。
从单模态到多模态地物要素分类通过整合不同来源的信息,能够减少单一数据源带来的误差和不确定性,通过综合利用多种数据源的信息,有效融合差异性特征避免信息冗余和冲突,能够更好地适应复杂场景和满足实际应用需求。未来随着技术的不断进步和数据的不断积累,多模态学习在遥感影像处理领域的应用将会更加广泛和深入。

1.2 多模态地物要素分类难点分析

在复杂多变的遥感场景中,地物要素往往具有多样化的特征。单一模态的数据可能难以全面捕捉这些特征,导致分类结果出现偏差,而多模态遥感地物要素分类技术则能够综合利用多种数据源的信息,更准确地识别地物的复杂特性。在本文研究中,可见光正射影像提供了丰富的光谱信息和空间纹理信息,而DSM数据则揭示了地表的高程变化、建筑物形态等三维结构信息,这两种数据在特征表达上存在差异,不同地物在可见光正射影像和DSM数据中的特征表现可能并不一致,给多模态地物要素分类带来了巨大挑战。
围绕遥感应用场景和数据特点,多模态特征融合的方法多种多样[10-15],包括特征级融合、决策级融合、混合级融合和模型级融合等,每种方法都有其独特的优势和局限性。然而,多模态数据的融合并非简单相加,而是需要复杂的处理技术和算法支持。此外,不同模态数据之间的差异性也可能导致融合过程中的信息冗余和特征丢失问题。因此,如何有效地融合多模态数据,实现低秩融合以提取最具代表性的特征,是多模态地物要素分类面临的重要挑战。
为有效解决上述问题,本文设计了一种统一的多模态地物要素分类网络:首先,通过低秩融合模块构建跨模态亲和矩阵,捕捉模态间潜在关联;其次,设计高层语义特征的跨模态传输机制,增强模态间语义交互能力;最终生成具有强判别力的特征表示,有效缓解相似光谱特征导致的语义模糊问题。研究人员在ISPRS Vaihingen数据集上实现91.23%的整体精度,这有力推进了遥感地物要素的精细化分类进程。

2 研究方法

2.1 统一的多模态地物要素分类网络

传统的单模态地物要素分类网络主要依赖于单一类型的遥感数据进行地物要素分类,本文设计了一个统一的多模态地物要素分类网络来更准确地识别地物类别。在多模态学习中,我们观察到不同模态间存在诸多相辅相成的依赖关系,例如,语义类别的变迁往往与高度信息的波动紧密相关,反之亦然。系统通过实施跨窗口低秩亲和矩阵学习,成功捕获了一组富含深意的局部亲和矩阵,这些矩阵精准刻画了像素间局部邻域内的模式亲和与依赖模式。尤为重要的是,两个模态在空间位置上的一致性促使它们拥有了相似的局部亲和子图结构,这为我们深入探索跨模态间潜在且复杂的依赖关系提供了坚实的基础与丰富的线索。

2.1.1 整体框架概述

图2所示,本文提出了基于编码器-解码器结构的多模态地物要素分类网络,整个网络由三部分组成:权值共享的主干网络、多模态特征低秩融合模块、上采样操作。具体而言,给定可见光正射影像和对应的数字表面模型数据,首先,将其通过一个权值共享的主干网络ResNet-101[16],该主干网络负责从每种模态的输入数据中提取初步的特征表示,通过该网络不同模态的数据可以在同一特征空间中进行比较;然后,通过多模态特征低秩融合模块提取不同模块的低秩亲和矩阵,并对高层语义特征执行跨模态传输来增强模态间的语义交互,以获得更具鲁棒性和判别力的特征表示,进一步缓解由相似光谱特征引起的语义模糊;最后,通过上采样操作将融合后的特征图恢复到与输入图像相同的分辨率,进一步提高分割结果的准确性和边缘平滑度。整个网络通过多模态联合学习目标函数进行端到端优化。
图2 统一的多模态地物要素分类网络框架

Fig.2 Unified multimodal terrain feature classification network framework

2.1.2 目标优化函数

地物要素提取数据集的分布极其不平衡,使得训练过程偏向于那些主导样本,导致小样本的分割性能较低。如图3所示,本节统计了Vaihingen数据集中每个类别的像素。为了缓解类别不平衡问题,本节受Focal loss[17]影响采用加权的交叉上损失函数作为本文语义分割任务损失函数:
$L_{s}=-\sum_{i} \sum_{c} w_{i} \times l_{i} \times \log \left(p_{i}, c\right)$
式中,i表示位置索引,wi是由类别频率取倒数得到的平衡因子;c∈[1,2,…,C]表示类别,li代表位置i的语义标签,(pi,c)表示位置i属于类别c的概率。
图3 Vaihingen数据集类别像素统计图

Fig.3 Vaihingen dataset category pixel statistics chart

此外,受PSPNet[18]启发,本文在网络的第三阶段之后增加了一个辅助监督La,以帮助优化学习过程。最后,联合目标函数定义为
$L=L_{s}+\lambda_{1} L_{a}$
式中,λ1默认设置为0.5,以平衡目标函数。

2.2 多模态特征低秩融合模块

多模态特征低秩融合模块旨在通过捕捉不同模态数据之间的内在低维结构,来整合和增强跨模态信息的表示能力。这种方法通过构建低秩的亲和矩阵,能够减少计算复杂度并提取出多模态数据中的关键共享信息,从而实现更加高效和准确地多模态特征融合。
在处理高分辨率的遥感影像时,亲和矩阵的应用面临巨大的计算挑战。亲和矩阵本质上是一个表示图像中每对像素之间相似度的矩阵,它对于捕捉图像中远距离但视觉上相似的特征非常有用,这在很多图像处理和计算机视觉任务中尤为重要。然而,随着遥感影像分辨率的提高,图像中的像素数量急剧增加,导致亲和矩阵的大小(即像素对数量的平方)也显著增加。给定一个多通道特征映射XRC×H×W,那么,X对应的全局亲和矩阵计算复杂度为Ο(H2W2C)。近年来,研究领域内涌现了大量聚焦于先局部后全局的策略,即首先精细地建模数据在局部窗口内的亲和模式,随后巧妙地将这些局部区域内的关联性扩展至全局范围,以达成对长距离依赖关系的精准捕捉与建模。虽然这种方式极大地减少了计算量,但这种方式窗口与窗口之间的交互较少,因而仍获得有限的局部信息。
与之前的工作不同,本节方法的核心动机在于认识到相邻像素位置往往共享大量的局部区域信息。基于这一洞察,我们不再局限于逐一处理每个像素点,而是将焦点转向为整个区域的所有像素集体捕获其共有的模式依赖关系。如图4所示,一个新的多模态特征融合模块(multimodal feature low-rank fusion module, MFLFM)被提出,用于捕捉不同模态数据之间的内在低维结构。本节通过引入相对较少的计算资源,巧妙地实现了多模态跨窗口的低秩亲和交互机制。这一机制成功地将原本局限于单模态数据的局部亲和关系,拓展并融合到多模态数据的全局范围内。值得一提的是,本方法采用了像素级相关性作为分析工具,精细刻画每个模态内部数据元素的局部模式特征。这种策略使得我们能够深入数据的最基本单元——像素级别,去捕捉那些细微但至关重要的模式信息,有助于我们发现那些在不同模态间可能存在的潜在联系和互补信息,进而通过低秩亲和交互的方式,将这些局部信息有效地整合起来,形成对多模态数据全局特性的深刻理解。
图4 多模态特征低秩融合模块架构图

Fig.4 Architecture diagram of low rank fusion module for multimodal features

具体而言,给定某一模态特征映射XRC×H×W,将其以不重叠的方式划分为N个大小为l×l的子窗口映射。然后,将这些映射重新排列形成一组查询向量,进而形成相应的共享局部窗映射。此外,为了增强跨窗通信,本节扩展了局部区域的周围像素,形成了相应的扩散窗映射 l + 2 h ,   l + 2 h。其中,h代表扩散尺寸。最后,将作为键值向量的扩散窗映射与作为查询向量的局部窗映射执行矩阵相乘和Softmax操作,得到相应的局部亲和矩阵。
对于第i个局部窗映射XiRC×l×l,本节构建了一个子图Gi= B i , S i , A i,其中,BiSi分别表示来自局部窗和扩散窗的特征矩阵,Ai作为亲和矩阵(邻接矩阵)可以正式定义为
$\left[A_{i}\right]=\sum\left[A_{i}\right]_{a b}=\sum \exp \left\{-\frac{\left\|\left[B_{i}\right]_{a}-\left[S_{i}\right]_{b}\right\|^{2}}{\delta^{2}}\right\}$
式中, [ A i ] a b计算了计算局部区域和共享扩散区域中位置a和位置b之间的相关性,δ2(默认为2)是一个扩散因子。对于全局图而言,由N子图的亲和矩阵Ai组成的全局亲和矩阵可以表示为
$\boldsymbol{A}=\left[\begin{array}{ccc}{\left[A_{1}\right]^{\mathrm{T}}} & \cdots & 0 \\0 & {\left[A_{2}\right]^{\mathrm{T}}} & 0 \\\vdots & \cdots & \vdots \\0 & \cdots & {\left[A_{N}\right]^{\mathrm{T}}}\end{array}\right]$
式中 · T表示转置操作,并且可以看到矩阵A为除主对角元素外,其余元素为零的矩阵。
本节还计算了跨窗口低秩亲和矩阵学习的计算量,其中,每个局部亲和模式记录了l×l局部窗元素和(l+2h)×(l+2h)扩散窗元素之间的关系,因此,计算量为
$S_{1}=O\left(l^{2}(l+2 h)^{2} C\right)$
那么N局部亲和模式的计算量总计为
$\begin{array}{c}S_{2}=O\left(N l^{2}\left({ }^{l}+2 h\right) 2 C\right)= \\O\left(H W\left({ }^{l}+2 h\right) 2 C\right)\end{array}$
因为(l+2h)≪H,(l+2h)≪W,所以本节提出的跨窗口低秩亲和矩阵学习的整体计算量Ο(Nl2(l+2h)2C)≪Ο(H2W2C)。本节通过识别跨模态数据中公共位置的局部相似关系,成功地构建了高阶的跨模态图结构模式。
图4同时展示了跨模态数据间局部亲和模式扩散的完整流程。首先,系统利用跨窗口低秩亲和矩阵学习技术,无须外部监督,直接从数据中提取出每个模态的亲和矩阵,这些矩阵精准捕捉了各自模态内部的局部相似性与关联模式。随后,通过一种自适应的融合策略,将两个模态的亲和矩阵(分别标记为A1A2)巧妙结合,同时引入可学习的权重机制,为不同模态分配一个可学习的权重γ1γ2进行动态调整,确保融合过程既灵活又高效,能够最大化地保留和利用多模态数据中的互补信息。
$\bar{A}=\gamma_{1} \cdot \boldsymbol{A}^{1}+\gamma_{2} \cdot \boldsymbol{A}^{2}$
最后,利用从各模态中提取的扩散窗特征映射作为关键值向量,执行了一个全面的跨模态传输与扩散流程。这一过程不仅深刻挖掘了多模态数据间的共性特征与独特性质,还显著增强了不同模态之间的语义交互,从而优化了对地物要素的分类精度与效果。得益于低秩局部亲和模式的采用,本文方法通过多次迭代深化了模态间的信息流通,有效建立了长距离依赖关系,进一步提升了跨模态信息整合的效能与深度。

3 实验与分析

3.1 数据集介绍

本文在开源ISPRS Vaihingen二维语义标签数据集上进行了详尽的实验验证,该数据集作为开放的基准测试资源,可通过网络便捷获取。如图5直观展示,该数据集由三大核心部分组成:首先是33张高质量的正射影像,为分析提供了清晰的视觉基础;其次是基于密集图像匹配技术生成的精确高程数据,增添了地形维度的信息;最后是详尽的地表真实标签,作为评估算法准确性的标准。在实验中,数据集被精心划分为训练集(含16组数据)与测试集(含剩余17组数据),以确保算法性能评估的严谨性与全面性。该数据集涵盖了高分辨率的图像,每张图像的尺寸均达到约2 500×2 000像素,确保了地表细节的精准捕捉,其地表采样距离精细至9 cm,进一步提升了数据的精确度。在语义标签层面,数据集详尽地划分了六大类别,包括地表、建筑物、草、树木、汽车以及背景,这些地物要素全面覆盖了城市及自然环境中常见的地表覆盖类型,为后续的图像分析与理解提供了丰富的语义信息。
图5 ISPRS Vaihingen数据集示意图

Fig.5 Schematic diagram of ISPRS Vaihingen dataset

3.2 实验细节

本文的实验依托PyTorch框架,在特斯拉P100 GPU上高效运行,采用批量处理方式,每批次处理4张图像。我们选用在ImageNet数据集上预训练的ResNet-101模型作为特征提取的共享骨干网络。为了构建一个高效的学习系统,我们设计了一个端到端的网络架构,并设定初始学习率为0.01,该学习率随着训练迭代的逐步调整而降低。在优化模型时,我们采用了随机梯度下降法,并设定了0.000 5的权重衰减系数以增强模型的泛化能力,同时设置动量系数为0.9,以加速收敛过程。训练阶段,我们对图像随机裁剪至512×512像素进行处理以增强数据多样性;而在测试阶段,通过引入多尺度输入策略,进一步提升了模型在多模态遥感地物要素分类上的性能表现。

3.3 评价指标

为了全面评估本文方法在多任务上的泛化性能,本节介绍了多模态遥感地物要素分类任务的评价指标。
本文采用平均F1(mF1)分数、整体精度(overall accuracy, OA)和平均交并比(mean intersection over union, mIoU)作为评价指标。假设语义类别数为C,Nij表示真值类别为i、预测值为j的像素总数。mF1分数主要通过精确率(precision)和召回率(recall)来计算:
$\ { precision }=\frac{N_{i i}}{N_{i i}+N_{i j}}, \quad \ { recall }=\frac{N_{i i}}{N_{i i}+N_{j i}}$
$F_{1}=\left(1+\beta^{2}\right) \cdot \frac{\text { precision } \cdot \text { recall }}{\beta^{2} \cdot(\text { precision }+ \text { recall })}, \beta=1$
$m F_{1}=\frac{1}{C} \sum_{i=1}^{C} F_{1}$
OA表示分割任务中预测正确的像素与所有像素的比值:
$O A=\frac{\sum_{i=1}^{C} N_{i i}}{\sum_{i=1}^{C} \sum_{j=1}^{C} N_{i j}}$
mIoU则用于衡量语义分割任务中预测结果和真实标签之间的相似度,具体可以表示为
$m {IoU}=\frac{1}{C} \sum_{i=1}^{C} \frac{N_{i i}}{\sum_{j=1}^{C} N_{i j}+\sum_{j=1}^{C} N_{j i}-N_{i i}}$

3.4 实验结果

3.4.1 消融实验分析

为了评估本文提出方法的性能,本节在Vaihingen数据集上开展了大量实验,具体实验结果见表1。本文采用主干网络为ResNet-101的全卷积神经网络作为基线Baseline-S,表示只输入可见光正射影像单一模态进行地物要素分类;基线Baseline-SD方法通过将IRRG图像与DSM数据在通道维度上直接拼接,实现了一种图像级的融合策略;Baseline-S-D方法作为传统的特征级融合技术,分别利用两个独立的主干网络处理IRRG正射图像和DSM数据,在特征层面不进行融合;本文方法Baseline-S-D+MFLFM则在Baseline-S-D基础上引入多模态特征融合模块MFLFM,通过捕捉不同模态数据之间的内在低维结构,整合和增强跨模态信息的表示能力。
表1 在Vaihingen测试集进行消融实验

Tab.1 Conduct ablation experiments on the Vaihingen test set

模型 输入 OA/% mIoU/% Params/M MACs/G 执行时间/s
Baseline-S IRRG 89.98 79.53 45.149 204.552 5.267
Baseline-SD IRRG+D 88.87 78.10 45.152 204.758 5.765
Baseline-S-D IRRG+D 90.28 81.21 89.490 400.516 10.53
Baseline-S-D+MFLFM IRRG+D 91.23 83.28 101.63 437.341 11.954
表1所示,单模态地物要素模型Baseline-S取得了89.98%OA和79.53%mIoU的优异性能;Baseline-SD相比基线Baseline-S,OA和mIoU性能却分别下降了1.11%和1.43%,这是因为简单的图像融合方法既难以促进网络捕获互补特征,又易引入不必要的冗余信息;Baseline-S-D相比基线Baseline-S,得益于联合推断二维语义信息和三维几何信息,OA和mIoU性能分别提升了0.30%和1.68%;本文提出的方法得益于挖掘不同模态数据之间的低秩亲和关系跨模态信息的表示能力,OA和mIoU性能分别提升了1.25%和3.75%。
为了进行综合比较,本节还在网络参数量、计算量和执行时间(无GPU)上对本文提出的Baseline-S-D+MFLFM模型与Baseline-S、Baseline-SD和Baseline-S-D进行了对比,其中,Baseline-S由于是单一模态模型,其参数量、计算量和执行时间分别为45.149 M、204.552 G和5.267 s;而本文提出的Baseline-S-D+MFLFM相比其他基线模型,牺牲少量参数、计算量及执行时间,实现了显著的性能提升。为确保公平,四种模型均在统一实验条件下评估,执行时间特指CPU上处理一幅大小为1×3×512×512的遥感影像所需的推理时长。

3.4.2 多模态特征融合策略对比分析

在本节的研究中,我们深入探讨了多模态特征低秩融合策略对于融合语义信息与高度信息的重要性及其实际效果。通过精心设计的三组对比实验(其中:模型Baseline-S-D w/o Feature Fusion表示未进行多模态特征融合;Baseline-S-D+CF则表示在特征层级简单地级联融合;Baseline-S-D+MFLFM则表示本文提出的多模态特征低秩融合),我们验证了不同融合方法相较于未进行特征融合的基线模型在性能上的显著提升。
表2所示,本文提出的MFLFM模块在实验中展现出了最优异的性能,具体表现为总体精度OA和平均交并比mIoU分别达到91.23%和83.28%。这一卓越成果的核心在于MFLFM模块有效利用了低秩融合的技术手段,不仅能够深入挖掘并融合来自不同模态(如语义亲和关系与高度亲和关系)的互补信息,还能通过降维处理减少冗余,保留最关键的特征信息。这种精细化的融合策略,使得模型在识别与提取地物要素时能够更加精准和高效,因为多模态间的互补性得到了充分的利用和放大。
表2 多模态融合策略在Vaihingen测试集对比结果

Tab.2 Comparison results of multimodal fusion strategies in Vaihingen test set

模型 OA/% mIoU/%
Baseline-S-D 90.28 81.21
Baseline-S-D+CF 90.56 82.84
Baseline-S-D+MFLFM 91.23 83.28
此外,为了直观地展现本文所提方法在地物要素分类任务中性能的提升,本文绘制了各类别的总体精度(OA)指标雷达图,如图6所示。这张雷达图清晰地揭示了,相比于传统方法,本文方法在处理诸如汽车、低植被等细小且难以区分的地物要素时,显著提升了分类精度。具体而言,这些在复杂地理场景中往往容易被忽视或误判的地物类型,在本文多模态特征低秩融合网络的精细处理下,其提取效果得到了质的飞跃,充分证明了该方法在增强模型对具有相似光谱特性地物要素特征捕捉与区分能力方面的有效性。
图6 多模态特征融合策略在各类别上性能对比雷达图

Fig.6 Comparison of performance of multimodal feature fusion strategy in various categories using radar chart

3.4.3 与其他方法的对比实验分析

本节在Vaihingen测试集上与其他先进方法进行了实验对比,定量分析结果如表3所示。在Vaihingen测试集上的对比实验中,本文所提出的方法显著优于现有的主流分类方法,不仅在mF1、总体精度(OA)和平均交并比(mIoU)等关键指标上达到了最优水平,而且在绝大多数地物类别的分类准确性上也展现出了明显的优势。这一结果不仅彰显了本文多模态地物要素分类策略的高度精确性,还进一步验证了该方法在复杂环境中识别与区分不同地物类型时的有效性和鲁棒性。
表3 在Vaihingen测试集上进行地物要素分类任务的定量结果

Tab.3 Quantitative results of land feature classification task on Vaihingen test set

方法 输入 地表 建筑物 汽车 mF1/% OA/% mIoU/%
FCN[19] IRRG 88.67 92.83 76.32 86.67 74.21 83.74 86.51 72.69
UZ_1[20] IRRG+nDSM 89.20 92.50 81.60 86.90 57.30 81.50 87.30
RoteEqNet[5] IRRG+DSM 89.50 94.80 77.50 86.50 72.60 84.18 87.50
S-RA-FCN[21] IRRG 91.47 94.97 80.63 88.57 87.05 88.54 89.23 79.76
DANet[22] IRRG 91.63 95.02 83.25 88.87 87.16 89.19 90.44 81.32
TreeUNet[23] IRRG+DSM 92.50 94.90 83.60 89.60 85.90 89.30 90.40
V-FuseNet[10] IRRG+DSM 92.00 94.40 84.50 89.90 86.30 89.42 90.00
DeepLabV3+[24] IRRG 92.38 95.17 84.29 89.52 86.47 89.57 90.56 81.47
PSPNet[18] IRRG 92.79 95.46 84.51 89.94 88.61 90.26 90.85 82.58
CASIA2[25] IRRG 93.20 96.00 84.70 89.90 86.70 90.10 91.10
GANet[26] IRRG 93.10 95.50 84.90 90.20 87.40 90.20 91.10
本文方法 IRRG+DSM 93.52 94.71 84.93 89.98 89.11 90.45 91.23 83.28
此外,本文在图7中定性对比了本文方法与单模态地物要素分类方法。在可视化对比中,以单模态方法Baseline-S作为基准,针对两个特定小场景(1 024*1 024像素)的测试结果揭示了本文方法的显著优势。如图7所示,在红色框定区域内,本文方法地物要素分类效果远超基线方法,特别是在区分二维外观相近的区域时展现出非凡的精准度。不仅如此,对于细小物体的边界勾勒也更为完整,这归功于本文多模态特征低秩融合策略的创新性。该策略通过有效整合二维上下文信息与三维高度数据,实现了更为全面和深入的地物特征理解,从而证明了联合利用这些多维信息在提升分类与识别精度方面的显著成效。
图7 ISPRS Vaihingen测试数据集上地物要素分类对比结果

Fig.7 Comparison results of land feature classification on ISPRS vaihingen test dataset

4 结束语

为了解决传统单模态遥感分类方法在处理复杂地表覆盖类型时面临的精度不足、信息利用不充分等问题,本文提出了基于多模态特征低秩融合的遥感地物要素分类网络,通过创新性地融合来自不同传感器的多模态数据,实现了对地表覆盖要素更为全面、深入地理解与分类。具体而言,引入一个权值共享的主干网络负责从每种模态的输入数据中提取初步的特征表示;接着,通过多模态特征低秩融合模块提取不同模块的低秩亲和矩阵,并对高层语义特征执行跨模态传输来增强模态间的语义交互,以获得更具鲁棒性和判别力的特征表示,进一步缓解由相似光谱特征引起的语义模糊;最后通过上采样操作将融合后的特征图恢复到与输入图像相同的分辨率,进一步提高分割结果的准确性和边缘平滑度。在ISPRS Vaihingen测试集验证中,本文方法显著优于经典算法,精准分割了建筑物、树木及低植被等地物要素。后续本文将进一步探索多模态遥感地物要素分类网络在不同地理区域、不同生态系统及多样气候条件下的自适应学习与优化,通过引入迁移学习、领域自适应等先进机器学习技术,提升模型对未知或变化环境的泛化能力,确保分类结果的准确性和可靠性,进而推动遥感地物分类在更广泛的跨领域应用中发挥重要作用。
[1]
张文凯, 刘文杰, 孙显, 等. 多源特征自适应融合网络的高分遥感影像语义分割[J]. 中国图象图形学报, 2022, 27(8): 2 516-2 526.

ZHANG W K, LIU W J, SUN X, et al. Multi-source features adaptation fusion network for semantic segmentation in high-resolution remote sensing images[J]. Journal of Image and Graphics, 2022, 27(8): 2 516-2 526.

[2]
高梁, 钱育蓉, 刘慧. 融合高度信息的遥感图像语义分割网络[J]. 计算机工程与设计, 2023, 44(8): 2 417-2 424.

GAO L, QIAN Y R, LIU H. Semantic segmentation network for remote sensing images with fused height information[J]. Computer Engineering and Design, 2023, 44(8): 2 417-2 424.

[3]
ZHOU R X, ZHANG W K, YUAN Z Q, et al. Weakly supervised semantic segmentation in aerial imagery via explicit pixel-level constraints[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-17.

[4]
LIU W J, ZHANG W K, SUN X, et al. HECR-net: height-embedding context reassembly network for semantic segmentation in aerial images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 9 117-9 131.

[5]
MARCOS D, VOLPI M, KELLENBERGER B, et al. Land cover mapping at very high resolution with rotation equivariant CNNs: Towards small yet accurate models[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 145: 96-107.

[6]
MARMANIS D, WEGNER J D, GALLIANI S, et al. Semantic segmentation of aerial images with AN ensemble of cnns[J]. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016, III3: 473-480.

[7]
邓国徽, 高飞, 罗志鹏. 基于改进的全卷积神经网络高分遥感数据语义分割研究[C]// 第四届高分辨率对地观测学术年会论文集, 武汉, 2017: 1 125-1 137.

DENG G H, GAO F, LUO Z P. Research on semantic segmentation of high-resolution remote sensing data based on improved fully convolutional neural network[C]// The 4th Annual Conference on High Resolution Earth Observation, Wuhan, 2017: 1 125-1 137.

[8]
LIU W J, ZHANG W K, SUN X, et al. Unsupervised cross-scene aerial image segmentation via spectral space transferring and pseudo-label revising[J]. Remote Sensing, 2023, 15(5): 1 207.

[9]
HUANG C, DAVIS L S, TOWNSHEND J R G. An assessment of support vector machines for land cover classification[J]. International Journal of Remote Sensing, 2002, 23(4): 725-749.

[10]
AUDEBERT N, LE SAUX B, LEFÈVRE S. Beyond RGB: Very high resolution urban remote sensing with multimodal deep networks[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 140: 20-32.

[11]
PAISITKRIANGKRAI S, SHERRAH J, JANNEY P, et al. Semantic labeling of aerial and satellite imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 9(7): 2 868-2 881.

[12]
PENG Y, SUN S H, WANG Z, et al. Robust semantic segmentation by dense fusion network on blurred VHR remote sensing images[C]// 2020 6th International Conference on Big Data and Information Analytics (BigDIA), Shenzhen, 2020: 142-145.

[13]
HAZIRBAS C, MA L N, DOMOKOS C, et al. FuseNet: incorporating depth into semantic segmentation via fusion-based CNN architecture[C]// Computer Vision-ACCV 2016. Cham: Springer International Publishing, 2017: 213-228.

[14]
CAO Z Y, DIAO W H, SUN X, et al. C3Net: cross-modal feature recalibrated, cross-scale semantic aggregated and compact network for semantic segmentation of multi-modal high-resolution aerial images[J]. Remote Sensing, 2021, 13(3): 528.

[15]
LIU W J, SUN X, ZHANG W K, et al. Associatively segmenting semantics and estimating height from monocular remote-sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 3 177 796.

[16]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 2016: 770-778.

[17]
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 2017: 2 980-2 988.

[18]
ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 2017.

[19]
LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, 2015: 3 431-3 440.

[20]
VOLPI M, TUIA D. Dense semantic labeling of subdecimeter resolution images with convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 55(2): 881-893.

[21]
MOU L C, HUA Y S, ZHU X X. Relation matters: relational context-aware fully convolutional network for semantic segmentation of high-resolution aerial images[J]. IEEE Transactions on Geoscience and Remote Sensing, 58(11): 7 557-7 569.

[22]
FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 3 146-3 154.

[23]
YUE K, YANG L, LI R R, et al. TreeUNet: Adaptive Tree convolutional neural networks for subdecimeter aerial image segmentation[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 156: 1-13.

[24]
CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]// Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 833-851.

[25]
BROMLEY J, GUYON I, LECUN Y, et al. Signature verification using a "siamese" time delay neural network[J]. Advances in Neural Information Processing Systems, 1993(6):1-10.

[26]
LI X, WEN C C, WANG L J, et al. Geometry-aware segmentation of remote sensing images via joint height estimation[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5.

Outlines

/