中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
雷达/导航/通信

雷达态势图像表格检测与识别

  • 蔡玉宝 ,
  • 李德峰 ,
  • 王宁 ,
  • 杜会盈 ,
  • 徐聪
展开
  • 中国电子科技集团公司第二十七研究所, 河南 郑州 450047

蔡玉宝(1989—),男,硕士,工程师,研究方向为人工智能。

李德峰(1974—),男,硕士,高级工程师。

Copy editor: 张培培

收稿日期: 2022-03-28

  修回日期: 2022-05-14

  网络出版日期: 2022-12-12

Table Detection and Recognition of Radar Situation Image

  • CAI Yu-bao ,
  • LI De-feng ,
  • WANG Ning ,
  • DU Hui-ying ,
  • XU Cong
Expand
  • The 27th Research Institute of CETC, Zhengzhou 450047, China

Received date: 2022-03-28

  Revised date: 2022-05-14

  Online published: 2022-12-12

摘要

随着军贸出口的指挥控制类武器装备种类增多,设计兼容不同国家、不同体制的雷达接口非常关键。而如何高效获取接口不开放的雷达目标信息是核心问题之一。因此,设计了一种基于数学形态学和深度学习的图像识别方法,用于获取雷达图像的情报信息,实现雷达图像信息的数字化转换,并将数据上传至指挥中心。通过网络摄像头实时采集雷达态势图像信息,采用数学形态学方法实现雷达图像文本定位与检测,并采用CRNN深度学习模型,完成雷达目标情报的识别与提取。结果表明,平均每帧雷达图像的识别时间在500 ms以内,准确率可以达到95%以上,满足实时性和准确性的要求。

本文引用格式

蔡玉宝 , 李德峰 , 王宁 , 杜会盈 , 徐聪 . 雷达态势图像表格检测与识别[J]. 指挥控制与仿真, 2022 , 44(6) : 110 -114 . DOI: 10.3969/j.issn.1673-3819.2022.06.018

Abstract

With the increase of the types of command and control weapons and equipment exported in military trade, the design of radar interfaces compatible with different countries and systems has become a key technology. How to efficiently obtain radar target information with closed interface is one of the core problems it faces. In this paper, an image recognition method based on mathematical morphology and deep learning is designed to obtain the intelligence information of radar image, realize the digital conversion of radar image information, and upload the data to the command center. The radar situation image information is collected by webcam in real time, while the text positioning and detection of radar image is realized by mathematical morphology method. Finally, the recognition and extraction of radar target information is completed by CRNN deep learning model. The results show that the average recognition time of each frame of radar image is less than 500 ms, and that the accuracy can reach more than 95%, which meets the requirements of real-time and accuracy.

近年来,我国军贸指挥控制武器系统的出口面临不同体制雷达的兼容问题。一些雷达侦测系统的通信接口不对外开放,且无法获取其通信协议。如何快速获取不同体制雷达实时侦测的情报信息,同时将多站点的情报信息融合并上传至指挥中心,有以下两种方式:1)对于可以直接获取接口协议的雷达侦测系统,通过设计接口转换模块,将不同格式的情报转换为统一的情报格式,这种方式比较简单、直接,且易于实现;2)对有些接口协议不开放的雷达侦测系统,可采取雷达图像识别的方法,间接获取雷达情报信息,这种方式适用于各型雷达侦测系统,但需要同时满足实时性和准确性的要求。
目前,雷达目标大多以坐标形式显示,为了方便人员操作,往往会增加表格显示内容。表格因简明扼要,信息丰富[1],被大量运用于现代雷达显示系统。因此,如何高效地从雷达态势图像定位表格区域,同时有效地识别雷达态势表格中的情报数据,是采用图像识别算法获取雷达情报信息的核心问题之一。

1 雷达态势图像表格检测与识别系统

1.1 研究现状

雷达态势图像中表格内容检测与识别问题,可以转化为自然场景下表格文本检测与识别问题。雷达态势图像中显示信息较多,如目标情报信息、控制信息、环境信息等,而目标情报信息可以从态势图像的表格中完整获取。上述任务可分解为两步:1)表格识别;2)文本识别。
Hu等人将表格识别分解为两个任务,即表格检测与结构识别[2]。表格识别可以采用传统算法和深度学习算法。传统算法大多基于启发式规则进行识别。Chandran等人[3]设计了树形式的表格识别系统,Kieninger等人[4]基于连通分支分析提出了T-Recs系统,Yildiz等人[5]提出了pdf2table方法,Koci等人[6]采用遗传算法进行表格识别。
近年来,随着深度学习目标检测算法研究的深入,基于深度学习算法的表格识别系统逐渐分为三个研究方向:表格检测、表格结构识别和端到端表格检测与识别[7]。表格检测以基于候选区域的算法(Faster RCNN)[8]和基于回归的算法(YOLO)[9]为典型代表。Sun等人[10]和Gilani等人[11]通过改进Faster RCNN网络在通用表格检测领域取得了不错的效果。Huang等人[12]采用YOLOv3模型对表格进行检测。Siddiqui等人[13]采用全卷积网络(FCN),Tensmeyer等人[14]提出SPLERGE表格结构识别模型进行表格结构识别。此外,还有采用循环卷积网络[15]和图神经网络[16]的表格结构识别模型。为克服单一模型级联耗时问题,常采用端到端的表格检测与识别模型,其中,以Schreiber等人[17]提出的DeepDeSRT系统和Paliwal等人[18]提出的基于图像语义分割模型TableNet的端到端的表格检测与识别算法为代表。
文本识别问题也可以分解为文本检测和文本识别两个步骤[19],在雷达态势图像中检测到表格,并进行结构识别,得到表格的物理结构,包含了文本检测步骤。Goel等人[20]提出的传统文本识别方法需要多步骤组合进行识别。基于深度学习的文本识别算法通常将文本识别分为文本特征提取和字符序列转化[21],其中,特征提取常采用通用卷积神经网络,如VGG、ResNet等[22];字符序列转化常采用CTC[23]模型和Sequence-to-Sequence(Seq2Seq)模型[24]
CRNN模型[25]采用CNN、RNN和CTC结构,是序列文本识别常用的算法。RARE模型[26]采用空间变换网络(STN)和序列识别网络(SRN),对扭曲变形文本支持较好。STAR-Net模型[27]采用空间变换网络(STN)和CRNN模型,对扭曲变形的文本有较好的性能表现。基于语义推理网络的SRN模型[28]采用CNN、并行视觉提取模块(PVAM)、全局语义推理模块(GSRM)和视觉语义融合解码器(VSFD),对并行处理支持较好。

1.2 技术途径

本文通过网络摄像头实时采集雷达态势界面图像,对态势图像中的表格和文本块进行定位,再进行文本识别。最终获取雷达目标信息,经筛选组合发送至指挥中心,系统组成如图1所示。
1)表格识别
目前,基于深度学习的表格检测与识别算法,在通用表格检测与识别场景中已经得到广泛应用。在某些特定场景中,如本文提出的雷达态势图像表格识别场景,为了提高识别准确率,需要对大量的自然场景图像训练样本进行训练,而在恶劣条件下(尤其是军用环境),大量的图像训练样本往往难以获取,且深度学习算法相对比较复杂,计算比较耗时。
通过分析特定雷达态势界面表格风格及布局,采用传统算法进行表格检测与识别,往往可以取得不错的检测结果,既保证了精度,又满足了实时性要求,因此,本文基于数学形态学算法对雷达态势图像中的表格进行检测与识别。
2)文本识别
文本识别一般可以分为文档文本识别和自然场景文本识别,传统文本识别算法在进行文档文本识别时,可以取得较高的识别准确率,但应用于自然场景时,其识别准确率较低。在自然场景文本识别领域,深度学习算法的应用越来越广泛。CRNN模型相对比较简单,处理效率较高,采用了CTC损失函数进行解码,对长文本序列有较好的识别效果;STAR-Net模型在CRNN模型的基础上增加了空间变换网络,对扭曲变形的文本识别有较好的性能表现,但对标准的文本识别效果相对差一些,且处理效率比CRNN更低;RARE模型同STAR-Net算法类似,支持扭曲变形文本和多向文本,算法同样面临处理效率低的问题;SRN模型充分利用了语义信息,提升了文本识别的准确率及鲁棒性,对并行处理支持较好,同时该模型还支持扭曲的文本序列识别,但是网络结构比较复杂,若对并行处理支持不好时,其识别效率反而会降低。
在提取到雷达态势图像中的表格后,我们对整个表格进行了倾斜矫正。表格中的文本字体相对单一,本文充分考虑算法处理效率和识别准确率后,选择基于CRNN模型的文本序列识别算法,该模型不仅简单,且识别效率和准确率较高。

2 雷达态势图像表格识别

2.1 图像预处理

雷达界面数据更新速率一般不高,不需要对视频的每一帧图像进行处理。若每帧图像都处理,会极大地浪费计算资源,且后端的处理速度也无法跟上。由于网络摄像机采用RTSP协议且内部有缓存,若后端处理耗时,就无法获取最新的图像帧,造成情报获取滞后。为解决上述问题,通过信号量控制后端处理线程和视频采集线程的同步,当后端线程处理完一帧图像后,再处理视频采集模块采集到的最新一帧视频图像,就能保证每次获取的图像都是当前采集的最新图像。
在自然场景中,尤其是军用环境中,自然光、灯光及其他因素会干扰摄像头的成像质量,为了消除干扰及噪声,需要对图像进行二值化处理。
本文采用自适应阈值算法对图像进行二值化处理,首先遍历整幅图像,通过计算得到移动平均值,若该像素值低于平均值,则设置该像素为黑色,否则,设为白色。通过设置灰度图像的邻域块大小,分别计算其平均值,再采用正向二值化设置像素值为
d= 1 , i f ( s > t h r e s h ) 0 , o t h e r w i s e

2.2 表格线检测与过滤

表格线一般为横线和竖线,对二值化图像进行开运算,可以检测到表格线,其原理是对一幅图像先进行腐蚀操作,再进行膨胀操作。
腐蚀算法的思路是设计一个核元素(类似模板),将其与图像做交运算,当核元素与二值化图像上对应像素值完全相等时,保留该元素。其计算如下:
S=XⓧB= x , y B x y X
其中,S为腐蚀后的图像,X为二值化图像,B为核元素。
膨胀算法与腐蚀算法类似,当核元素与二值化图像上对应像素值至少有一个像素相等时,保留该元素。其计算方式如下:
S=X⊕B= x , y B x y X Ø
通过构建不同的核对二值化图像进行开运算,可以检测出图像中的横线和竖线。得到的图像闭区域中存在较多的线条,可以设定合适的阈值过滤表格线,如果直线的长度大于阈值,则过滤,反之则保留,太小的直线可能是字符的笔划,还有的可能是噪声。

2.3 表格矫正

由于摄像机每次摆放位置不固定,其获取的图像可能存在倾斜现象,若直接处理整幅图像,会浪费计算资源,可以先对图像中表格内容进行图像切割,再依据表格的四个顶点坐标,对裁剪后的图像进行矫正。
本文采用透视变换的方法对雷达表格图像进行矫正,透视变换公式为
x y z= a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 u v 1
该变换是从二维空间变换到三维空间,而我们要得到的是二维图像,故需要对坐标进行归一化处理:
x'= x z= k 11 u + k 12 v + k 13 k 31 u + k 32 v + 1
y'= y z= k 21 u + k 22 v + k 23 k 31 u + k 32 v + 1
将坐标值代入公式(5)和(6),通过计算得到透视变换矩阵,利用透视变换完成图像矫正。

2.4 字符块定位

在特定场景下,通过分析雷达态势图像中表格的布局与结构,采用连通域标记法进行字符块定位,通过标记二值化图像中的像素点,使连通区域形成独立的被标识模块,进一步得到这些区域的轮廓、质心等几何参数。计算每个区域的面积,若连通域的面积太小,可能是随机噪声;面积太大,可能是背景或者其他对象。保留面积在指定范围内的连通域,就可以完成字符块定位。

3 文本识别

3.1 CRNN网络结构

为解决不定长文本识别问题,CRNN首先将输入图片进行缩放,使文本图像的高度始终为32,宽度不定,然后将归一化的图像作为输入,利用7层卷积神经网络(CNN)提取特征图,再按列切分特征图为1×512的特征序列,将特征序列输入两层双向长短期记忆网络(BLSTM)进行分类。在训练过程中,通过连接时间分类模型(CTC),实现字符位置与目标文本标签的近似软对齐,其网络结构如表1所示。
表1 CRNN网络结构
Type Configurations
转录层 Transcription -
循环层 Bidirectional-LSTM #hidden units:256
Bidirectional-LSTM #hidden units:256
卷积层 Map-to-Sequence -
Convolution #maps:512,k:2x2,s:1,p:0
MaxPooling Window:1x2,s:2
BatchNormalization -
Convolution #maps:512,k:3x3,s:1,p:1
BatchNormalization -
Convolution #maps:512,k:3x3,s:1,p:1
MaxPooling Window:1x2,s:2
Convolution #maps:256,k:3x3,s:1,p:1
Convolution #maps:256,k:3x3,s:1,p:1
MaxPooling Window:2x2,s:2
Convolution #maps:128,k:3x3,s:1,p:1
MaxPooling Window:2x2,s:2
Convolution #maps:64,k:3x3,s:1,p:1
输入 Input Wx32灰度图

3.2 损失函数

循环层输出的是不定长的序列,进行分类任务时,会出现较多的冗余字符,但是某些词语中可能存在两个重复的字符,简单地去掉冗余字符就不能得到完整单词,而CTC采用blank机制(重复的字符之间插入特定符号“-”)解决了该问题。
在处理不定长文本序列时,可能存在多个不同组合可以映射为目标文本标签路径。设BLSTM网络的输入为x,那么输出为l的概率为
p(l|x)= π B - 1 ( l ) p(π|x)
其中,B运算定义为目标标签的映射,πB-1(l)表示可以合并成目标标签l的所有路径集合,通过B映射及所有候选路径概率之和,使得CTC不用对输入序列进行精准切分。
CTC的损失函数O定义为负最大似然函数的对数:
O=-ln ( x , z ) S p ( l | x )=- ( x , z ) S ln p(l|x)

3.3 网络模型训练

CRNN网络模型可以使用一些公开的数据集进行训练,如ICDAR、SVT和COCO-Text等,在进行自然场景文本识别时,通用性较强。应用于雷达态势图像表格文本识别时,也能取得不错的效果,但这些数据集一般比较大,模型收敛较慢,训练时间较长。在特定的场景下,使用自己构造的训练数据集,可以减少训练时间,场景不复杂时,甚至可以提升识别准确率。
雷达态势图像中的目标信息往往以简洁、直观为主,那么,需要针对特定的雷达态势图像做语料收集和字体收集。以某型雷达为例,表格中的目标信息由英文字母、数字和小数点构成,其字体相对固定,那么,可以构造简洁的数据集进行训练,这样可以加快模型收敛速度,减少训练时间。

4 试验结果与分析

4.1 软硬件平台

试验所需的软件平台和硬件平台要求如下:
操作系统:Ubuntu 20.04;CPU:i9-11900K;GPU:RTX3090;内存:64 GB;深度学习框架:tensorflow-2.2.0;图像处理框架:opencv-4.2.0。

4.2 表格识别的时间与准确率

本文采用数学形态学算法进行雷达态势图像表格识别,在特定自然场景下,基于数学形态学算法的表格识别准确率可以达到100%,单帧图像平均处理时间为0.16 s。

4.3 文本识别的时间与准确率

本文处理的雷达态势表格中的目标数据为25行4列,表2是目前常用的几种文本序列识别算法分别在SVT和SVT-50数据集下的识别准确率。雷达态势图像中表格经倾斜矫正后,为标准文本识别,采用CRNN模型具有较高的识别准确率。
表2 文本识别准确率对比
数据集 CRNN RARE STAR-Net SRN
SVT-50 96.4% 95.5% 95.5% 91.5%
SVT 80.8% 81.9% 83.6% 85.5%
表3列出了上述四种文本序列识别算法处理单帧图像时的平均耗时。
表3 文本识别耗时对比
CRNN RARE STAR-Net SRN
耗时 0.31 s 0.52 s 0.58 s 0.39 s
对于特定雷达图像文本识别,由于其字体固定,语料简洁,通过构建合适的数据集,能有效提升识别准确率,在某些特殊的自然场景中,采用CRNN模型,其识别准确率可以达到99%,耗时也相对较少。

5 结束语

本文采用数学形态学算法检测特定场景下的雷达态势图像中的表格,然后通过CRNN算法进行表格文本识别,平均单帧图像处理的耗时小于500 ms(表格识别加文本识别的时间),识别准确率可以达到95%以上,满足实时性和准确率的要求,可以应用于特定场景下的雷达态势图像数字化转换,同时也为无人值守信息采集平台提供一种发展思路。
后期,针对雷达目标过多,表格内容显示不全的问题,增加雷达态势极坐标下的目标检测算法,并结合文本识别算法进行综合分析,将会得到更加优异的雷达图像信息数字化转换结果。
[1]
马志远, 余粟. 基于Faster-RCNN网络的表格检测算法研究[J]. 智能计算机与应用, 2020, 10(12):24-27,31.

[2]
Hu J, Kashi R S, D Lopresti, et al. Evaluating the Performance of Table Processing Algorithms[J]. International Journal on Document Analysis & Recognition, 2002, 4(3):140-153.

[3]
Chandran S, Kasturi R. Structural Recognition of Tabulated Data[C]∥2nd International Conference on Document Analysis & Recognition. Tsukuba, IEEE, 1993:516-519.

[4]
Kieninger T, Dengel A. The T-Recs Table Recognition and Analysis System[J]. Lecture Notes in Computerence, 1999, 1655(12):255-269.

[5]
Yildiz B, Kaiser K, Miksch S. pdf2table: A Method to Extract Table Information from PDF Files[C]∥Indian International Conference on Artificial Intelligence, Pune, DBLP, 2005:1773-1785.

[6]
Koci E, Thiele M, Romero O, et al. A Genetic-Based Search for Adaptive Table Recognition in Spreadsheets[C]∥ International Conference on Document Analysis and Recognition (ICDAR), Sydney: ICDAR, 2019:1274-1279.

[7]
孔令军, 包云超, 王茜雯, 等. 基于深度学习的表格检测识别算法综述[J]. 计算机与网络, 2021, 47(2):65-73.

[8]
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.

[9]
Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[EB/OL]. arXiv e-prints, 2018:1804.02767.

[10]
Sun N, Zhu Y, Hu X. Faster R-CNN Based Table Detection Combining Corner Locating[C]∥2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney: IEEE, 2019:1314-1319.

[11]
Gilani A, Qasim S R, Malik I, et al. Table Detection Using Deep Learning[C]∥2014 14th IAPR International Conference on Document Analysis and Recognition, Kyoto: IEEE, 2017:771-776.

[12]
Huang Y, Yan Q, Li Y, et al. A YOLO-Based Table Detection Method[C]∥2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney: IEEE, 2020:813-818.

[13]
Siddiqui S A, Khan P I, Dengel A, et al. Rethinking Semantic Segmentation for Table Structure Recognition in Documents[C]∥2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney: IEEE 2019: 1397-1402.

[14]
Tensmeyer C, Morariu V I, Price B, et al. Deep Splitting and Merging for Table Structure Decomposition[C]∥2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney: IEEE, 2019:114-121.

[15]
Khan S A, SMD Khalid, Shahzad M A, et al. Table Structure Extraction with Bi-directional Gated Recurrent Unit Networks[C]∥2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney: IEEE, 2019:1366-1371.

[16]
Qasim S R, Mahmood H,F Shafait. Rethinking Table Recognition using Graph Neural Networks[C]∥2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney: IEEE, 2019:142-147.

[17]
Schreiber S, Agne S, Wolf I, et al. DeepDeSRT: Deep Learning for Detection and Structure Recognition of Tables in Document Images[C]∥2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), Kyoto: IEEE, 2017:1162-1167.

[18]
Paliwal S S, Vishwanath D, Rahul R, et al. TableNet: Deep Learning Model for End-to-end Table Detection and Tabular Data Extraction from Scanned Document Images[C]∥International Conference on Document Analysis and Recognition (ICDAR), Sydney: IEEE, 2019:128-133.

[19]
杨伟东, 田永祥, 万峰, 等. 基于深度学习的车载屏幕文本检测与识别研究[J]. 光电子·激光, 2021, 32(4):395-402.

[20]
Goel V, Mishra A, Alahari K, et al. Whole is Greater than Sum of Parts: Recognizing Scene Text Words[C]∥2013 12th International Conference on Document Analysis and Recognition (ICDAR), Washington: IEEE, 2013:398-402.

[21]
王建新, 王子亚, 田萱. 基于深度学习的自然场景文本检测与识别综述[J]. 软件学报, 2020, 31(5):1465-1496.

[22]
白志程, 李擎, 陈鹏, 等. 自然场景文本检测技术研究综述[J]. 工程科学学报, 2020, 42(11):1433-1448.

[23]
Graves A, Santiago Fernández, Gomez F. Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks[C]∥International Conference on Machine Learning, New York: IEEE, 2006:993-1000.

[24]
Sheng F, Chen Z, Xu B. NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition[EB/OL]. arXiv e-prints, 2018:1806.00926.

[25]
Shi B, Bai X, Yao C. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 39(11):2298-2304.

[26]
Shi B, Wang X, Lyu P, et al. Robust Scene Text Recognition with Automatic Rectification[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016:4168-4176.

[27]
Wei L, Chen C, Wong K Y, et al. STAR-Net: A SpaTial Attention Residue Network for Scene Text Recognition[C]∥2016 27th BMVC British Machine Vision Conference, York: IEEE, 2016:43.1-43.13.

[28]
Yu D, Li X, Zhang C, et al. Towards Accurate Scene Text Recognition With Semantic Reasoning Networks[EB/OL]. arXiv e-prints, 2020:2003.12294.

文章导航

/