中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
智能信息融合

基于卷积神经网络草图指令识别技术研究*

  • 周宇 1, 2 ,
  • 张京涛 1, 2 ,
  • 李立纲 1, 2 ,
  • 张晓艳 1
展开
  • 1 国防大学联合作战学院, 河北 石家庄 050081
  • 2 智能博弈重点实验室, 北京 100091

周 宇(1987—),男,博士研究生,高级工程师,研究方向为军事运筹与作战实验。张京涛(1981—),男,高级工程师。

Copy editor: 张培培

收稿日期: 2024-11-09

  修回日期: 2024-12-01

  网络出版日期: 2025-03-27

基金资助

*智能博弈重点实验室自主立项课题

Research on sketch instruction recognition technology ased on convolutional neural network

  • ZHOU Yu 1, 2 ,
  • ZHANG Jingtao 1, 2 ,
  • LI Ligang 1, 2 ,
  • ZHANG Xiaoyan 1
Expand
  • 1 Joint Operations College, National Defense University, Shijiazhuang 050081
  • 2 Key Laboratory of Intelligent Gaming, Beijing 100091, China

Received date: 2024-11-09

  Revised date: 2024-12-01

  Online published: 2025-03-27

摘要

针对传统草图指令识别准确率低的问题,提出了一种基于卷积神经网络草图指令识别技术。通过构建与优化卷积神经网络模型,利用大量草图指令样本训练,训练全程紧密监测验证集准确率,以此为依据实时、动态调整学习率。搭配L2正则化与Dropout双保险策略,协同抑制过拟合。L2正则化约束权重规模,Dropout随机失活神经元,两者相辅相成,能够提高模型对不同草图指令识别的准确率,验证了人机交互体验的优化结果。

本文引用格式

周宇 , 张京涛 , 李立纲 , 张晓艳 . 基于卷积神经网络草图指令识别技术研究*[J]. 指挥控制与仿真, 2025 , 47(2) : 95 -101 . DOI: 10.3969/j.issn.1673-3819.2025.02.012

Abstract

In order to solve the problems of low accuracy of traditional sketch instruction recognition, a sketch instruction recognition technology based on convolutional neural network is proposed. By constructing and optimizing the convolutional neural network model, a large number of sketch instruction samples are used for training, and the accuracy of the validation set is closely monitored throughout the training process, and the learning rate is dynamically adjusted in real time and based on this. With L2 regularization and Dropout dual insurance strategies, overfitting is synergistically suppressed. L2 regularization constraint weight scale and Dropout randomly inactivated neurons complement each other, which can improve the accuracy of the model in recognizing different sketch instructions and improve the human-computer interaction experience.

当今数字化转型浪潮下,人机交互领域不断拓展,草图指令识别愈发关键。传统人机交互多依赖文本输入、鼠标点击,繁琐低效,难以满足人们快速捕捉灵感、即时传达复杂设计理念的诉求[1]。手绘草图凭借直观、便捷的优势,成为各行业创意萌发、方案初拟的得力工具。设计师能迅速勾勒服装样式、室内布局;工程师现场手绘机械零件轮廓辅助维修;教师借学生草图洞察知识掌握情况。随着智能设备普及,电子草图兴起,亟待精准、高效的自动识别技术将手绘内容转化为数字指令,驱动后续流程。
早期草图识别聚焦几何特征提取,基于边缘检测、形状描述来剖析草图[2],虽能识别简单图形,但面对稍复杂的交叉、重叠图形就漏洞百出。模板匹配是将草图与预设标准模板对比,可一旦手绘偏离模板,准确率骤降,灵活性极差。伴随机器学习发展,支持向量机(SVM)用于草图分类,通过寻找最优分类超平面划分不同图形类别,但人工特征选取耗时费力,且对大规模、多风格草图适应性弱。隐马尔可夫模型(HMM)尝试解析草图绘制顺序、线条走向规律[3],用于手势、笔画识别,却因手绘随机性强,模型假设条件常难契合实际,效果受限。深度学习兴起后,CNN崭露头角。初期研究多套用通用图像识别 CNN 架构,虽精度优于传统方法,但未深挖草图特质,手绘抖动、风格多变问题未妥善解决;后续改进聚焦定制化,依草图特点调参、改结构,结合循环神经网络(RNN)捕捉笔画顺序信息,拓展时间维度特征[4];有的研究用生成对抗网络(GAN)生成草图扩充样本,强化模型泛化力,为 CNN 草图识别持续注入活力,但以上研究对草图指令识别准确率仍没有明显提升。
本文提出了一种基于卷积神经网络草图指令识别技术。通过构建与优化卷积神经网络模型,利用大量草图指令样本训练,训练全程紧密监测验证集准确率,以此为依据实时、动态调整学习率。搭配L2正则化与Dropout双保险策略,协同抑制过拟合。L2正则化约束权重规模,Dropout随机失活神经元,两者相辅相成,能够提升模型对不同草图指令识别的准确率,提高了人机交互体验。

1 草图指令标绘

草图指令标绘的目的是自然、快速和高效地将含有指挥意图的手绘信息映射到军事电子地图上,实现对军事行动的高效指挥与控制。

1.1 指令标绘

指令标绘主要是对指令手势等信息有效标绘,通过手势书写和基于GIS的绘制共同实现。一是在电子地图的基础上,通过手势书写方式在电子地图上进行指令绘制,并与电子地图配对保存,采样点位置一般通过经纬度记录[5];二是基于网页端GIS二次开发函数接口为规则和非规则图形附加基本控制属性(长、宽、衬色、填充等属性)和扩展属性(组合、锚定、闪烁等属性)。

1.2 草图识别

草图识别主要是对标绘信息的有效识别,其中,手势包含用户的简单笔画(如绘制线条、箭头等)及自由批注(自由书写态势相关批注信息)等信息;军标包含规则军标(其一般代表无地理意义的目标[6],如各级指挥所、各类武器库等,一般由点、线、三角形等基本图形单元组成)和非规则军标(其一般代表有地理意义和形态、能反映作战态势变化的军标集合)。此外,规则军标和非规则军标还可以进一步组合成更复杂的军标,并采用卷积神经网络的小样本图像识别模型对手绘草图进行识别训练,如图1所示。
图1 基于卷积神经网络的草图识别模型

Fig.1 Sketch recognition model based on convolutional neural network

2 草图标绘指控系统构建

2.1 系统总体架构

草图标绘指控系统主要由输入与信息综合处理子系统、态势查看与草图标绘子系统和态势分析与指挥决策子系统构成,如图2所示。其中,输入与信息综合处理子系统、态势查看与草图标绘子系统为态势分析与指挥决策子系统提供了数据与交互方式,简化了指挥控制的流程。
图2 系统总体架构图

Fig.2 Overall system architecture

2.2 输入与信息综合处理子系统

输入与信息综合处理子系统的主要作用是为用户提供信息输入端口,并采用有效方法对草图标绘信息及其他态势进行采集与处理,构建地理数据[7]、标绘数据和其他数据的离线知识库,以便为态势查看与草图标绘、态势分析与指挥决策提供数据基础。其逻辑架构如图3所示。
图3 输入与信息综合处理子系统

Fig.3 Integrated input and information processing subsystem

2.2.1 用户输入与访问

指挥人员可以通过笔式交互、语音与手势交互等直接交互方式或传统交互方式,完成与地理信息系统、可视化显示系统的交互,同时,为了方便用户编辑草图而不影响地图显示,将草图与电子地图分开存储,以图层叠加的形式进行显示。

2.2.2 信息采集与处理平台

信息采集与处理平台用于接入、处理、存储和分发数据,并构建军标与手势数据库,为作战过程中的军标、手势在线识别提供数据基础。针对手势标绘识别,基于图卷积神经网络的识别模型能够提取全局和局部特征,有效识别手势类标绘,并将其转化为规整的标绘。

2.3 态势查看与草图标绘子系统

态势查看与草图标绘子系统主要实现指挥业务到双手触摸手势的映射过程,主要包括态势查看和草图标绘2个模块,逻辑架构图如图4所示。
图4 态势查看与草图标绘子系统

Fig.4 Situation view and sketch drawing subsystem

2.3.1 态势查看模块

战场态势查看包含态势选择、视角的调整、点查和面查等若干任务。其中,视角的调整主要通过缩放、移动和旋转(三维角度)电子地图而实现,缩放地图通过手指的“捏放”动作实现,移动地图通过“拖拽”的动作来实现,旋转地图通过“拧”的动作来实现。点查和面查是为了查看目标的具体属性,其利用手指或类笔工具对若干控制点进行控制,以实现上述操作。其中,点查是为了查看选定目标对象(如码头、机场、车站)的详细属性信息(一般以列表的形式显示),可以直接点触目标来查询目标信息;面查是为了查看某一区域内多个目标的详细属性信息,通过手指关节连续滑动来迅速划定多边形区域。

2.3.2 草图标绘模块

草图绘制主要采用基于网页端GIS的军标绘制,指挥人员通过在态势蒙版上自由绘制一些图形来表达自己的指挥意图,通过线条、文字和简图体现出来。此外,用户可以选择画笔的颜色、粗细、笔型,还可以自定义文字的内容、大小和颜色,来表示不同的含义。同时,该模块具备橡皮擦属性,对绘制的内容进行重复修改。

2.4 态势分析与指挥决策子系统

态势分析与指挥决策子系统利用输入与信息综合处理子系统、态势查看与草图标绘子系统提供的数据,设计多套辅助决策方案,不断优化并集成至辅助决策数据库中,在实际作战过程中,实时监控作战情况,并在作战结束后,利用输入与信息综合处理子系统、态势查看与草图标绘子系统进行作战评估,将评估结果反馈至辅助决策数据库。

3 卷积神经网络草图指令识别系统构建

3.1 数据预处理

基于卷积神经网络的小样本图像识别模型采用卷积神经网络与小样本学习技术,实现对基础手绘指令的识别。同时,其利用卷积层和池化层来自动提取图像中的特征并据此完成分类。与传统的图像识别方法相比,其具备参数共享、自动特征学习和多维度特征提取三大特征,拥有更高的计算效率、更强的泛化能力和更好的扩展能力。
系统对采集的数据集进行统一标准化尺寸、灰度转化剔除色彩干扰。其运用反转、旋转、缩放、错切等数据增强战术,“繁衍”多样变体,既扩充样本库容,又锤炼模型对复杂情形的泛化“韧性”。

3.2 模型架构搭建

系统采用多层卷积与池化交替结构,前端卷积层逐步提取草图细节、轮廓特征;中间插入批标准化层,稳定训练过程;后端接全连接层,用 Softmax 分类,输出各类草图指令概率。
本次研究用到的基于卷积神经网络的小样本图像识别模型的网络结构包括六层,如图5所示。
图5 模型网络结构

Fig.5 Model network structure

模型网络结构由左至右依次为卷积层1、最大池化层1、卷积层2、最大池化层2、Flatten层和密集层(即全连接层)。
模型输入的待识别图像数据是32x32像素的黑白图片,故输入层的张量形状为[32,32,1](高度、宽度、颜色通道)。
卷积层1使用8个滤波器(或称为卷积核)对输入的图像进行卷积操作,提取图像的局部特征,输出的张量形状为[28,28,8]。在卷积层1后添加ReLU激活函数以增加数据的非线性特征。
最大池化层1作为下采样,获取一个区域中的最大值,以降低特征图的分辨率,减少计算量和参数数量,输出的张量形状为[14,14,8]。
重复上述卷积层与最大池化层操作,卷积层2使用16个滤波器,输出的张量形状为[10,10,16],最大池化层2输出的张量形状为[14,14,8]。
Flatten层将输出展平为1维向量,以便将其输入到最后一层。
密集层(即全连接层)输出的通常是一个概率分布,表示输入图像属于各个类别的概率,该模型具有10(可根据分类种类调整)个输出单元,每个输出对应一类手绘指令。

3.3 数据准备

小样本图像识别任务对数据质量要求较高,数据准备尤为重要,以下是数据准备过程中的关键步骤:
第一步,数据收集:需要收集一定数量和质量的图像数据,并确保数据覆盖所有需要识别的10种类型。
第二步,数据预处理:对收集的数据进行图像缩放、裁剪、归一化等操作,以确保输入数据的一致性。
第三步,数据增强:通过旋转、翻转、平移、缩放等操作增加数据集的多样性,提高模型的泛化能力。
本研究每种类型的原始数据80张,共800张。通过数据增强生成约3倍于原始数据集的增强数据,共2 400张,部分增强数据如图6所示。
图6 部分增强数据

Fig.6 Partially enhances the data

增强后的数据按照4∶1划分为训练集和验证集,在原始数据集中随机选取80%作为测试集,数据集划分见表1
表1 数据集划分

Tab.1 Data set division

数据集 数据量 来源
训练集 1 920 增强数据
验证集 480 增强数据
测试集 640 原始数据

3.4 模型训练与优化

依据数据集划分训练、验证、测试集,本文选用交叉熵作为损失函数,Adam优化器动态调整学习率训练,检测验证集准确率,适时调整超参数;引入L2正则化抑制过拟合,强化特征提取。
模型训练主要步骤如下:
第一步,模型初始化:随机初始化卷积层和全连接层的权重和偏置;
第二步,前向传播:将预处理后的图像数据输入模型中,通过卷积层、池化层和全连接层进行前向传播,得到输出结果;
第三步,损失计算:计算输出结果与真实标签之间的损失,该训练过程使用交叉熵损失函数;
第四步,反向传播:使用梯度下降等优化算法更新模型的权重和偏置,以最小化损失函数;
第五步,迭代训练:重复前向传播、损失计算和反向传播的过程,直到模型在验证集上的性能不再显著提高或达到预设的迭代次数,如图7所示。
图7 “扫雷”模型训练过程

Fig.7 Training process of the "minesweeper" model

通过模型训练实验,当训练轮次(Epoch)为100时,训练结果达到可接受的准确率,总体训练准确率见表2,各类指令之间的混淆矩阵见表3
表2 总体训练结果

Tab.2 Overall training results

数据集 评估指标 结果数值
训练集 准确率 98.958%
验证集 准确率 98.750%
测试集 准确率 96.875%
表3 混淆矩阵

Tab.3 Confusion matrix

类别 0 1 2 3 4 5 6 7 8 9
0 98.438 0 1.562 0 0 0 0 0 0 0
1 0 96.876 0 0 1.562 0 0 0 1.562 0
2 0 0 98.438 0 1.562 0 0 0 0 0
3 0 0 0 98.438 1.562 0 0 0 0 0
4 0 3.124 3.124 0 89.062 0 0 0 4.690 0
5 0 0 0 0 0 98.438 0 0 1.562 0
6 0 0 0 0 1.562 0 98.438 0 0 0
7 0 0 0 0 1.562 0 0 96.876 1.562 0
8 0 1.562 0 0 3.124 0 0 0 95.314 0
9 0 0 0 0 1.562 0 0 0 0 98.438

4 原型系统验证

为了更好地验证草图指令下达的有效性,本文依托某培训班次共151人,基于草图标绘指控原型系统开展实验验证,后台收集3天试用中的指令下达图像、指令识别情况、指令执行结果等信息,经过比对分析,形成统计数据见表4
表4 草图标绘指控原型系统运用统计

Tab.4 Statistics on the use of the sketch drawing allegation proto type system

指令类型 圈选 进攻 侦察 返场 支援 监视 布雷 扫雷 护航 投送
下达次数 3 922 2 747 2 981 562 787 1 560 146 168 522 1 843
成功率% 99.1 95.3 98.6 94.3 89.2 96.6 98.2 95.8 94.3 98.0
原型系统使用效果如图8图9所示。
图8 手绘指令操作流程

Fig.9 Hand-drawn instruction operation flow

图9 手绘指令图例

Fig.9 Hand-drawn instruction legend

5 结束语

本研究通过构建高效识别系统,利用大量草图指令样本训练,通过卷积神经网络提升传统草图指令识别精度,提高了人机交互体验。但卷积神经网络草图识别仍存在挑战。高质量标注数据难获取、训练耗时耗能;模型对罕见草图样式化欠佳;跨领域识别精度待提升。未来,研究人员拟结合生成对抗网络扩充数据,探索轻量级模型优化效率,融入语义理解提升跨领域识别能力。
[1]
朱鸿展. 融合手势与语音的多通道标绘交互技术研究[D]. 长沙: 国防科学技术大学, 2014.

ZHU H Z. Research on multi-channel plotting interaction technology integrating gesture and voice[D]. Changsha: National University of Defense Technology, 2014.

[2]
佘鹏, 甘健侯, 文斌, 等. 经典深度卷积神经网络模型在手绘草图识别中的应用研究[J]. 云南师范大学学报(自然科学版), 2018, 38(1): 29-34.

SHE P, GAN J H, WEN B, et al. Sketch recognition using classic deep convolutional neural network model[J]. Journal of Yunnan Normal University(Natural Sciences Edition), 2018, 38(1): 29-34.

[3]
LI F F, FERGUS R, PERONA P. One-shot learning of object categories[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(4): 594-611.

[4]
印桂生, 严雪, 王宇华, 等. 基于卷积神经网络的手绘草图识别[J]. 吉林大学学报(信息科学版), 2019, 37(4): 417-425.

YIN G S, YAN X, WANG Y H, et al. Sketch recognition based on convolution neural network[J]. Journal of Jilin University(Information Science Edition), 2019, 37(4): 417-425.

[5]
赵鹏, 刘杨, 刘慧婷, 等. 基于深度卷积-递归神经网络的手绘草图识别方法[J]. 计算机辅助设计与图形学学报, 2018, 30(2): 217-224.

ZHAO P, LIU Y, LIU H T, et al. A sketch recognition method based on deep convolutional-recurrent neural network[J]. Journal of Computer Aided Design & Computer Graphics, 2018, 30(2): 217-224.

[6]
郑新涛, 苏道玉. 基于小波矩的智能手绘草图识别系统设计[J]. 现代电子技术, 2021, 44(12): 177-181.

ZHENG X T, SU D Y. Design of intelligent sketch recognition system based on wavelet moment[J]. Modern Electronics Technique, 2021, 44(12): 177-181.

[7]
李鸿雁, 苏庭波. 基于贝叶斯网络和卷积神经网络的手绘草图识别方法[J]. 西南师范大学学报(自然科学版), 2019, 44(9): 96-102.

LI H Y, SU T B. Sketch recognition with Bayesian network and convolution neural network[J]. Journal of Southwest China Normal University(Natural Science Edition), 2019, 44(9): 96-102.

文章导航

/