中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
装备总体技术

基于分类算法的装备健康度评估方法

  • 吕婷婷 ,
  • 凌海风 ,
  • 苏正炼 ,
  • 王清 ,
  • 彭晖
展开
  • 陆军工程大学野战工程学院, 江苏 南京 210007

吕婷婷(1989—),女,硕士研究生,研究方向为装备信息化。

凌海风(1972—),女,博士,教授。

Office editor: 许韦韦

收稿日期: 2022-09-05

  修回日期: 2022-09-27

  网络出版日期: 2023-04-17

Evaluation method of equipment health degree based on classification algorithm

  • LYU Ting-ting ,
  • LING Hai-feng ,
  • SU Zheng-lian ,
  • WANG Qing ,
  • PENG Hui
Expand
  • College of Field Engineering, Army Engineering University, Nanjing 210007, China

Received date: 2022-09-05

  Revised date: 2022-09-27

  Online published: 2023-04-17

摘要

装备健康度的准确评估是装备作战训练工作开展和维修保障对策实施的基础,针对传统装备健康状况难以科学评估的问题,提出了综合考虑装备寿命、使用维修情况、装备及其子系统健康状况的装备健康度评价模型,结合装备健康度分类多和样本数据不平衡的特点,采用7种分类算法和10种样本均衡方法对装备健康度进行评估。实验表明,综合运用Near-Miss、SMOTEENN、SMOTE Tomek采样方法和DT、GBDT、RF分类算法,可以有效提高装备健康度分类和指标水平,为装备健康状况的合理评估提供了有效方法。

本文引用格式

吕婷婷 , 凌海风 , 苏正炼 , 王清 , 彭晖 . 基于分类算法的装备健康度评估方法[J]. 指挥控制与仿真, 2023 , 45(2) : 45 -52 . DOI: 10.3969/j.issn.1673-3819.2023.02.007

Abstract

The accurate assessment of equipment health is the basis for the development of its equipment combat training and maintenance support countermeasures. In view of the problem that the health status of traditional equipment is difficult to scientifically assess, a comprehensive consideration of equipment life, use and maintenance, and the health status of equipment and its subsystems are proposed. Based on the equipment health evaluation model, combined with the characteristics of multi-classification of equipment health and unbalanced sample data, seven classification algorithms and ten sample balance methods are used to evaluate equipment health. Experiments show that the comprehensive use of Near-Miss, SMOTEENN, SMOTE Tomek sampling method and DT, GBDT, RF classification algorithms can effectively improve the indicators of equipment health classification, and provide an effective method for reasonable evaluation of equipment health status.

武器装备是我国战略支撑力量的重要组成部分,当前装备是否具有优良的作战能力,直接影响作战任务的完成,因此,良好的装备健康状态是提高战斗力的重要保障。通常,装备的健康状态可按照完好性分为完好和不完好,亦可根据质量等级分为新品、堪用品、待修品、废品等四类,存在分类分级标准不统一,评价标准简单,主观性强和评估结果精确性不足等问题[1]。近年来,诸多学者在健康评价方面进行了广泛研究,文献[2]针对舰船装备健康状态进行评估,提出了单个舰载装备和多个装备组成的装备系统的健康状态评估方法;文献[3]针对智能电网服务体系过于庞大,不可控因素太多,引入机器学习中的半监督学习方法,以实时评估电网的健康状态,避免在运行中发生异常。
为细致地对装备健康度进行评估,本文结合装备结构和运行特点,将装备健康度的健康等级划分为优、良、中、差、故障五个类别[4],提出了基于机器学习分类算法的装备健康度评估方法,将装备健康度的评估转换为机器学习多分类问题。

1 装备健康度评估指标体系构建

1.1 装备健康度评估指标体系分析

科学合理的评估指标体系是准确评估装备健康度的基础,而装备是由各种子系统和部件构成,因此,装备健康度评估指标体系一般基于装备总体组成和各子系统建立。由于装备结构复杂,影响其评估结果的因素众多,为制定科学合理的指标体系,应从中明确影响装备健康度评估的主要因素。
发动机作为装备的核心部件,其健康状况对装备整体的健康状态有重大影响。另外,各种子系统的健康状态同样在很大程度上决定着装备能否发挥其主要功能,例如电气系统、武器系统、行驶系统等。最后,装备的运行由各部件各子系统互相作用而成,各因素之间的权重比例也是影响装备健康状态评估结果的关键因素。因此,本文将装备健康状态的影响因素分为总体硬件表现、各子系统功能以及两者之间的工作机制三类。其中,装备的总体硬件表现是装备正常运行的关键,而装备的子系统是装备实现其功能的基础,如图1所示。
图1 装备健康度影响因素逻辑图

Fig.1 Logical diagram of factors affecting equipment health

根据装备的结构特点和工作运行机制,可确定如图2所示的装备健康度评估指标体系[5]
图2 装备健康度评估指标体系

Fig.2 Equipment health evaluation index system

装备的健康度评估指标体系共分成三层。底层为监测装备各部件和系统的运行状态而获得的数据指标,比如储备消耗、动力系统、传动系统等;中间层为装备总体健康度和子系统健康度,通过构建装备健康度评估模型可计算获得评估指标;顶层为装备的综合健康度,直接决定装备的健康状况。

1.2 评估指标量化

装备健康度评估指标体系可以分为两大类:装备总体健康度和装备子系统健康度。其中,装备总体健康度的指标主要包括:
1)燃料、动力消耗正常范围内取值为0,不正常值为1;
2)油、水、气、电泄露现象,无为0,有为1;大中修次数以实际次数为准;
3)当前装备的储备消耗,按照>90%,70%~90%,50%~70%,30%~50%,10%~30%和<10%依次赋值0~5。
装备的子系统可划分成车体、动力系统、武器系统、操纵系统、电气系统、传动系统、行驶系统、观瞄系统、通信系统和其他装置等,各子系统技术状况可分成优、良、中、差、故障5大类,取值依次为0~4。若某一装备没有该子系统,则固定取值为0。

1.3 装备健康度等级分类

装备健康度等级分类不宜过多,否则会导致等级不同的装备在维修保养时,采取措施不易明确。为更好地描述装备的健康状态,本文将装备的综合健康度分成优、良、中、差、故障5个类别,取值依次为0~4。专家评判装备健康度的基本标准[6]表1所示。
表1 装备健康状态等级划分

Tab. 1 Equipment health status classification

健康状态等级 等级描述 健康度分类
装备的测量数据都在正常范围内,且都靠近标准的参数值,远离临界值,无须进行维修工作 0
装备的测量数据都在正常范围内,但一些数据在标准值上下小范围浮动,离临界值还很远,只需按计划进行维护和监控 1
装备的测量数据都在正常范围内,但一些数据在标准值上下大范围浮动,并没有达到临界值,需在计划维护前进行维修,并加强监控 2
装备的测量数据均在正常范围内,但一些数据接近临界值,需要重点监测,尽快进行维修工作 3
故障 装备的部分测量数据已超过临界值,必须立即进行维修工作 4
根据提出的评估指标体系,结合专家打分,得到装备健康度评估的样本数据,如表2所示。
表2 装备健康度评估采集部分数据示例表

Tab. 2 Example table of data collected for equipment health assessment

评估指标 装备1 装备2 装备3 装备4 装备n
燃料、动力等消耗是否正常 0 0 0 0 0
有无漏油、漏水、漏气、漏电现象 0 0 0 0 0
大中修次数(0/1/2/3/>3) 0 0 0 4 0
储备消耗 3 2 3 1 1
车体 0 2 1 1 0
动力系统 1 1 1 1 2
传动系统 1 1 1 1 0
操纵系统 1 3 0 1 1
行驶系统 1 1 4 1 1
观瞄系统 0 1 1 2 1
电气系统 1 1 0 2 1
通信系统 1 3 1 0 1
武器系统 0 0 3 1 1
其他装置 1 1 1 1 0
装备健康度评估 2 2 4 3 1

2 建立评估模型

2.1 不均衡数据处理方法

在处理模型输入数据时,由于装备数据的特殊性,健康状况处于良、中、差三个层次居多,优和故障类别的样本数量偏少,各类别呈现明显的不均衡性,如不对其进行预先处理,可能对模型效果产生影响,如选取某部3 825台装备健康数据为例,将其分为大样本和小样本两个数据集,表3展示了数据集名称、样本数、特征数、类别数、类别分布等信息,采用不平衡率(IR)查看其不均衡率,其中IR的公式为
IR=
表3 样本数据信息

Tab. 3 Sample data information

数据集 样本数 特征数 类别数 类别分布 不平衡率
小样本 941(小于1 000) 14 5 8/191/546/172/24 68.25
大样本 2 344(大于2 000) 14 5 23/538/1318/42/3 23.29
表3可知,该部装备的数据样本中出现了类别分布不平衡的情况,不平衡率分为68.25和23.29,若原始数据未经处理就进行训练,通常分类器倾向于判定为多数类,模型的准确率将受到很大影响[7]。因此有必要通过适当的采样技术对原始数据进行处理,以提高分类模型准确率。机器学习中现有的采样方法是重采样技术,主要分为欠采样、过采样和混合采样[8]。欠采样典型的方法分别是Random-Under-Sample和Near-Miss;过采样常用的方法分别是Random-Over-Sample、SMOTE、Borderline-SMOTE、Kmeans-SMOTE、ADASYN;而组合采样是过采样和欠采样相结合,用来实现样本数量均衡,典型代表是SMOTE Tomek[9]和SMOTE ENN[10]

2.2 基于分类算法和样本均衡方法的装备健康度评估模型

机器学习分类算法[7]的实质是对样本数据中不同的类别进行区分,由于样本数据多特征,分类的复杂度会随着特征数的增多而增大。常用的分类方法有逻辑回归(LR)[11]、K近邻分类算法(KNN)[12]、朴素贝叶斯(NB)[12]、决策树(DT)[12-13]、随机森林(RF)[13]、梯度提升决策树(GBDT)[14]、支持向量机(SVM)[15]。目前,研究者普遍认为,没有一种分类算法可以适用于所有的应用环境,需要根据应用环境的数据特点选择相应的分类算法[16]。为找到适合本模型的方法,作者将以上几种常用分类算法应用于装备健康度评估过程中,构建基于不同分类算法及样本均衡方法的装备健康度评估模型,具体步骤如下:
1)根据评估指标体系中具体的评估指标,进行装备的健康状态监测,从而获取原始健康数据,形成测试数据集T
2)将数据集T划分成训练集D和测试集S
3)将训练集划分为5个等级集(D0D1D2D3D4)。
4)将训练集D0D1D2D3D4通过样本均衡方法进行组合,获得平衡数据集。
5)将平衡数据集通过分类算法,得出分类结果(y0,y1,y2,…,yn),重复运行100次,取其平均值。
6)通过评估指标评估分类器分类性能,找到最优分类算法及样本均衡方法。
装备健康度评估流程如图3所示。
图3 基于分类算法的装备健康度评估流程图

Fig.3 Flow chart of equipment health assessment based on classification algorithm

3 实例分析

3.1 实验评估指标

当样本数据为不均衡多分类数据集时,传统分类方法得到的准确率不能有效地评估分类器的性能[17]。例如某个装备数据集样本具有4个类别,其分布比例:类别w1为99%,类别w2为0.5%,类别w3为0.3%,类别w4为0.2%,某传统分类器将所有类别判定为w1,其评估精准度可达到99%,但这没有任何意义。因此,本文采用Precision和F1-score平均值作为评价指标,该评价指标先赋予各类别相同的权重,再单独计算各类别的Precision和F1-score值,然后求平均值,获得最终结果。分类器采用方法可以更有效地评估其分类性能,计算公式分别是:
P_mean= 1 m i = 1 mprecisioni
F_mean= 1 m i = 1 m F 1 _ s c o r e i
其中,m是类别数;precisioni表示类别wi的分类精准率;P_mean表示平均分类精准率;F1-scorei表示类别wi的分类F1-scorei值;F_mean表示平均分类F1-score值。P_mean和F_mean的值越高,说明分类器的分类效果越好。

3.2 实验与结果分析

1)模型有效性验证
为研究数采样在数据不平衡多分类问题应用的有效性,选取小样本和大样本,将未经均衡化处理的样本(ORIGIN)数据分别采用DT、GBDT、KNN、LR、SVM、NB、RF 7种分类算法进行实验,同时采用十折交叉验证的方式,按照7∶3的比率,将数据集随机分为训练集和测试集,并保证每份中各类别所占比例相等,重复运行100次,得到验证结果如图4图5所示。
图4 小样本在原始未处理下的评分值

Fig.4 The score value of the small sample under the original unprocessed

图5 大样本在原始未处理下的评分值

Fig.5 The score value of the large sample under the original unprocessed

图4图5对比可以看出,除NB外,不均衡率低的大样本在经过各分类算法处理后,P_meanF_mean评分值均有所提升,说明样本的不均衡率对数据的分类算法效果有一定影响,且在同一指标体系下,不同的分类算法所得样本数据的结果准确率也有所不同。
2)模型泛化性分析
为找出理想分类算法和采样方法,对装备健康度进行评估,本文将重采样技术ADASYN、Near-Miss、Random-Over-Sampler、Random-Under-Sampler、Borderline-SMOTE、SMOTE、KMeans-SMOTE、SMOTEENN、SMOTE Tomek 9种样本均衡方法处理后的数据引入实验,其实验结果如图6图9所示。
图6 小样本P_mean值性能对比

Fig.6 Small sample P_mean value performance comparison

图7 小样本F_mean值性能对比

Fig.7 Small sample F_mean value performance comparison

图8 大样本P_mean值性能对比

Fig.8 Large sample P_mean value performance comparison

图9 大样本F_mean值性能对比

Fig.9 Large sample F_mean value performance comparison

通过图6图9可知,小样本和大样本在样本均衡方法处理后,通过分类器所得评分值均有所提高,这说明样本均衡处理技术可有效提高模型泛化性。其中,Near-Miss、SMOTEENN和SMOTE Tomek 3种采样技术使得通过同类分类算法后输出结果准确率增长幅度最大,说明这3种采样技术更适合处理同指标体系下的装备健康数据;同时,经过此3种采样技术处理的均衡数据,经过DT、GBDT、RF 3种分类算法,所得和评分值都达到90%以上,说明这3种采样技术和3种分类算法的组合可以对同一装备评估指标体系下的装备进行健康度等级评估,并且能够得到较高的准确率。而LR和NB算法评分值均不超过50%,明显不适用于该指标体系下的装备健康度等级评估。
根据以上图形,可以清晰地看出,ADASYN、Border-line-SMOTE、Kmeans-SMOTE、Random-Over-Sampler、Random-Under-Sampler、SMOTE并不能显著提高分类器的泛化性,说明在该指标体系下,只增加分类中少数类样本数量或者只减少分类中多数类样本数量,均不适合装备健康数据的均衡化处理,而混合采样技术则更有优势。另外,通过小样本和大样本的P_meanF_mean值进行对比,可明显看出,大样本所得评分值高于小样本,进一步验证了不平衡率越低,样本数量越大,基于分类算法的装备健康度评估准确率越高。
综上所述,实验结果表明,在装备健康度评估指标体系中,数据经过NearMiss、SMOTEENN和SMOTETomek 3种样本均衡方法和DT、GBDT、RF 3种分类方法的结合处理,能更好拟合专家的评分规则,可以实现对装备健康度等级分类的科学评估。
3) 基于优选方法的类别准确率分析
为进一步研究Near-Miss、SMOTEENN和SMOTE-Tomek 3种样本均衡方法和DT、GBDT、RF 3种分类算法组合使用在装备健康等级评估分类的具体效果,采取两两结合方式开展实例验证,数据集为大、小样本数据组合,形成3 285条总装备数据,其他实验设置与前述相同,实验结果如表4所示。
表4 评估结果公布表

Tab. 4 Evaluation results announcement form

分类器 等级0 等级1 等级2 等级3 等级4
数量 W 数量 W 数量 W 数量 W 数量 W
Near-Miss-DT 30 0.967 7 730 0.998 7 186 4 1.000 0 213 0.995 4 28 0.963 0
Near-Miss-GBDT 31 1.000 0 732 0.995 9 186 2 0.999 0 213 0.995 4 27 1.000 0
Near-Miss-RF 30 0.967 7 733 0.994 6 186 0 0.997 9 215 0.995 4 27 1.000 0
SMOTEENN-DT 30 0.967 7 728 0.998 7 186 3 0.997 9 218 0.981 4 26 0.963 0
SMOTEENN-GBDT 31 1.000 0 729 1.000 0 186 4 1.000 0 212 0.990 7 29 0.926 0
SMOTEENN-RF 30 0.967 7 730 0.998 7 186 1 0.998 4 217 0.986 0 28 0.926 0
SMOTE-Tomek-DT 29 0.967 7 732 0.995 9 186 6 0.999 0 217 0.986 0 29 0.926 0
SMOTE-Tomek-GBDT 32 0.967 7 727 0.997 3 186 7 0.998 4 215 0.995 4 27 1.000 0
SMOTE-Tomek-RF 31 1.000 0 728 0.998 7 186 8 0.997 9 219 0.976 7 25 0.926 0
专家打分法 31 0.978 5 729 0.997 6 186 4 0.998 7 214 0.989 2 27 0.958 9
表中,W为每种评价方法所得的评估结果与专家评估所得结果差距的程度,称为准确率,W计算方法如下:
W=1- | a - a i | a
其中,a为专家打分结果,ai为所选方法评估结果。
表4所知,根据模型优选的9种装备健康度评估方法的准确率均在97%以上,各等级的准确率也都在95%以上,其综合评估结果准确率达到98%,所得方法表现良好,因此,以上方法均可用于该装备评估指标体系下的装备健康度评估。

4 结束语

为弥补传统装备健康度评估方法较为粗糙的缺陷,本文以通用装备为研究对象,针对装备健康度的等级分类评估问题,结合装备使用寿命、结构特点以及运行机制,构建了装备健康度评估指标体系。同时根据该体系分析了装备健康数据特点,结合数据均衡方法,提出了基于分类算法的装备健康度评估模型,并通过实验数据验证了该模型有效性,并重点对9种组合方法进行了类别准确率分析,证明了此方法应用某指标体系下的装备健康度评估的合理性。该方法在装备管理基层单位无法进行专家打分的情况下,可对装备进行直接评估,对于遂行平战时装备管理具有一定的参考价值。
[1]
赵丽琴, 刘昶, 曹明生, 等. 复杂装备健康度评估方法研究综述[J]. 计算机测量与控制, 2021, 29(11): 1-7.

ZHAO L Q, LIU C, CAO M S, et al. A review of research on health assessment methods for complex equipment[J]. Computer Measurement and Control, 2021, 29(11): 1-7.

[2]
吕建伟, 余鹏, 魏军, 等. 舰船装备健康状态评估方法[J]. 海军工程大学学报, 2011, 23(3): 72-76.

J W, YU P, WEI J, et al. Evaluation method of ship equipment health status[J]. Journal of Naval Engineering University, 2011, 23(3): 72-76.

[3]
张浩, 汪德义. 基于半监督机器学习算法的智能电网调度控制系统健康度评价[J]. 电气自动化, 2021, 43(5): 97-100.

ZHANG H, WANG D Y. Health Evaluation of smart grid dispatching control system based on semi-supervised machine learning algorithm[J]. Electrical Automation, 2021, 43(5): 97-100.

[4]
胡涛. 装备健康维护关键技术研究与验证[D]. 四川: 电子科技大学, 2016.

HU T. Research and verification of key technologies for equipment health maintenance[D]. Sichuan: University of Electronic Science and Technology of China, 2016.

[5]
吕婷婷, 凌海风, 朱涛, 等. 装备健康度评估指标体系构建[J]. 中国设备工程, 2022(14): 74-76.

T T, LING H F, ZHU T, et al. Construction of equipment health evaluation index system[J]. China Equipment Engineering, 2022(14): 74-76.

[6]
吕婷婷, 王清, 柏林元. 基于回归算法的装备健康度预测方法[J]. 火炮发射与控制学报, 2022, 43(6): 64-69.

T T, WANG Q, BOLIN Y. Equipment health prediction method based on regression algorithm[J]. Journal of Artillery Launch and Control, 2022, 43(6): 64-69.

[7]
崔鑫. 面向不均衡数据集的分类算法研究[D]. 无锡: 江南大学, 2021.

CUI X. Research on classification algorithms for imbalanced data sets[D]. Wuxi: Jiangnan University, 2021.

[8]
浮盼盼. 大规模不均衡数据分类方法研究[D]. 大连: 辽宁师范大学, 2014.

FU P P. Research on large-scale unbalanced data classification method[D]. Dalian: Liaoning Normal University, 2014.

[9]
Batista G, Prati R, Monard M. A study of the behavior of several methods for balancing machine learning training data[J]. SIGKDD Explorations, 2004, 6(1): 20-29.

DOI

[10]
S S D, K R N, S B. Performance evaluation of class balancing techniques for credit card fraud detection[J]. International Conference on Power,Control,Signals and Instrumentaion Engineering (ICPCSI), 2017: 2747-2752.

[11]
费云利. 计算机逻辑回归分析[J]. 湖南工业职业技术学院学报, 2020, 20(1): 14-17.

FEI Y L. Computer logistic regression analysis[J]. Journal of Hunan Industrial Vocational and Technical College, 2020, 20(1): 14-17.

[12]
Musbah H, Aly H H, Little T A. Energy management of hybrid energy system sources based on machine learning classification algorithms[J]. Electric Power Systems Research, 2021(199): 107436.

[13]
郝婧宇, 南格丽, 吴水才. 机器学习下胎儿健康状态智能评估的研究进展[J]. 生命科学仪器, 2021, 19(3): 29-37.

HAO J Y, NAN G L, WU S C. Research progress on intelligent assessment of fetal health status based on machine learning[J]. Life Science Instruments, 2021, 19(3): 29-37.

[14]
MA X, DING C, LUAN S, et al. Prioritizing influential factors for freeway incident clearance time prediction using the gradient boosting decision trees method[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(9): 2303-2310.

DOI

[15]
张晓芳. 基于机器学习的多源网络数据跨源分类算法研究[J]. 自动化与仪器仪表, 2021(9): 199-203.

ZHANG X F. Research on cross-source classification algorithm of multi-source network data based on machine learning[J]. Automation and Instrumentation, 2021(9): 199-203.

[16]
曹鹏. 不均衡数据分类方法的研究[D]. 沈阳: 东北大学, 2014.

CAO P. Research on imbalanced data classification method[D]. Shenyang: Northeastern University, 2014.

[17]
Ferri C, Hernández-Orallo J, Modroiu R. An experimental comparison of performance measures for classification[J]. Pattern Recognition Letters, 2009, 30(1): 27-38.

DOI

文章导航

/