中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Theory & Research

Association Rule Mining of Equipment Data Based on Apriori Algorithm

  • LUO Le 1 ,
  • GE Qi-dong 1 ,
  • ZHOU Yong-xue 2 ,
  • XIA Bin 1
Expand
  • 1. Unit 63880 of PLA, Luoyang 471003
  • 2. Army Engineering University Shijiazhuang Campus, Shijiazhuang 050003, China

Received date: 2020-02-06

  Revised date: 2020-02-27

  Online published: 2022-05-09

Copyright

Copyright reserved © 2022

Abstract

Aiming at the analysis and application requirements of equipment data, the paper tries to apply Apriori algorithm to make association rules analysis of equipment data. It first introduces the principles and implementation process of Apriori algorithm, then establishes an association rule analysis model of equipment data based on the process of data mining, and carries out case simulation based on real cases to obtain the valuable correlation between influencing factors and efficiency in equipment application, and finally proves that the proposed method is effective and feasible.

Cite this article

LUO Le , GE Qi-dong , ZHOU Yong-xue , XIA Bin . Association Rule Mining of Equipment Data Based on Apriori Algorithm[J]. Command Control and Simulation, 2021 , 43(6) : 29 -33 . DOI: 10.3969/j.issn.1673-3819.2021.06.005

装备数据是装备基础数据、装备属性数据和装备业务工作数据的统称[1]。对装备数据的分析利用,可以满足各级、各类装备管理、研究以及生产机构的需求,提高装备全寿命管理水平和效益,意义十分重大。随着装备信息化程度的不断提高,装备数据种类在增多、数量在变大、更新频率在加快,如何从丰富的数据中挖掘出数据潜在的应用价值,为装备管理、保障以及指挥决策等提供有力的数据支撑是装备数据应用面临的一项挑战[2,3]
数据挖掘作为一种能够从数据中发现隐藏知识的技术,可以为装备数据的应用提供解决思路。利用数据挖掘技术进行装备数据的挖掘,可以通过数学模型、推理规则和图形等呈现方式从装备数据中挖掘出潜在性、可理解性和有价值的数据信息,将装备全寿命管理过程中的丰富数据转化为知识。本文尝试使用关联规则分析对装备数据进行数据挖掘,并结合应用案例对具体实践进行了初步探索,为装备数据的应用提供借鉴和参考。

1 Apriori算法简介

关联规则分析是数据挖掘的主要技术之一。通过关联分析可以挖掘大量数据中项集之间的关联或相关联系,找出频繁模式,揭示数据内在结构特征。最早的关联规则分析概念是1993年由Afrawal,Imielinski和Swami提出,其主要目的是分析超市顾客购买行为的规律,发现连带购买商品,为指定合理的方便顾客选取的货架摆放方案提供依据,也被称为购物篮分析[4]。目前,关联规则分析已经广泛应用到电子商务、保险业务、医学、电信行业等诸多领域。
数据的最基本形式是数据库数据、数据仓库数据和事务数据。关联规则分析就是针对事务数据挖掘频繁项集。这里,对于包含项目a的项集C(项集是指若干项的集合),如果其支持度大于等于指定的最小支持度,则称为频繁项集(包含1个项目的频繁项集称为L1,包含k个项目的频繁项集称为Lk)。Apriori算法是关联规则最常用也是最经典的挖掘频繁项集的算法,其核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。Apriori算法实现的过程如图1所示[5,6]
图1 Apriori算法实现的过程
具体的实现步骤分为三步:
1)扫描所有的事务,事务中每一项组成了1项集的集合C1;计算每一项的支持度;预先设定最小支持度的阈值,对C1中各项集的支持度与该阈值进行比较,保留大于或等于该阈值的项集,得到1项频繁集L1
2)扫描所有事务,将Lk-1L1 连接得到k项集的集合Ck;计算每个项集的支持度,根据频繁项集的所有非空子集必须是频繁项集的原则,对Ck进行剪枝; 将剪枝后的项集Ck的支持度与阈值的比较,得到k项频繁集Lk
3)由以上频繁项集产生关联规则,并根据需要对规则进行筛选。一方面,在进行关联规则筛选时,分析人员根据实际情况设定测度指标的阈值,指定规则符合的特征,从而保证规则的实用性。另一方面可以根据挖掘目标的需要,通过关联约束条件指定规则前项和后项,从而筛选包含某些特征的关联规则。
关联分析的核心体现形式是关联规则,规则的有效性和实用性通过支持度(Support)、置信度(Confidence)和提升度(Lift)等测度指标来度量[7-8]。其中,支持度定义为前项和后项同时出现的概率,是产生最大频繁项集的依据;置信度定义为包含前项的事务中也包含后项的概率,度量了前项出现的条件下后项出现的可能性;提升度定义为置信度除以后项支持度,反映了前项的出现对后项的影响程度。例如:对于关联规则a->b(x%,y%,z%),a称为规则的前项,b称为规则的后项。其中支持度x%=Support(ab)=P(a,b),意义为ab同时发生的概率;置信度y%=Confidence(ab)=P(b|a)=P(a,b)/P(a),意义为在a情况下发生b的概率;提升度z%=Lift(ab)=P(b|a)/P(b)=Confidence(ab)/P(b),意义为a的发生对b的发生的影响程度。在进行关联规则筛选时,支持度的阈值一般设定为5%~10%,置信度的阈值一般为70%~90%,提升度一般设置为大于1。

2 装备数据的关联规则挖掘模型

目前,数据挖掘在国内外都受到了前所未有的重视,并广泛用于各个领域。在装备数据中,不同数据项之间存在一定的关联性。这种规律性有些可以通过直观认识结合经验做出定性的判断,但无法掌握其量化程度,此外,还存在大量的未知的关联关系隐藏在数据中。为研究装备数据中隐含的规律,利用关联规则挖掘对装备数据进行分析,希望获取隐含在数据项之间有价值的关联关系,从而准确地探讨装备的使用,为装备的科学化管理提供决策依据。
数据挖掘的一般过程如图2所示。装备数据的关联规则挖掘是针对装备数据的分析需求,基于Apriori算法进行关联规则分析,从而发现装备数据项中隐含的关联关系。参照数据挖掘流程,装备数据的关联规则挖掘模型建立分为四个步骤:1)依据研究问题对数据进行搜集,并对搜集的数据进行审核、筛选等数据预处理从而建立事务数据集;2)利用Apriori算法进行数据分析和挖掘;3)根据模式的兴趣度客观度量识别出可以用于决策的模式;4)结合实际的情况对数据分析的结果进行总结和解释。
图2 数据挖掘流程
以上各步骤是按照顺序完成的,但整个过程还存在步骤间的反馈。

2.1 建立事务数据集

文献[9]将装备数据定义为:用于描述装备自身特性和状态的数据以及装备全系统、全寿命管理活动所涉及的数据的统称。通常,装备数据可包括3类:1)用于实现信息化的基础数据,如装备代码、组织机构代码;2)标识自身特性和状态的属性数据,如装备的设备型号、战技术性能指标参数;3)装备工作中产生的业务数据,例如装备运行、训练、维护等日常工作中产生的数据以及装备参加试验仿真以及实战演习产生的数据。装备数据来源于不同的数据集,存储的格式和数据格式异构,并且具有时间和空间移动性,总体上看呈现出时空性、易变性、异构型和多源性等特点[10,11]
在装备数据的搜集中,必须深入分析应用目标对数据的要求,针对数据挖掘的目标进行数据选择。通过数据选择使数据挖掘聚集到与挖掘目标相关的任务中,提高数据挖掘准确性。对于搜集的装备数据,使用数据清理、集成、变换和规约等方法进行必要的数据处理,从而降低数据挖掘的时间,提高数据挖掘的质量。由于关联规则分析的对象是事务数据,因此对于装备数据的搜集和预处理,就是要针对数据挖掘的目标选择数据并建立事务数据集,从而为关联规则分析奠定基础。事务数据集可以按照事实表的格式进行组织,如表1所示。表中每一行是对一个事务的描述,每一列代表一个具体的项目,1代表项目出现,0代表项目未出现。
表1 事实表样表
序号 A B C D E F G H I ···
1 0 1 1 0 1 1 1 1 0 ···
2 0 0 1 1 1 0 1 0 1 ···
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···

2.2 Apriori数据分析

将事务数据集输入数据分析工具中,自动生成有效的简单关联规则,并通过灵活调整设置参数和约束条件,进行规则的筛选。当前,数据分析领域有很多成熟的数据分析软件,极大地方便了数据的分析和挖掘,如R语言,Python语言等。其中,R就是众多工具中一款应用非常广泛的免费开源软件。R操作简便,可以直接采用函数调用算法,通过简单编程即可完成数据挖掘过程。文中所进行的关联规则分析就是通过R实现。

2.3 模式评估

通常支持度、置信度和提升度并不能度量规则的实际意义和分析关注的兴趣点。对于关联分析产生的模式通过χ2检验进行客观兴趣度度量,可以进一步判断关联规则是否符合数据挖掘的需求。
χ2检验是通过比较理论频数和实际频数的吻合程度进行的统计推断。卡方检验的方法如下。
假设有两个分类变量AB,值域分别为{A1,A2···Am}和{B1,B2···Bn},设Xij为频数,代表Xij个样本属性属于AiBi,将m×nXij排列为一个mn列的二维列联表,所有频数之和即为样本容量。卡方检验值χ2的拟合度公式如下[12]
χ2= i m j n(Xij-Tij)2/Tij
以上公式中,χ2为检验统计量;Xij为实际值,代表(A=Ai,B=Bi)的实际频数;Tij为理论值,是根据假设的总体分布计算的理论频数,代表所在列联表中行和列频数合计的乘积除以总频数,计算公式如下[12]
Tij=( i mXij)( j nXij)/ i m j nXij
假设变量AB是相互独立的,基于给定的显著性水平如果拒绝该假设,则判定二者是统计相关的。
对于形成的关联模式进行χ2检验可以形成强关联规则,结合实际情况进一步解读规则,提取有用信息和形成结论,从而为装备运用和管理决策提供价值的意见。

3 应用实例分析

文中按照数据挖掘的基本流程,以某型装备系统的业务数据为研究对象进行实例分析,介绍装备数据关联规则分析的具体实现过程。

3.1 建立事务数据集

复杂电磁环境背景下,在合理的配置地域通信装备采用不同信号样式进行通联,通信对抗装备系统对通信信号进行侦查干扰,从而检验某通信对抗装备系统对通信信号的侦察干扰效能。为分析研究通信对抗装备系统干扰效果与复杂影响因素的关系,希望利用关联规则挖掘发现装备数据项之间的关联关系。
明确数据挖掘的目的后对来源于不同类型装备的数据进行采集,确定采集数据项包括干扰方式(A)、电磁环境复杂度(B)、信号频率(C)、信号传输质量(D)、干扰信号样式(E)、通信信号类型(F)、通信信号调制样式(G)和干扰效果(H)等。在对装备数据进行分析之前,对来自于不同数据源的数据进行清理和集成,并对数据项进行离散化处理,最终整理出360个数据样本,如表2所示。
表2 原始数据表
A B C D E F G H
点频 简单 短波 一级 噪声调频 定频 SSB
连续 中度 超短波 五级 白噪声 定频 AM
拦阻 复杂 短波 二级 噪声调频 跳频 FM
··· ··· ··· ··· ··· ··· ··· ···
表2中,A,B,C,D,E,F,G,H分别代表干扰方式、电磁环境复杂度、信号频率、信号传输质量、干扰信号样式、通信信号类型、通信信号调制样式和干扰效果等数据项。进行关联规则分析之前,在表2的基础上将事务数据存在事实表中。首先,分别用(A1,A2,A3,A4,A5), (B1,B2,B3,B4,B5), (C1,C2), (D1,D2,D3,D4,D5), (E1,E2,E3,E4), (F1,F2), (G1,G2,G3,G4,G5),(H1,H2)表示离散数据项A,B,C,D,E,F,G,H的不同属性取值,例如A1 代表数据项A(干扰方式)属性点频干扰,C2代表数据项C(信号频率)属性超短波;然后将表2用“0”和“1”进行布尔编码,并将按照事实表格式组织事务数据。如表3所示,表中一行是一个事务的完整描述;一列为一个具体项目,取值为1或0。1代表项目在事务中出现,0代表没有出现。
表3 事实表实例
序号 A1 A2 A3 A4 A5 B1 B2 B3 B4 B5
1 1 0 0 0 0 1 0 0 0 0
2 0 0 1 0 0 0 1 0 0 0
3 0 0 0 0 1 0 0 0 0 1
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
序号 C1 C2 D1 D2 D3 D4 D5 E4 E5 E3
1 1 0 1 0 0 0 0 0 1 0
2 0 1 0 0 0 0 1 1 0 0
3 1 0 0 1 0 0 0 0 1 0
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
序号 E4 F1 F1 G1 G2 G3 G4 G5 H1 H2
1 0 1 0 0 1 0 0 0 1 0
2 0 1 0 0 0 1 0 0 0 1
3 0 0 1 0 0 0 1 0 0 1
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···

3.2 关联规则分析挖掘

利用R语言对预处理的数据进行读取,并调用关联规则程序包进行关联规则挖掘。为保证关联规则的实用性,指定规则的最小支持度为10%,最小置信度为60%,提升度大于1。
Apriori分析的有效关联规则共产生128条关联规则,在此基础上结合数据分析关注的实际问题进行进一步筛选,通过相关函数参数设置确定生成规则的前项为影响因素,规则后项为H1(干扰有效),最终获取的关联规则有9条,如表4所示。
表4 关联规则表
编号 规则 支持度 置信度 提升度
1 B5=>H1 0.208 0.823 2.701
2 D2=>H1 0.106 0.678 1.027
3 B1,F4=>H1 0.25 0.75 1.333
4 B2,C2=>H1 0.147 0.887 1.371
5 C1,F4=>H1 0.178 0.713 1.561
6 C2,F1=>H1 0.164 0.667 1.381
7 E1,G3=>H1 0.333 0.758 1.667
8 E2,F4=>H1 0.358 0.613 1.432
9 E3,G2=>H1 0.196 0.833 1.358

3.3 模式评估

针对以上形成的关联规则进行卡方检验。以第一条关联规则为例,对于B1H1,值域均为{0,1},通过卡方检验进行两个构成比的比较。表5为用于卡方检验的独立四格表。
表5 独立四格表
H1(0) H1 (1)
B5(0) 45(89) 185(141) 230
B5(1) 95(51) 35(79) 130
140 220 360
参照2.3节公式,经过计算得出χ2=129.17。查阅分布表可知显著性水平0.001下χ2=10.828<129.17,因此判断B1H1是强相关的。通过模式评估对表4中的关联规则逐一进行兴趣度检测筛选,最终得到的强关联规则如表6所示。
表6 模式评估后的强关联规则
序号 规则 支持度 置信度 提升度
1 B5=>H1 0.208 0.823 2.701
2 C2,F1=>H1 0.164 0.667 1.381
3 E1,G3=>H1 0.333 0.758 1.667
4 E3,G2=>H1 0.196 0.833 1.358

3.4 分析结论

表6形成的四条关联规则,结合装备运用的实际情况进一步考察关联规则的实用性,分析结论如下:
1)规则1表明该装备系统运用效果受电磁环境复杂度的影响较大,因此强化装备系统复杂电磁环境的适应能力有利于装备系统干扰效能的提升。
2)对于规则2,可以看出该装备系统对超短波定频信号的干扰效果好。结合实际情况分析可知:超短波属于视距传播,虽然传输质量较短波稳定,但由于短波使用的方向性天线以及配置地域广等特性使其信号的截获和干扰更加困难;同时与定频通信相比,跳频通信比较隐蔽也难以被截获和干扰,因此相比较而言,对定频信号的干扰效果较好。
3)从规则3和规则4,可以得到装备系统针对不同通信信号调制样式的最佳干扰样式,这对装备的使用也具备一定的参考价值。例如有75.8%的把握认为该装备系统使用噪声调频对SSB调制样式的信号干扰效果好,该关联规则的适用性为33.3%。
从以上分析可以看出,装备系统干扰效能受作战环境、作战对手通信状况和对抗策略等多种因素的影响。通过挖掘出来的强关联规则和结论分析,能够反映出数据背后的潜在信息,为装备系统运用、管理提供决策依据,具有一定的指导意义。

4 结束语

本文基于数据挖掘技术对装备数据进行关联规则挖掘,并结合应用案例进行实例分析,获取了装备使用过程中影响因素与装备效能的关联关系,所得结论能够帮助决策者发现隐藏在数据中的规律,在装备数据应用上是一次有益的尝试和探索。
需要指出的是,装备(系统)的运用是复杂的过程,受到诸多因素的影响和制约,因此基于全面丰富的装备数据源才能挖掘出更为科学、合理的关联规则;在使用关联规则分析的应用实践中,获取的关联规则有些不能反映真实的有价值的信息,分析人员需要结合知识和经验进行判断,从挖掘出的关联规则中筛选出能够反映真实情况的有价值的信息。
[1]
齐剑锋, 李三群, 杨素敏. 装备数据工程导论[M]. 北京: 电子工业出版社, 2016.

[2]
刘兵, 钱红林. 装备数据应用基本问题探析[J]. 装备学院学报, 2015, 26(1):107-110.

[3]
王家其, 贾红丽, 尹承督, 等. 基于大数据的部队装备信息管理应用[J]. 兵器装备工程学报, 2017, 38(11):99-102.

[4]
张宏军. 作战仿真数据工程[M]. 北京: 国防工业出版社, 2014.

[5]
敖富江, 杜静, 王磊, 等. 地域通信网数据中的关联规则挖掘[J]. 现代军事通信, 2015, 23(3):53-55.

[6]
邓桂龙, 刘智慧, 贾志东. 作战仿真实验数据关联规则挖掘研究[J]. 军事运筹与系统工程, 2008, 22(4):46-50.

[7]
薛薇. R语言数据挖掘[M]北京: 中国人民大学出版社, 2016.

[8]
冯涛, 常树宝, 任煜. 基于关联规则的作战数据挖掘[J]. 舰船电子工程, 2013, 33(7):27-28,65.

[9]
刘兵, 钱红林. 装备数据应用基本问题探析[J]. 装备学院学报, 2015, 26(1):107-110.

[10]
张凤鸣, 惠晓滨. 武器装备数据挖掘技术[M]. 北京: 国防工业出版社, 2017.

[11]
李亢, 李新明, 刘东. 多源异构装备数据集成研究综述[J]. 中国电子科学研究院学报, 2015, 10(2):162-168.

[12]
李洪伟, 马中原, 谢镇波. 基于Apriori算法的数据挖掘技术在某型发动机飞参数据处理中的应用研究[J]. 飞机设计, 2018, 38(4):5-8,19.

Outlines

/