中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Command & Control

Analysis method of software failure modes in command information system based on complex networks

  • WANG Bo ,
  • JIANG Xuping ,
  • JING Huiqian
Expand
  • College of Information and Communication, National University of Defense Technology, Wuhan 430035, China

Received date: 2024-08-30

  Revised date: 2024-10-08

  Online published: 2025-05-28

Abstract

The command information system software forms a network through sophisticated interactions, where a single software failure can widely propagate within the network and cause severe consequences. Based on a weighted undirected connected graph, this paper constructs a static model of the complex network for the command information system software, proposes a hierarchical centrality algorithm for the multi-layer neighbor influence of nodes, realizes the prediction of software network fault sources, and mines the fault propagation path based on the ant colony system algorithm. Through simulation experiments analyzing the fault mode of a certain command information system software, the effectiveness of the proposed method is verified.

Cite this article

WANG Bo , JIANG Xuping , JING Huiqian . Analysis method of software failure modes in command information system based on complex networks[J]. Command Control and Simulation, 2025 , 47(3) : 82 -86 . DOI: 10.3969/j.issn.1673-3819.2025.03.010

指挥信息系统软件比民用软件具有更高的稳定性和可靠性需求。然而,随着系统使用时间的增长以及版本的更新迭代,软件的规模不断扩大,结构更加复杂,耦合紧密性不断增强,单个的软件故障通过传播能够造成更加严重的后果,使得软件系统故障模式难以预测。因此,分析软件系统故障模式对于增强指挥信息系统的稳定性和可靠性,降低故障发生的风险具有重要的现实意义。
故障模式和影响分析(Failure Modes and Effects Analysis,FMEA)的主要目的是识别系统的故障模式,评估故障对系统性能和功能的影响,从而制定预防措施以减少故障的可能性。故障树分析(Failure Tree Analysis, FTA)[1]由Bell实验室在20世纪60年代提出,并广泛应用于航空、军事、电力等领域。随着信息技术的发展,FTA开始被应用于信息系统的故障分析[2],然而随着系统复杂性的增加,基于FTA的分析过程变得十分复杂。指挥信息系统具有无标度、小世界特性,由此推动了基于复杂网络理论进行系统故障模式分析的相关探索。崔琼等[3]根据指挥信息系统体系结构和层级网络理论,构建了由通信网络和功能网络构成的双层耦合网络模型,并提出节点重要度指标,分析了指挥信息系统级联失效机理。杨振宁[4]通过引入熵权法与TOPSIS方法综合了复杂网络介数中心性、接近中心性等各项指标,构建了更加全面的节点重要度评估方法。在此基础上,文献[5-9]研究了不同条件下识别复杂系统故障传播路径的方法,探索了蚁群算法应用于故障模式分析的可行性,并根据复杂系统的故障特点,提出了包含故障源辨识、故障传播分析等多个层次的研究框架,全面分析了系统的故障模式。
本文在构建指挥信息系统软件静态网络模型的基础上,重点分析了指挥信息系统数据库节点、服务节点和软件节点的定义及交互关系。针对现有节点重要性分析方法未考虑节点级联特性不足的问题,提出了基于节点多层邻居影响力的层级中心性算法,实现对指挥信息系统软件故障源的预测。在此基础上,通过蚁群系统算法,以故障源为起始挖掘故障传播路径,提取出指挥信息系统软件故障模式。最后,通过对某指挥信息系统软件故障模式的仿真实验,验证了所提方法的有效性。

1 复杂网络模型构建

构建指挥信息系统软件的静态网络模型,目的是将系统中不同类型的软件及其交互关系抽象建模,为故障模式分析提供基础。
根据指挥信息系统软件的构成及交互关系,可以将不同软件抽象为三类功能节点:软件节点SW、服务节点S和数据库节点D。这些节点通过协作关系实现指挥信息系统的各项功能,共同支撑指挥所各项业务的开展。
软件节点SW(Software):软件节点直接面向用户提供操作界面和交互功能,依靠数据库节点提供数据支撑,依靠服务节点实现功能。
服务节点S(Server):通常包括各类功能插件、维护工具以及接口模块等,实现数据处理、信息传输等底层功能。
数据库节点D(Database):存储软件运行支撑数据,为软件节点提供数据存储、管理功能。
基于复杂网络描述的指挥信息系统软件网络,节点表示软件功能单元,边表示功能单元之间的交互关系。不同软件节点之间交互的密切程度不同,且这种交互通常是双向的,因此,可用简单无向加权连通图G=<V,E>表示其网络结构,其中,系统各类软件功能单元构成节点集V={v1,v2,…vn},软件功能单元间的连接关系构成边集E={e1,e2,…ei},对于∀eiE,均有一对节点(vi,vj)与之对应,且(vi,vj)与(vj,vi)表示同一条边。边的权重使用n阶的邻接矩阵A(G)={aij}n×n来表示,具体为
aij= 0 , ( v i , v j ) E w , ( v i , v j ) E,1≤iN,1≤jN
即当节点vi和节点vj间有边相连时,aij为边的权重w,否则取为0。
对于边的权值计算考虑两方面的因素:一是边所连接的节点重要度越高,则两节点之间的交互越重要,需对应更高的权值;二是边所连接节点的共同邻居数量越多,则表明两节点之间联系越紧密,本文通过TOPSIS[10]方法综合两项因素计算边的权重,其计算公式具体如下:

s i -= ( m i n ( I ) - I i ) 2 + ( m i n ( N ) - N i ) 2

s i += ( m a x ( I ) - I i ) 2 + ( m a x ( N ) - N i ) 2

wi= s i -/( s i -+ s i +)
其中,I为所有节点重要性值的集合,N为边端点共同邻居数量的集合,[min(I),min(N)]及[max(I),max(N)]分别代表最劣属性组合与最优属性组合, s i - s i + 分别代表当前节点距离最劣、最优属性组合的距离,wi利用 s i - s i + 来计算边的权重,使得距离最优组合越近、距离最劣组合越远时,该边的权值越大。

2 故障模式分析方法

在指挥信息系统软件网络中,存在少部分节点比其他节点具有更大影响力或处于网络的核心位置,这些节点被称为关键节点。它们通常具有更加广泛的信息传播范围,与其他节点交互多、业务量大,容易发生故障并成为故障传播的起点。因此,挖掘网络中的关键节点可以作为预测故障源的判断依据。在此基础上,以故障源为起点分析故障传播路径,即可得到指挥信息系统软件故障模式。

2.1 故障源预测算法

文献[11-12]提出了复杂网络多阶邻居递阶关联贡献度的节点重要性辨识方法,计算了直接邻居节点、间接邻居节点与目标节点间关联度对其影响力的递阶贡献。在此基础上,本节对不同层的邻居节点影响力赋予不同权重,提出了层级中心性算法,具体定义如下:

HCi= j = 1 3 w e i g h t j · n o d e j N - 1

式中,节点vi的层级中心性HCi表示为其第j(j=1,2,3)层邻居节点的数量nodej和该层节点权重weightj的乘积之和与网络中最大邻居数N-1的比值。根据专家评分法,1、2、3层邻居节点的weight取值为0.6、0.3、0.1。算法的具体实现过程如表1所示。
表1 层级中心性算法实现过程

Tab.1 Implementation process of hierarchical centrality algorithm

算法1层级中心性算法
输入:指挥信息系统软件网络图G;
输出:节点的层级中心性值
1 function HC(G)
2 for node in G do 遍历图中所有节点
3 visited ← [node] 将初始根节点存入已访问列表
4 for i in {1, 2, 3} do 遍历第1至3层邻居节点
5 Layerineighbors of nodes in Layeri-1 except visited 从上一层节点的邻居中去除已访问节点,并存入当前层
Laye r i -num ← |Layeri| 计算当前层邻居节点的数量
6 Visited.append(Layeri) 将当前层节点追加到已访问列表
7 end for
Max-neighborsmax(|neighbors of node| for each node in G)计算节点在网络中的最大邻居数
8 HC ←(0.Laye r 1 -num+0.Laye r 2 -num+0.Laye r 3 -num)/(Max-neighbors-1)计算层级中心性
9 Return HC
10 end for
11end function
层级中心性直观反映了节点在网络中的重要地位,层级中心性越大,该节点的影响范围越大,重要性更高,发生故障的可能性也越大。因此,基于层级中心性对网络节点进行排序,可以根据排序的高低预测网络中的故障源。

2.2 故障传播路径识别算法

故障传播路径搜索涉及多个可能路径和大量不确定因素,蚁群系统算法考虑了自适应调节状态转移概率、信息素挥发因子、信息量等因素,避免了陷入局部最优解、求解精度低等问题,能够快速准确识别出故障传播的最大可能性路径。
在初始时刻,蚂蚁数量为m,将要探索n个节点,蚂蚁经过节点时会在节点间路径上释放信息素,且各个蚂蚁不能探索自己已经探索过的节点。某一时刻两节点之间的路径信息素浓度设为τij(t),初始时刻各个路径的信息素浓度相同,设τij(0)=c(c为较小常数)。基于蚁群系统算法识别指挥信息系统软件的故障传播路径的基本流程如下:
(1)在没有到达预定的故障传播节点数之前,蚂蚁通过伪随机规则选择故障传播的下一个节点,在t时刻,节点i处的蚂蚁k选择节点j的概率通过下式计算:

j= a r g   m a x u a l l o w e d i { [ τ i u ( t ) ] α · η i u β } , q q 0 J ,

J= p i j k (t)= [ τ i j ( t ) ] α · η i j β s a l l o w e d i [ τ i s ( t ) ] α · η i s β , j a l l o w e d i 0 ,

其中,q是均匀分布在区间[0,1]的随机变量,q0为[0,1]之间取值的常量,allowedi表示节点i上的蚂蚁下一步允许选择的节点集合,ηij(t)用两节点间边权重的倒数1/wi来表示,即设定权值较高的路径对应更短路径,引导蚁群在权重较高的边上寻找故障路径。算法中引入了两个参数αβ,分别用于调整信息素浓度和启发式信息在路径选择过程中的相对重要性。
若随机变量q小于等于参数q0,则直接选择未访问邻居allowedi中权重最大的节点作为故障传播的下一节点;反之,则计算两节点间的信息素浓度τij(t)和节点间距离ηij(t)乘积所占比重最高的路径。
(2)由于伪随机规则和全局更新规则会导致某些非最优路径的信息素浓度增大,引导蚂蚁重复选择相同的路径而陷入局部最优。为解决此问题,通过在蚁群系统中定义局部信息素更新规则,在路径搜索过程中,蚂蚁每经过一条边都立刻调用此规则更新边上的信息素。
τij(t+1)=(1-ξ)τij(t)+ξτ0
其中,ξ为信息素局部挥发因子,τ0为常数,表示信息素初始浓度,每当蚂蚁经过一条边,应用局部信息素更新规则使该边的信息素浓度降低,从而降低其他蚂蚁选择该路径的概率。这种机制促使蚂蚁更倾向于选择未被探索过的路径,有效地避免了相同路径的重复选择,从而增强了算法的探索能力,解决了原算法容易陷入局部最优解的问题。
(3)在所有蚂蚁完成一次搜索后,由应用全局更新规则来对当前时刻的最优路径进行信息素的挥发和释放。
τij(t+1)=(1-ρ)τij(t)+ρΔτij
其中,ρ(0<ρ<1)代表信息素的挥发因子,控制路径信息素的挥发速度,Δτij为蚂蚁在故障路径上释放的信息素,ρΔτij控制更新后的信息素浓度在原信息素浓度与新释放的信息素浓度之间,实现了对信息素浓度取值范围的限制。
(4)从故障源出发迭代运行蚁群系统算法,每次运行都会得到一条可能的故障传播路径,取所有结果中长度最短的路径为故障传播可能性最高的路径。

3 实验设计与分析

本文以模拟的指挥信息系统软件网络为例,对上述故障模式分析方法进行验证,软件网络模型如图1所示。
图1 指挥信息系统软件网络简化模型

Fig.1 Simplified model of command information system software network

其中,(S1,S2)表示系统中的服务节点,(SW1,SW2,SW3,SW4,SW5)表示系统中的软件节点,(D1,D2,D3,D4,D5,D6)表示系统中的数据库节点。该简化模型反映了大量存在的软件节点依靠数据库节点的数据支撑和服务节点的功能实现指挥信息系统各项业务的情况。
应用层级中心性算法计算得到节点重要度排序结果如表2所示。
表2 节点重要性排序

Tab.2 Node importance sorting

排名 节点 节点重要度
1 S1 0.399 9
2 S2 0.391 6
3 SW1 0.199 9
4 SW3 0.199 9
5 SW4 0.199 9
6 SW2 0.15
7 SW5 0.125
8 D3 0.099 9
9 D1 0.049 9
10 D2 0.049 9
11 D4 0.049 9
12 D5 0.049 9
13 D6 0.049 9
根据前文分析,基于层级中心性计算得到的节点重要度可以反映节点故障可能性。根据实验结果,服务节点S1S2作为故障源的可能性最高,数据库节点可能性最低。实际情况中,节点S1S2面向众多软件提供服务,在系统中的影响范围较广。而数据库节点仅向软件节点提供数据,影响范围较小。可见,基于层级中心性算法预测的故障源与实际情况一致。
在此基础上,应用蚁群系统算法从S1节点出发查找的故障传播路径如图2所示。
图2 故障路径识别结果图

Fig.2 Fault path identification results

基于蚁群优化算法,从节点S1出发,可能性最高的故障传播路径为S1SW3S2SW4S1的邻居节点中SW1SW3节点重要度相等,但当选择SW3作为故障传播的下一节点时,可以影响到重要度较高的S2,而当故障传播到SW1,只能影响到重要性最低的数据库节点。可见,通过蚁群系统算法能够有效挖掘系统中可能存在的故障可能性较高的路径。
为了提高指挥信息系统软件在实际运行过程中数据的利用率以及服务效率,可能会对单个服务节点或数据库节点进行复用。在此情况下,本文对网络结构进行重构并进一步验证所提故障模式分析方法的有效性。
重构模型增加了节点间交互关系D3SW4D3SW5使数据库节点D3面向多个软件节点提供数据资源,以减少数据冗余;同时增加交互关系S1S2以优化融合服务节点功能,重构模型如图3所示,应用层级中心性算法计算得到的节点重要度排序结果如表3所示。
图3 指挥信息系统软件网络重构模型

Fig.3 Network reconfiguration model for command information system software

表3 重构模型节点重要性排序

Tab.3 The importance ranking of reconstructed model nodes

排名 节点 节点重要度
1 S1 0.666 6
2 S2 0.508 3
3 D3 0.399 9
4 SW3 0.308 3
5 SW2 0.258 3
6 SW4 0.25
7 SW1 0.199 9
8 SW5 0.174 9
9 D1 0.049 9
10 D2 0.049 9
11 D4 0.049 9
12 D5 0.049 9
13 D6 0.049 9
由结果可得,节点D3的重要性明显增加,排序由第8提升至第3。在实际情况中,重构网络中的D3节点与更多节点产生了交互关系,该节点的故障可能性及影响范围显著增加,与层级中心性算法计算结果相一致。应用蚁群系统算法从S1节点出发查找故障路径得到结果如图4所示。
图4 重构模型故障路径识别结果图

Fig.4 Reconfiguration model fault path identification result diagram

重构模型的故障路径识别结果为S1S2SW3D3。区别于原模型,S2D3的故障可能性显著增加,应用蚁群系统算法挖掘得到的故障路径中去除了SW4节点,增加了D3节点,同样反映了节点故障可能性的变化,可见蚁群系统算法具有较好的适应性。

4 结束语

本文研究了基于复杂网络的指挥信息系统软件故障模式分析方法,首先,构建了静态网络模型;在此基础上设计了基于多层邻居节点影响力的故障源预测算法,提高了故障源预测的准确性;引入蚁群系统算法识别故障传播路径,全面分析指挥信息系统软件故障模式。在简化的指挥信息系统软件网络中,上述方法能够有效预测故障源及故障传播路径,证明了该方法在实际场景中的应用潜力和价值。
[1]
王淑灵, 詹博华, 盛欢欢, 等. 可信系统性质的分类和形式化研究综述[J]. 软件学报, 2022, 33(7): 2 367-2 410.

WANG S L, ZHAN B H, SHENG H H, et al. Survey on requirements classification and formalization of trustworthy systems[J]. Journal of Software, 2022, 33(7): 2 367-2 410.

[2]
董玉颜, 李永锋. 基于故障树分析与逼近理想解排序法的重卡车载信息系统界面设计[J]. 机械设计, 2023, 40(1): 141-147.

DONG Y Y, LI Y F. Interface design of heavy lorry vehicle information system based on FTA and TOPSIS[J]. Journal of Machine Design, 2023, 40(1): 141-147.

[3]
崔琼, 李建华, 王鹏, 等. 指挥信息系统双层耦合网络模型级联失效研究[J]. 哈尔滨工业大学学报, 2017, 49(5): 100-108.

CUI Q, LI J H, WANG P, et al. Cascading failure of command information system bi-layer coupled network model[J]. Journal of Harbin Institute of Technology, 2017, 49(5): 100-108.

[4]
杨振宁. 基于复杂网络理论的电网连锁故障分析评估[D]. 徐州: 中国矿业大学, 2022.

YANG Z N. Analysis and evaluation of power grid cascade fault based on complex network theory[D]. Xuzhou: China University of Mining and Technology, 2022.

[5]
毕忠勤, 余晓婉, 王宝楠, 等. 基于量子蚁群算法的配电网故障区段快速定位技术[J]. 上海交通大学学报, 2024, 58(5): 693-708.

DOI

BI Z Q, YU X W, WANG B N, et al. Fast fault location technology for distribution network based on quantum ant colony algorithm[J]. Journal of Shanghai Jiaotong University, 2024, 58(5): 693-708.

DOI

[6]
陶维青, 肖松庆, 李林, 等. 基于双精英蚁群算法的配电网故障区段定位[J]. 合肥工业大学学报(自然科学版), 2020, 43(12): 1 626-1 632.

TAO W Q, XIAO S Q, LI L, et al. Fault location of distribution network based on double elite ACO[J]. Journal of Hefei University of Technology(Natural Science), 2020, 43(12): 1 626-1 632.

[7]
康英来, 范晓波. 基于蚁群算法的网络层析故障链路诊断[J]. 通信技术, 2020, 53(3): 700-705.

KANG Y L, FAN X B. Fault link diagnosis in network tomography based on ant colony algorithm[J]. Communications Technology, 2020, 53(3): 700-705.

[8]
郝江勇, 段鹏飞, 杜永峰, 等. 一种GA-ACO-BP模型的热网泄漏故障诊断研究[J]. 太原理工大学学报, 2024, 55(2): 338-347.

HAO J Y, DUAN P F, DU Y F, et al. A study on fault diagnosis of heat network leakage based on GA-ACO-BP model[J]. Journal of Taiyuan University of Technology, 2024, 55(2): 338-347.

[9]
田恒, 张文虎, 邓四二, 等. 基于改进蚁群算法的多值属性系统故障诊断策略[J]. 控制与决策, 2021, 36(11): 2 722-2 728.

TIAN H, ZHANG W H, DENG S E, et al. Fault diagnosis strategy of multi-valued attribute system based on improved ant colony algorithm[J]. Control and Decision, 2021, 36(11): 2 722-2 728.

[10]
常青, 刘德生, 杨阳. 改进TOPSIS的多属性决策方法[J]. 兵工自动化, 2024, 43(6): 49-55.

CHANG Q, LIU D S, YANG Y. Multiple attribute decision making method based on improved TOPSIS[J]. Ordnance Industry Automation, 2024, 43(6): 49-55.

[11]
胡钢, 王乐萌, 卢志宇, 等. 基于节点多阶邻居递阶关联贡献度的重要性辨识[J]. 山东大学学报(工学版), 2024, 54(1): 1-10,24.

HU G, WANG L M, LU Z Y, et al. Importance identification method based on multi-order neighborhood hierarchical association contribution of nodes[J]. Journal of Shandong University (Engineering Science), 2024, 54(1): 1-10,24.

[12]
李凡, 张杰勇. 指挥信息系统网络结构的韧性问题研究[J]. 电光与控制, 2020, 27(4): 49.

LI F, ZHANG J Y. On resilience of network structure of command information system[J]. Electronics Optics & Control, 2020, 27(4): 49.

Outlines

/