中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
外军发展

基于MADL的外国军事开源情报数据库的分析与实现

  • 王思佳 ,
  • 夏绍模
展开
  • 陆军勤务学院, 重庆 401331

王思佳(1995-),女,陕西宝鸡人,硕士研究生,研究方向为项目管理。

夏绍模(1964-),男,博士,副教授。

Copy editor: 许韦韦

收稿日期: 2018-10-22

  修回日期: 2018-11-08

  网络出版日期: 2022-05-16

Analysis and Implementation of Foreign Military Open Source Information Database Based on MADL

  • WANG Si-jia ,
  • XIA Shao-mo
Expand
  • Logistic Engineering University of PLA,Chongqing 401311,China

Received date: 2018-10-22

  Revised date: 2018-11-08

  Online published: 2022-05-16

摘要

为了解决当前各种公开来源中纷繁复杂的军事情报信息较为零散、无法统一规整和系统性的对开源信息进行全面获取查询这一问题,从外国军事开源情报信息源的搜集整理出发,运用爬虫软件实现资源的获取,基于SVM分类模型进行筛选得到军事类资源,最终形成一个基于MADL资源系统开发平台开发设计的外国军事开源情报数据库,实现了军事领域开源情报信息从搜集、处理到共享的全过程分析,为全军机关决策、部队训练提供前沿的情报支撑服务。

本文引用格式

王思佳 , 夏绍模 . 基于MADL的外国军事开源情报数据库的分析与实现[J]. 指挥控制与仿真, 2019 , 41(3) : 137 -140 . DOI: 10.3969/j.issn.1673-3819.2019.03.029

Abstract

In order to solve the problem that the complicated military intelligence information in various open sources is relatively fragmented, unable to be unified and systematic, and to obtain comprehensive access to open source information, the article uses the reptiles from the collection and collection of foreign military open source information sources. The software realizes the acquisition of resources, selects the military resources based on the SVM classification model, and finally forms a foreign military open source intelligence database based on the development and design of the MADL resource system development platform, realizing the open source intelligence information in the military field from collection, processing to sharing. Process analysis provides cutting-edge intelligence support services for decision-making and military training of military units.

目前,据有关部门的统计,西方发达国家的情报中已经有高达95%的情报都是获取自公共开放的来源,开源情报研究作为一项现代基础性的研究工作,世界各国对其的重视程度明显得到了日益提升[1]。自中国人民解放军诞生之日起,就对军事情报工作十分重视,为满足国家安全以及国防和军队现代化建设需要,在我军内部逐步形成了一系列较为完善的军事情报体制,以此开展军事情报研究工作。军事情报的作用不容忽视,它在为各种军事任务提供情报支持的同时还对军事行动中的军队提供了保护。在传统的信息环境下,由于缺乏及时而广泛的信息和整理加工信息的技术手段,我军情报研究工作只能依靠图书馆和其他文献机构,这样的情报研究成果必然受到一定的限制。中央情报局也指出“不一定只有保密信息才有价值”,随着大数据时代的到来以及信息化社会的发展,来自互联网、电视、广播等公开媒体的开放式信息越来越多,从这些海量信息中获取到实用性强的情报对我军军事情报研究有着巨大的贡献,因此如何从大量纷繁复杂的公开信息中提取出有价值的军事信息并且实现信息共享是当前军事情报研究工作急需解决的难点与重点[2]
开源情报研究在国外发展起步较早,尤其是美国这一发达国家在这方面的研究更是一直处于世界领先地位[3],而国内开源情报研究工作开展相对而言是比较晚的,同时可能由于将情报过于神秘化、缺乏对情报本质的认知等原因的存在,开源情报研究活动一直处于被动且零散的状态。近年来,才逐步开始出现了极少数面向军事领域开源情报采集的挖掘技术的相关研究[4],但仍然有研究层次不够深入、研究内容不够丰富和研究角度不够全面等问题的存在。
在这样的背景下,文章从外国军事开源情报信息源的搜集整理出发,运用爬虫软件实现资源的获取,基于SVM分类模型进行筛选得到军事类资源,最终形成一个基于MADL资源系统开发平台开发设计的外国军事开源情报数据库,实现了军事领域开源情报信息从搜集、处理到共享的全过程分析。

1 军事领域开源情报采集框架

基于军事领域的专业化特点和特殊需要,本文设计了基于军事领域的开源情报数据采集模型框架如图1所示:
图1 军事领域开源情报收集模型
军事领域开源情报数据采集模型主要流程如下所示:
1) 选择与军事领域相关的军事频道、新闻、视频、文档等公开信息的数字资源作为URL种子添加到URL库中;
2) URL管理器通过某种方式将URL提供给爬虫采集器并进行网页的解析和去重;
3) 对页面进行抽取,得到URL再次添加到URL库中,以便能够提供持续不断的新页面;
4) 过滤筛选并去除掉重复等杂乱无用的信息,得到实际的正文内容,然后利用SVM分类模型对正文内容进行分类,判断其是否为军事领域相关的信息,如果是则将其添加到军事开源情报数据库中;
5)基于MADL资源开发平台设计开发外国军事开源情报数据库,实现军事开源情报信息的共享。

2 军事开源情报信息采集与加工处理

2.1 信息源的搜集

为了能够设计开发一个完善的外国军事后勤开源情报数据仓库,首先就要获取到全面完整的信息源。通过收集,整理到来自北约、美国、英国、法国、俄罗斯、印度等国家与组织的政府部门、军事机构、军工企业、核心智库、重要媒体与商业数据库作为外国军事开源情报数字信息源,这些军事特色资源数据库收录的资源分为资讯类、文件类、出版类、参考类与视听类五大类,部分外国军事开源情报信息源如表1所列。
表1 外国军事领域开源情报部分信息源列表
资源来
源类型
国际组织 政府部门 军事机构 科教机构 出版传媒 情报咨询 全球安全与
防务智库
联合国安理会 美国军事法律汇编 美国军队条令 美国国防大学 开源军事图书 IQPC武器系统专题会议 美国国际战略研究中心
联合国条约汇编 美国国会军队与国家安全法案 美国国防部监察出版物 美国国防采办大学 国外开源军事期刊资源 SMI武器系统专题会议 美国全球安全研究所
北约标准术语 美国签署国际条约 美国国防部预算资料 美国陆军大学 台湾地区军事期刊 DMS防务市场服务报告 俄罗斯国际事务理事会
北约军用标准 美国白宫 美国国防部 美国陆军战争学院 EBSCO军事期刊 TEAL武器装备技术分析报告 卡内基欧洲中心
欧洲防务局 美国国家战略文件 美国军用标准 美国海军陆战队大学 俄罗斯军事与安全期刊 简氏CBRN武器评估情报 以色列国家安全研究所
北约组织出版物 NASA报告 美国国防部军事术语词典 美国海军战争学院 ProQuest军事期刊 简氏军事装备与技术情报 日本国际问题研究所
北约防务报告 PB报告 美国军队指令 美国陆军大学 DDN防务期刊 简氏防务期刊 印度陆战研究中心

2.2 信息的获取和处理

能否精确的判断某开源信息是否与军事密切相关是军事领域开源情报主题爬虫的主要问题之一。基于这样的研究目的,为了解决这一问题可以采用有关分类器的主题相关度评估策略,将网页内容中纷繁复杂的多类型主题统一分为两类:第一类是军事领域开源情报;第二类是它类情报信息。
分类算法种类较多,但其中基于SVM分类器的算法因为效果好、易于实现等优点得到了广泛的采用。因此可以采取基于SVM算法的文本分类来构建军事领域爬虫主题分类模型。主要步骤是[5]:
1) 文本预处理:将从搜集整理到的信息源中收集到的包括军事领域开源情报和其他非军事领域的信息进行类别的标注、分类、转换和清洗过滤等。
2) 文本表示与特征选择:将具有非结构化特征的文本信息处理转化为能够被SVM识别的形式,可以先采用向量空间模型对文本信息进行表示成SVM所能识别的形式。
3) 分类模型训练与优化:SVM最大的优势就是能够寻找出相对最优的超平面,可以使得以尽可能大的分类间隔将两类样本正确无误的分开。
4) 主题预测:抽取网页中的正文,并按照与训练集相同的方式进行相关处理之后映射到特征向量空间模型中,然后通过前文所述的经过训练后的SVM分类器进行分类,最终得出判定结果。

3 外国军事开源情报数据库的设计与实现

3.1 开发平台与工序流程

依照军队文献信息资源数据库的一体化要求,采用数字图书馆应用软件系统MADL作为外国军事开源情报数据库设计与开发的软件平台。

3.1.1 硬件平台搭建

MADL开发平台对资源系统的硬件有一定的要求,外国军事开源情报数据库的实现是基于如表2所示的具体硬件设备配置。
表2 硬件配置
硬件名称 配置
Web服务器 CPU:Inter (R) Xeon (TM) 2CPU 3.20 GHZ
可用硬盘空间:SCSI500 GB
内存:ECC4GB
存储设备 磁盘列阵:2TB,14*146G
不间断电源 Smart-UPS 2200
数据采集设备 高速扫描仪、数码照相机

3.1.2 软件平台与工序流程设计

MADL资源系统开发平台软件平台的组成成分总共分为3个,分别是:MADL工具箱、资源加工平台和网站发布平台。MADL工具箱的主要作用是在客户端/服务器等模式的支持下提供系统初始化、系统升级以及数据导入导出等功能给系统管理员提供便利;MADL资源加工平台一共有5个子程序,分别是:内容管理、元数据编目、电子书制造、数据迁移和数据复制工具,它的作用是为系统管理员提供数字资源加工、标注与管理等功能;MADL网站发布平台的主要功能是通过Web页面提供资源发布服务和对数字资源进行检索与访问。在前文通过爬虫软件从收集整理的信息源中进行内容爬取,并经过SVM分类模型筛选出的关于外国军事领域开源情报信息数据的支撑下,通过MADL资源系统开发平台开发设计外国军事开源情报数据库,主要流程有以下几个方面:
1) 内容管理流程:系统管理员可以通过内容管理器对数据库、模板、MADL用户、系统信息进行管理。内部管理流程设计图如图2。在这部分,还应该重点关注对数据库分类的相关内容,首先应按照一定的使用意图和目的对军事开源情报产品进行分类,部分类别之间必定会存在重叠交叉的部分,也就是说一些外国军事开源信息可以同时用在不同种类的产品上。为了满足不同类别部队用户的需要,选择从两个维度对外国军事后勤开源情报信息资源进行分类,一是从学科种类维度,以《中国军事大辞海》为主,《中国分类主题词表》、《军队信息化词典》为辅助,将外国军事后勤开源情报信息分为军需勤务、军队财务、油料、卫生、军交运输、营房建设、物流仓储等;二是从情报产品种类维度,根据《陆军野战条令“FM2-0”》将外国军事开源情报产品分类为征候和预警情报、现实情报、常规军事情报、目标情报、科技情报、反情报、预测性情报等[6]
图2 内容管理流程
2) 开源情报编目:外国军事开源情报信息作为网络信息资源的整理、整序和整合工作,被称为文献编目,网络信息资源按照存取方式划分为WWW信息资源、Telnet信息资源、FTP信息资源、Listserv/Mailing信息资源、Usenet/Newsgroup信息资源[7]。而对信息资源的编目必须使用数据的结构化数据即元数据。元数据编目工具的主要功能是能够让编目和检查人员对MADL数据库中元数据进行编目和检查。元数据编目流程如图3所示。
图3 元数据编目流程
3) 网站发布流程:基于Web平台建立一个外国军事开源情报数据库,为全军勤务机关决策和部队训练提供前沿的情报支撑服务,该数据仓库的主要功能有两大类:一是针对部队用户的服务功能,二是针对系统管理人员的管理功能。网站发布流程图如图4
图4 网站发布流程

3.2 外国军事开源情报数据库服务模式与功能实现

为尽可能满足军事院校在全军人才培养和科技创新以及全军机关决策、部队训练的情报信息需求,基于MADL资源开发平台开发的外国军事开源情报数据库信息服务要更加人性化,更具有针对性,在此背景下制定了如图5所示的外国军事开源情报数据库服务模式。由于部分军事开源情报信息资源的保密要求和方便对用户访问权限的管理,外国军事后勤开源情报数据库将用户种类设置为系统管理员、检查人员、校内教职工、校内学生和校外访问者5个代表不同角色的用户,分别设置不同的查询权限。而用户行为管理的主要功能是统计用户检索、浏览、下载各类军事开源情报信息的情况,可以分析出不同类别用户对不同类别开源信息的需求情况,本系统采用WebTrends Log Analyze统计资源系统的访问量,以及各种开源信息被访问、下载的频率。基于MADL软件开发平台可以很方便简洁地实现快速检索、高级检索、统一检索三个功能,其余功能将从以下四点进行详细论述。
图5 外国军事开源情报数据库服务框架
1) 军事动态:军事动态模块的主要功能是定期更新推送外国军事情报信息,这些情报信息就是来自上文所收集整理到的信息源中,比如获取自联合国安全理事会网站的外国军事信息,联合国安全理事会作为唯一一个有权采取军事行动的联合国机构,为了维护国际的和平与安全,会经常召开各种会议包括对紧急特别事项的探讨、通过某种决议或者批准某个军事行动等,这些会议的召开及其探讨的内容与结果都会及时准确的在联合国安全理事会官网上进行发布,供个人到国家各个层面进行数据浏览访问。基于此,系统管理员从各信息源中第一时间获取到外国军事信息动态,并将其发布在军事动态模块中及时推送给用户。
2) 学科动态:学科动态模块主要体现的是不同军事专业相关的外国军事情报信息,将根据前文所述信息源及时准确获取到的外国军事情报信息按照油料、仓储、营房、采购、军队会计、军需勤务等不同军事学科汇总分类,比如致力于从采办、后勤等领域培养部队专业人才的美国国防军需大学,从它的官网收集到的外国军事情报信息就可以归类到采购或勤务等学科专业分类下。这样的分类可以帮助用户有针对性的按照不同学科专业查询搜索相关信息。
3) 军事译文:将在外国期刊杂志发表的有关军事类期刊论文从作者、关键词、摘要到正文的全部内容进行翻译入库到军事译文模块中,该模块中的军事译文可供用户查询浏览,当涉及下载环节时需要使用外国军事开源情报数据库专用币,这种币并不是通过充值的形式获取,而是需要用户通过共享信息作为交换,用户每共享上传一个军事译文或军事情报信息就会获得相应数量专用币用于下载自己所需的资料。
4) 提问反馈:军事情报需求不是一成不变的,用户对不同种类的军事情报需求是不一样的,只有形成一个灵活的军事情报反馈机制才能准确地把握用户的不同需求,更好地为全军机关决策、部队训练和各项军事行动战略任务服务。提问反馈模块就是用户进行提问交流的分区,有权限的管理员或老师可以对问题进行回答,通过这些问题反馈以及用户行为管理中对用户检索、浏览、下载各类军事开源情报信息情况的统计,可以有效地获取到用户的军事情报需求,不断改进数据库的情报服务工作。

4 结束语

纵观已有的研究,开源情报研究在国内一直处于被冷落的状态,但它的研究意义与价值是不容忽视的,尤其是在军事领域,本文从外国军事开源情报信息源的搜集整理为切入点,运用爬虫软件进行资源的获取,并且基于SVM分类模型进行筛选得到军事类资源,最终形成一个基于MADL资源系统开发平台开发设计的外国军事开源情报数据仓库,实现了军事领域开源情报信息从搜集、处理到共享的全过程分析,不仅有利于巩固院校重点学科在全军人才培养与科技创新的情报优势,还能够为全军机关决策、部队训练提供前沿的情报支撑服务。
[1]
A.M.Gray. Global Intelligence Challenges in the 1990’s[J]. American Intelligence Journal, 1989, 15(11):3-7.

[2]
傅畅. 面向专题应用的开源情报挖掘系统研究与应用[D]. 电子科技大学, 2016.

[3]
刘文礼. 面向网络媒体的开源情报解析方法与诱导策略研究[D]. 国防科学技术大学, 2014.

[4]
黄胜, 郭继光, 陆泽健, 等. 面向军事领域的Web开源情报主题挖掘研究[J]. 中国电子科学研究院学报, 2017, 12(4):400-405.

[5]
郭颂, 边伟, 刘洋, 等. 基于SVM主题爬虫的航天情报采集应用研究[J]. 电子设计工程, 2016, 24(17):28-30+34.

[6]
马增军, 耿卫, 等.[M]. 北京: 航空工业出版社, 2016:217-218.

[7]
王松林. 信息资源编目[M]. 北京: 北京图书馆出版社, 2003:2-5.

文章导航

/