中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊

Open Source Intelligence Processing Based on Distant Supervised Relation Extraction

  • ZHAO Guo-qing ,
  • HE Jia-zhou ,
  • QIAO Hui ,
  • LI Yong-sheng ,
  • WANG Jing-shi
Expand
  • Jiangsu Automation Research Institute, Lianyungang 222061, China

Received date: 2019-10-16

  Revised date: 2020-11-04

  Online published: 2022-04-29

Abstract

Open source intelligence is a key component of modern intelligence system, and its analysis is an important part of intelligence work. Among them, the open source text data are most massive and valuable, but are hard to process when they are mainly semi-structured and unstructured data. Therefore, a low-cost automated text information processing method is critical. This paper proposes an open source text intelligence automated processing framework, which is based on distant supervised relation extraction. It automatically generates training data by aligning entities to a remote database, reducing the cost of manual labeling. Moreover, a relation extraction model combining BiGRU network and dual attention mechanism is proposed, which can effectively improve the extraction performance and reduce the influence of noisy data. Finally, an experiment is organized on the Chinese person relation dataset, and the results show that the extraction performance of our model is significantly improved compared to the baseline models. The results show that the model is effective and can support the analysis of open source intelligence information.

Cite this article

ZHAO Guo-qing , HE Jia-zhou , QIAO Hui , LI Yong-sheng , WANG Jing-shi . Open Source Intelligence Processing Based on Distant Supervised Relation Extraction[J]. Command Control and Simulation, 2021 , 43(1) : 69 -73 . DOI: 10.3969/j.issn.1673-3819.2021.01.013

随着信息技术的发展与普及,互联网、媒体、社交软件等公开信息源的信息量变得极其庞大与繁杂,其中蕴含了大量有价值的信息,是任何信息系统都不可忽视的领域。开源情报工作能从这些公开信息中挖掘出有价值的信息,以弥补传统秘密情报的不足,是现代情报系统的重要组成部分,也是近十多年来引起广泛关注的情报课题[1]
开源数据形式多样,有图像、视频、文本等形式,而其中以文本数据最为海量,挖掘情报的潜力也最大。但这些文本数据以半结构化和非结构化数据为主,信息处理惯用的数据挖掘技术在文本信息的抽取上受到掣肘,表现不佳。因此,一种能够低成本、自动化地从这些异构多元的文本数据中抽取出有价值信息的方法,是开源情报处理的关键。
本文针对开源文本数据异质多元、结构松散等问题,提出了一种开源文本信息的自动化处理方法,利用远程监督方法自动标注训练数据,降低人工标注成本,同时利用神经网络从文本中抽取有价值的情报信息。最后,在中文人物关系自动标注数据集上对算法进行了验证,结果抽取性能相较于基线模型有显著提升。

1 相关研究

1.1 开源情报处理研究现状

早期的开源情报处理研究大多局限于情报管理与操作典范,如北约组织出版的开源情报操作手册[2],对具体的开源情报处理与分析方法并未深入研究。随着信息技术的发展与普及,能够在互联网上获取的情报信息愈加丰富,对开源情报自动化处理技术的研究开始受到关注。
其中的典型工作有:张恒[3]从现代科技情报工作的理解和需求出发,结合大数据挖掘技术,提出了面向大数据的开源情报处理分析框架;董尹等[4]运用英、美等发达国家的情报案例分析,精炼得到了以7个核心范畴为支撑的公开源情报理论模型;胡望洋等[5]结合自组织映射方法,利用主题侦测和特定事件侦测来自动化地挖掘目标开源文本情报,取得了不错的效果。

1.2 远程监督关系抽取研究现状

实体关系抽取主要是从文本中抽取出实体1和实体2之间的关系类型,以三元组形式组织存储。现在主流的抽取方法为基于深度学习的有监督关系抽取,其抽取的准确率、召回率高,但需要高质量的人工标注训练材料,成本高昂。而基于远程监督学习的关系抽取技术,在有监督关系抽取方法的基础上,通过对齐到现有的远程知识库来自动标注训练集,在保证抽取性能的同时极大地降低了标注成本,很适合用来对开源情报信息进行抽取[6]
其中经典的方法有:Zeng等[7]首先将深度学习模型用于远程监督关系抽取,提出了PCNN-MIL模型,使用分段池化策略与多实例学习方法进行关系抽取,效果远超传统模型;Lin等[8]在Zeng等的基础上提出了PCNN-ATT模型,引入注意力机制对句袋中的每个句子分配动态权重,加权求和得到句袋向量表示用于分类;Ji等[9]在此基础上引入实体描述信息,为注意力模块学习到更好地实体表示,有效提高了关系抽取的性能。这些深度学习方法的提出极大地提升了远程监督关系抽取的性能,但抽取性能仍受限于错误标注问题,还有很大提升空间,且对长句子的学习抽取效果很差。

2 研究架构

开源文本情报多是从网页、社交平台等公开信息源通过工具直接爬取获得,其结构松散,以半结构化和非结构化数据为主,这给开源情报的自动化处理带来了很大困难。本文所研究的基于远程监督关系抽取的开源情报自动化处理技术主要框架如图1所示。首先对获得的原始文本数据进行预处理,再通过远程监督关系抽取器来抽取其中的实体关系对,最后以三元组形式输出并存储。
图1 开源情报自动化处理框架

2.1 文本预处理

使用网页爬虫等信息搜集工具从公开信息源获得的文件格式多样、大小不一,因此要先通过数据清洗从中萃取出纯文本数据,并存储为统一的文本格式。针对信息来源的特点对获取的文本进行特殊字符过滤,删除无效字元,并去除文本标签,如网页文本信息的HTML标签,社交平台文本信息的多媒体对象信息等。
数据筛选是删除经数据清洗后容量小于二十字节的文件,以及格式未知、无法正常打开的无效文件。然后,对获得的句子按标识符进行分句处理,对超长句子进行拆分,加入分句标识,使用正则化方式剔除句子中的空格与特殊字符,同时去除重复句子,最后以纯文本格式保存。

2.2 自动生成训练数据

传统的关系抽取方法通常采用人工标注语料的方法获得训练数据,而开源文本数据信息量大、来源复杂,语料标注的人工成本和时间代价过于昂贵。因此,本文利用外部开源数据库来和材料进行实体对匹配,赋予句子远程监督标签,从而自动地获取训练数据,其主要流程如图2所示。
图2 远程监督自动生成训练数据流程
原始文本数据在经过数据清洗、筛选、分句处理后,转换成了一个纯文字的句子集。对句子集中的所有句子,首先进行文本序列标注和命名实体识别,抽取出句子中的实体对。然后将句子集中有相同实体对的句子存储为一个个句袋(Sentence Bag),将其与开源数据库进行实体对匹配,以对应的开源数据库中的实体关系对的关系标签作为句袋的远程监督标签。最后将其中15%的句袋留存作为测试语料,其余的部分作为关系抽取模型的训练语料。
本文所用的开源数据库的数据来源主要有两方面:一是如Dbpedia[10]、NELL[11]、Freebase[12]之类的开放知识库;二是百度百科、互动百科、维基百科等百科网站的相关条目。这两者上的数据都是易于获取、结构化良好、方便处理的,可以低成本地完成开源数据库的构建。

2.3 远程监督关系抽取模型

本文针对开源文本信息处理任务提出的关系抽取模型主要分成两大部分:一是基于词级注意力的BiGRU句子编码器模型,如图3所示,其将每个句子都化为向量表示,输入双向GRU网络中学习其特征,经过词级注意力加权求和得到句子的向量表示[13];二是关系分类器,利用句子级别的注意力加权得到句袋的向量表示后,通过全连接的softmax层进行关系分类。该模型采用了双向GRU网络学习句子的上下文语义信息,同时采用词级和句级注意力机制降低了无关词汇与无关句子的影响,提升了关系抽取的性能。
图3 基于词级注意力的BiGRU句子编码器

2.3.1 句子编码器

1)向量化层
为了能使用神经网络学习句子的语义信息,需要先将句子中的词汇进行向量化处理。对于句子s={w1,w2,...,wn },需要将其中每一个词wi 映射到向量空间中,转换为低维向量xiw:
xiw=Wv·vi
其中,xiw R d w,vi R V为词wi的one-hot编码表示,Wv R d w × | V |是用word2vec工具训练得到的转换矩阵,dw为指定的词向量维度, V表示字典的大小。
此外,为了能更准确描述句子含义,还需要充分利用句子的结构信息。取词wi到两实体e1e2的相对距离映射到向量空间,得到位置向量xip1,xip2 R d p,其中dp为指定的位置向量维度。将xiwxip1,xip2拼接得到词的完整向量化表示xi,其维度为d=dw+2*dp
2)BiGRU层
循环神经网络自问世以来,就以其记忆历史信息的特性和出色的序列数据处理能力备受关注,被广泛应用在自然语言处理的多个任务中。GRU(Gate Recurrent Unit)是循环神经网络的一种,由Cho等[14]在长短时记忆网络(LSTM)[15]基础上改进而来,对长句子的抽取效果相比于卷积神经网络有很大提升。GRU单元结构示意图如图4所示,其与LSTM相同采用了门控的机制对历史信息有选择地记忆、遗忘,以此来解决长期记忆和反向传播中的梯度消失等问题。
图4 GRU单元结构示意图
不同的是,相比于LSTM引入细胞状态、采用三个门控来分别控制遗忘、选择记忆和输出,GRU仅用重置门和更新门便实现了相当的功能,结构更加简单,参数量更少,更便于计算和训练。
GRU对输入和历史信息的处理可分为两个阶段,其中重置阶段有:
rt=σ(Wr·[ht-1,xt])
h ˙ t=tanh ( W h ˙·[rt*ht-1,xt])
其中,rt表示重置门,xtt时刻的输入,ht-1为上一时刻的隐藏状态,Wr W h ˙为参数矩阵,由训练得到。完成了对历史信息的重置后,在更新记忆阶段有:
zt=σ(Wz·[ht-1,xt])
ht= 1 - z t*ht-1+zt* h ˙ t
其中,zt表示重置门控,Wz为参数矩阵,ht为当前时刻隐藏状态。其中,门控信号zt越接近1,代表“记忆”下来的信息越多,反之zt越接近0则表示“遗忘”的信息越多。
此外,GRU对输入序列的处理是单向的,这意味着在处理句子时后面的词只能受到上文的影响,破坏了语境的连贯性。因此,本文采用了双向GRU网络,将文字序列按照正反两个方向分别输入模型中计算,再将它们的隐藏状态结合起来进行输出,以利用句子的上下文信息。
3)词级注意力层
神经网络的注意力机制通过给输入或特征分配一个可学习的动态权重,来使模型具有像人类那样专注于某一重点的能力。本文提出的句子编码器模型,通过词注意力来使模型能更专注于句子中的重点部分,降低噪声词汇的影响。对于句子s={w1,w2,...,wn },将词wi对应的BiGRU隐藏状态拼接得到 h ˙ i= h i f , h i b,组成词向量矩阵H={ h ˙ 1, h ˙ 2,..., h ˙ n},有:
M=tanh (W0·H)
C=softmax(W1·M+b1)
其中,W0,W1为中间矩阵,b1为模型的偏置量,且W0W1b1都是由训练得到的模型参数;C={α1,α2,...,αn}为注意力矩阵。最后通过注意力权重进行加权求和,可得句子向量s= i = 1 nαi* h ˙ i

2.3.2 关系分类器

本文提出的远程监督关系抽取模型是通过实体对将语料划分为一个个句袋,将句袋视为有标签的实例,然后在此基础上进行学习训练的抽取方法。为此,需要将句袋进行实例化,即提取出句袋向量化表示,将句袋中的所有句子整合为一个向量,再用于关系的分类。
对于句袋B={s1,s2,...,sK},其中句子sk的向量表示为句子编码器的输出sk,为缓解错误标注问题,降低句袋中噪声句子对抽取性能的干扰,且充分利用每个句子的语义信息,本文采用了句子级别注意力机制,给句袋中每个句子分配一个动态权重,加权求和得到句袋B的向量表示 b -:
b -= k = 1 Kδk*sk
δk=softmax(sk·A·r)
其中,δk为句子sk的注意力权重,A为中间矩阵,r为关系r的向量表示。
最后,将句袋的向量表示 b -输入softmax层进行分类,第i个关系的条件概率为
p r i | B=softmax(Wo· b -+bo)
其中,Wo为关系参数矩阵,由模型训练过程中得到,bo为偏置量,最后取条件概率最大的关系为预测结果 r ˙=argmax(p(ri|B))。

2.3.3 模型训练及优化

本文采用交叉熵损失函数作为训练目标函数,其定义为
J θ= i = 1 Tlog (p r ˙ i | B i ; θ)
其中,T为句袋的总数,Bi表示第i个句袋, r ˙ i表示第i个句袋的远程监督关系标签,θ代表模型的所有参数。
本文基于pytorch实现了开源文本关系抽取模型,
并利用Adam优化算法来学习参数θ。同时,还在BiGRU层和全连接层使用了dropout方法,以一定概率将节点或输入抛弃掉,以避免模型过拟合。

3 实验及结果分析

3.1 数据集与评估方法

本文通过上述的开源情报自动处理框架收集了开源情报最关心领域之一的人物关系方面的信息,构建了中文人物关系数据集,并结合中文维基百科语料进行word2vec词向量训练,在此基础上进行了模型验证。该数据集抓取了百度百科和互动百科上的人物关系词条与描述,共记录了31 739条人物关系,获得了25 877条自动标注句子,形成了11 023个句袋。
本文采用与文献[9]相同的held-out法对模型抽取性能进行评估,主要评价指标有抽取的准确率和准确率-召回率曲线(PR曲线)的面积。其中,准确率为被检测出有关系的句子分类正确的比例,召回率为含有关系的句子被正确检测出的比例。

3.2 结果分析

模型训练时的超参数有:学习率lr={0.01,0.006,0.003,0.001}, GRU隐藏层尺寸hs={100,150,200,250},GRU网络层数n={1,2,3},批大小bs={64,128,256}。经格状搜索后确定参数为:lr=0.006, hs=200,n=2,bs=256,另取词向量维度dw为50,位置向量维度dp为5,dropout概率为0.5。
实验结果如图5所示,本文选取了经典的PCNN-MIL关系抽取模型与PCNN-ATT关系抽取模型作为基线模型对照,从PR曲线的面积可以看出,本文提出的BiGRU模型的抽取性能较两者有显著提升。此外,远程监督关系抽取往往是取前N项作为输出,从图5中可以看出,在召回率25%以下时,BiGRU模型的准确率都能达到80%以上,能较好地支持对开源文本信息的处理分析。
图5 各模型PR曲线

4 结束语

本文针对半结构化、非结构化开源文本信息处理问题,提出了一种基于远程监督关系抽取的开源文本自动化处理框架。通过与远程知识库进行实体对齐,赋予了句袋远程监督标签,自动生成训练数据,极大降低了人工成本。
本文利用双向GRU网络对句子进行编码,使用词级注意力机制和句子级别注意力机制降低训练数据中噪声的影响,并在中文人物关系自动标注数据集上进行了实验验证。结果表明模型抽取性能相较于基线模型有显著提升,初步验证了模型的有效性,满足了开源情报文本信息自动化处理的需求。本文计划在未来研究远程监督实体匹配策略,在源头排除其中的干扰三元组,从而提升自动生成的训练数据的质量。
[1]
BEST R A, CUMMING A. Open Source Intelligence (OSINT)[EB/OL]. 2019-02-14. https://fas.org/sgp/crs/intel/RL34270.pdf.

[2]
NATO. NATO Open Source Intelligence Hand Book[EB/OL]. 2018-12-10. https://en.wikipedia.org/wiki /NATO_Open_Source_Intelligence_Handbook.

[3]
张恒. 基于开源情报的情报处理系统模型构建[J]. 情报杂志, 2014, 33(3): 54-57.

[4]
董尹, 蒋立琦. 公开源情报理论模型构建[J]. 情报理论与实践, 2015, 38(8): 27-32.

[5]
胡望洋, 邵安, 舒洪水. 基于事件侦测方法的自动化开源情报分析研究[J]. 情报理论与实践, 2019, 42(12): 74-79.

[6]
Mintz M, Bills S, Snow R, et al. Distant Supervision for Relation Extraction without Labeled Data[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore, 2009:1003-1011.

[7]
Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 1753-1762.

[8]
Lin Y, Shen S, Liu Z, et al. Neural Relation Extraction with Selective Attention over Instances[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany, 2016:2124-2133.

[9]
Ji G, Liu K, He S, et al. Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions[C]// Thirty-First AAAI Conference on Artificial Intelligence, 2017.

[10]
Auer S, Bizer C, Kobilarov G, et al. DBpedia: A Nucleus for a Web of Open Data[C]// The semantic web. Springer, Berlin, Heidelberg, 2007:722-735.

[11]
Carlson A, Betteridge J, Kisiel B, et al. Toward an Architecture for Never-Ending Language Learning[C]// Twenty-Fourth AAAI conference on artificial intelligence, 2010.

[12]
Bollacker K, Evans C, Paritosh P, et al. Freebase: A Collaboratively Created Graph Database for Structuring Human Knowledge[C]// Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. Vancouver, Canada: ACM Press, 2008:1247-1249.

[13]
Jat S, Khandelwal S, Talukdar P. Improving Distantly Supervised Relation Extraction using Word and Entity Based Attention[EB/OL]. arXiv preprint arXiv: 1804. 06987, 2018.

[14]
Cho K, van Merrienboer B, Gulcehre C, et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[EB/OL]. arXiv preprint arXiv:1406. 1078, 2014.

[15]
Hochreiter S, Schmidhuber J. Long Short-term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

PMID

Outlines

/