中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
多模态信息融合

基于深度学习的跨语言文本情报分类方法研究

  • 殷来祥 1, 2 ,
  • 李志强 1 ,
  • 李元龙 1
展开
  • 1.国防大学,北京 100091
  • 2.中国人民解放军71217部队, 山东 烟台 265200

殷来祥(1991—),男,硕士,研究方向为多源情报融合。

李志强(1973—),男,博士,正高级工程师。

Office editor: 张培培

收稿日期: 2022-06-27

  修回日期: 2022-07-20

  网络出版日期: 2023-04-17

Research on cross-language text intelligence classification method based on deep learning

  • YIN Lai-xiang 1, 2 ,
  • LI Zhi-qiang 1 ,
  • LI Yuan-long 1
Expand
  • 1. National Defense University, Beijing 100091, China
  • 2. Unit 71217 of PLA, Yantai 265200, China

Received date: 2022-06-27

  Revised date: 2022-07-20

  Online published: 2023-04-17

摘要

文本情报分类工作是情报分析领域的基础性工作。目前,文本情报分类工作通常面向单一语言,跨语言文本情报分类研究相对较少。针对跨语言文本情报分类问题,提出了“XLM-R+TextCNN”模型,通过基于大规模多语种语料训练的跨语言预训练模型(XLM-R)生成与具体语言表示形式无关的文本情报向量,将文本向量输入TextCNN模型,获取文本情报的类别特征,实现对跨语言文本情报的分类。以开源国防科技情报为基础,构建了跨语言文本情报分类数据集,并对模型进行了测试。实验表明,该模型在多项对比评测中,取得了不错的成绩,验证了本方法的可行性与有效性。

本文引用格式

殷来祥 , 李志强 , 李元龙 . 基于深度学习的跨语言文本情报分类方法研究[J]. 指挥控制与仿真, 2023 , 45(2) : 101 -106 . DOI: 10.3969/j.issn.1673-3819.2023.02.016

Abstract

Text intelligence classification is the basic work in the field of intelligence analysis. At present, text intelligence classification work is usually oriented to a single language, and there are relatively few studies on cross-language text intelligence classification. A text intelligence deep learning classification model based on "XLM-R+TextCNN" is proposed for the problem of cross-language text intelligence classification. The vectorized representation of text information irrelevant to the specific language representation is obtained, and the text vector is input into the TextCNN model to learn the category features of text information, so as to realize the classification of cross-language text information. Based on open-source defense science and technology intelligence, we construct a cross-language text intelligence classification dataset and test the model. Experiments show that the model has achieved good results in several comparative evaluations, proving the feasibility and effectiveness of this method.

随着互联网信息技术的高速发展,网络上的文本信息呈爆炸性增长。大量开源的互联网文本数据为情报分析提供了重要的信息,据美国CIA统计,其情报资源有70%以上来自开源网络情报,并且比例逐年升高[1]。然而,信息高速增长与信息处理能力有限的矛盾日益突出,传统人工收集、归类、融合、处理生成情报产品的方式已无法有效应对海量的情报信息[2]。智能化情报分类作为情报分析的基础性工作,对于凝聚信息浓度,降低信息负载,提升处理效率大有帮助。
目前,文本情报分类研究多集中于单一语言,跨语言文本情报分类研究相对较少[3]。而现实条件下,情报人员面临的是多语种情报信息,即使是单一语言,也含有大量其他语言的文本词汇,单一语言文本分类模型无法有效应对该问题。为解决现有方案无法高效处理跨语言文本情报分类的问题,本文提出了一种基于“XLM-R+TextCNN”的跨语言文本情报分类模型,实现通过单一模型对近百种语言文本情报的分类。

1 跨语言文本情报分类研究

跨语言文本情报分类,是指通过预定语言模型实现对多语言文本情报的自动分类。跨语言文本情报分类,其实质就是文本分类,即根据文本内容将其多语言文本分配至一个或多个预定义的文本标签。目前,常用的跨语言文本分类方法主要有以下2种。

1.1 基于全文翻译的方法

基于全文翻译的方法是解决多语言分类问题最常见的方法,无论是早期基于特征的方法,还是近期基于深度学习的方法,翻译都可以作为多语言转化的桥接。该方法通常分为两个阶段:第一阶段,通过翻译模型将各类语言翻译成统一的语言格式;第二阶段,将统一后的语言输入训练好的单一语言模型实现文本分类。举例而言,文本情报分类模型是通过大量中文语料训练得到的,待分类文本情报为英文、日文文本,先使用现有机器翻译模型将英文、日文文本转化为中文文本,再将翻译后的文本输入已训练好的文本情报分类模型,实现文本情报的分类。Bel等人[4]首先提出基于翻译的跨语言文本分类方法,采用全文翻译、术语翻译、特征翻译,实现跨语言文本分类,并在英语和西班牙语上进行了实验,检验了方案的有效性,但相比于单一语料的文本分类效果仍有较大差距。
基于全文翻译的方法操作简单,实现方便,适应性强,可以充分利用单语言训练模型的成果,但其高度依赖文本翻译的质量。基于全文翻译的方法还存在错误传递积累的问题,错误的翻译结果将会严重影响分类结果。同时,基于翻译的方法未解决语言差异对于分类的影响,尤其是在语料库分布不均的情况,文本情报分类在低资源语料库的分类结果会明显低于高资源语料库。此外,当文本情报分类涉及的语言较多时,分类效率会大打折扣。

1.2 基于跨语言预训练模型的方法

近年来,跨语言预训练模型在多语言领域大放异彩,在多个评测标准上,取得目前最高水平(SOTA:State of the Art)。跨语言预训练模型可以将不同语言文本信息融入统一模型中,将不同形式的语言文本在相同的向量空间中表示,在不同语言之间建立信息交换的桥梁,达到跨语言处理的目的,能够实现多语言的零样本迁移。即首先在资源丰富的文本语料上训练模型,而后可以直接应用于另一种语言,从而降低对数据标注的依赖,对于处理标注资源稀缺的小语种,具有非常重要的意义。同时,最近有学者研究表明,在同一模型上同时用多种语言进行训练,可以取得比单一语言训练更好的结果[5]
2018年,谷歌发布单语言预训练模型Bert[6](Bidirectional Encoder Representation from Transformers),同时发布了支持104种语言的多语言模型(M-Bert),M-Bert能够将多语言表示在相同的语义空间。2019年,Face-book为解决M-Bert中训练语料共享词汇过少的问题,提出了跨语言预训练模型XLM[7](Cross-language pre-training Model)。其在Bert训练基础上,采用双语料对模型进行训练。2019年,Facebook对XLM进行了改进,提出XLM-R[8],取消了对双语料平行库的依赖,进一步提高了其在小语种上的效果。理论上,基于跨语言预训练模型设计的文本情报分类模型,可以实现跨语言零样本迁移,即通过资源丰富的源语言进行训练后,可以快速迁移至新语言上,无须针对新语言再次进行训练。Yakobus等人[9]提出了基于XLM-R模型的跨语言分类模型,首先在大型英语新闻数据集上训练模型,而后将模型迁移至训练数据较少的印度尼西亚文本上,取得了较好的分类效果,模型在印度尼西亚文本上分类精度达到90%以上。
基于跨语言预训练模型的方法,在低资源语言上的迁移能力和泛化能力都比较强,其可以将不同的语言表现形式转化到统一的向量空间,不需要再经过模型的转换。一般而言,其处理多语言问题的效率要高于基于翻译的方法。但是,在高资源平行语料的多语言文本情报分类问题上,其分类能力会略逊于基于翻译的单语言模型,这是因为通过高资源平行语料训练的翻译、分类语言模型已经非常出色。

2 模型构建

为充分利用跨语言预训练模型强大的跨语言及上下文表达能力和TextCNN强大的特征提取能力,本文提出了基于“XLM-R+TextCNN”的混合模型。模型的基本结构主要包括3部分:1)文本情报预处理;2)基于XLM-R的文本情报向量化表示;3)基于TextCNN的文本情报特征提取及分类。模型的基本结构和处理流程如图1所示,箭头表示文本情报数据的处理路径。
图1 基于“XLM-R+TextCNN”的跨语言文本情报分类模型

Fig.1 Cross-language text intelligence classification model based on "XLM-R+TextCNN"

2.1 文本情报预处理

对于爬取的文本情报数据,通常存在数据类型不统一,编码格式不一致,包含大量特殊符号等问题,并不能直接使用,需要对其进行相应的预处理。预处理工作主要包括:1)统一数据类型与编码格式。获取的文本情报数据有Html、Json、Txt等多种类型,编码涉及ASCII、UTF-8等,为便于后续处理,将数据类型统一调整为Txt、编码格式统一调整为UTF-8。2)去除特殊符号。对于获取的文本情报,通常会含有网页标签、表情符号等特殊符号,其对于文本分类意义不大,应提前采用正则表达式过滤的方式去除。3)去除停用词。停用词是指在文本情报中频繁出现,但没有实际意义或对文本分类没有价值的词语,比如助词、叹词、拟声词、介词等,这类词对文本分类造成了干扰。通过预处理,可以使文本情报数据更加标准、统一、重点突出,便于后期的向量化表示和文本分类。

2.2 基于XLM-R的文本情报向量化表示

计算机并不能直接处理自然语言,必须将其转化为计算机能够识别计算的向量化表示形式。为将不同的语言符号表示在相同的向量空间,达到跨语言处理的目的,本文采用XLM-R跨语言模型实现文本情报向量化表示。
XLM-R[8]是Facebook AI团队于2019年11月发布的基于Transformers的多语言掩码语言模型。模型采用双向Transformers编码器,利用多头注意力机制融合上下文信息,基本架构如图1中XLM-R部分所示。该模型具有强大的跨语言表达能力,无论是在词性识别、拼写校正等字词级的自然处理任务,还是在分类问答类等句子级的自然处理任务中,都有卓越表现。XLM-R在低资源语言上表现尤为突出,与之前的XLM模型相比,其在XNLI(跨语言迁移学习能力评价数据集)测试中斯瓦希里语和乌尔都语的准确率上分别提高了15.7%和11.4%[9]。在XLM-R的顶层,可以直接叠加其他的模型,再结合具体的任务做参数微调来完成其他自然语言处理任务,如文本分类。
本文选取XLM-R Larger作为预训练模型,该模型使用了超过2 Tb经过过滤的Common Crawl数据,在100种语言的文本上进行了预训练,在跨语言分类、序列标记和问答方面获得了先进的性能。模型包含大约355 M参数,拥有24个Transformer层、4 096个前馈隐藏状态和16个注意力头。最大序列长度可以设置为默认值512,即它接收一个不超过512个标记的序列的输入,并输出该序列的表示。本文选取XLM-R的最后一层状态作为下游TextCNN模型的输入,如图1所示。

2.3 基于TextCNN的文本情报特征提取及分类

CNN模型[10]最早应用于图像识别领域,因其具有强大的特征提取能力,在图像识别领域取得了举世瞩目的成绩。2014年,Yoon Kim[11]针对CNN模型的输入层做了一些变形,提出了文本分类模型TextCNN,开创基于深度学习的文本分类的新纪元,在多项评测中取得SOTA。TextCNN与CNN模型基本一致,主要由卷积层、池化层、全连接层构成,其模型架构如图1中TextCNN部分所示。其独特的结构不但可以提取文本情报的特征,还可以有效降低模型的复杂度。因此,本文采用TextCNN提取文本情报特征,并实现文本情报分类。其处理过程为:对于经过XLM-R模型生成的文本情报向量化表示,将其简单变换后输入TextCNN卷积层提取文本情报特征;而后通过池化层降低维度,选取核心特征;最后,将池化后的文本特征进行拼接,输入全连接层,实现文本分类。
1)卷积层
卷积层是卷积神经网络的核心部分,一般的卷积神经网络通常有多个卷积层,每个卷积层上有多个卷积核。每个卷积核在卷积层上滑动,得到相应的特征值。将通过XLM-R生成的向量化文本情报表示为v1:n=v1,v2,…,vn,不同于图像的卷积神经网络,vi表示一个子词,具有整体的含义,卷积核的横向移动没有任何意义。故自然语言处理过程中,卷积核只向下移动。对于卷积核wjRh×v,其中,j∈{1,2,…,m},m为卷积核的数量,h为卷积核的高度,v为词向量的维度。对文本情报执行卷积操作如下:
cij=f(wjvi:i+h-1+b),其中,⊗为卷积操作,wjv & i:i+h-1表示卷积核对i:i+h-1个词执行卷积操作,得i:i+h-1个词的特征向量ci
2)池化层
一般而言,卷积过程中会构建大量的卷积核,对文本情报执行卷积操作,尽管同一卷积核共享权重,但生成的特征图依然比较庞大,直接将卷积得到的特征输入全连接层,将面临巨大的计算量挑战。池化操作可以在保留卷积特征的条件下,有效降低模型参数。本文主要采用最大池化策略对特征图进行池化操作,计算公式为Zi=max{ci},其中,ci表示经过卷积操作得到的特征向量。
3)全连接层
上文演示了一个卷积核的卷积、池化过程,在实际训练过程中,会采用大量不同尺寸的卷积核对文本情报,执行卷积、池化操作。对得到的结果进行拼接得到H,在后边接一个全连接层,得到预测结果。其计算公式为P=softmax(H)。

3 实验与结果分析

3.1 实验数据

实验原始数据来源于多个开源国防科技信息网站。通过对获取的开源文本情报数据进行数据清洗与治理,共获得7类124 750条科技情报信息。统计发现,除航空科技情报数据较多外,其余数据相对均衡,数据分布如图2所示。对于类别中不足20 000条的,首先采用Jason等人提出EDA数据增强策略[12],对其进行数据增强,而后从增强的数据中随机选取20 000条。对于获得的均衡数据集,采用必应翻译API将中文数据分别翻译成英、日2种语言,构成跨语言数据集。而后,按照8∶1∶1的比例划分训练集、验证集、测试集。
图2 科技情报数据统计分析表

Fig.2 Statistical analysis table of scientific and technological information data

3.2 实验环境及评价标准

实验在Ubuntu 22.04上进行,CPU为Intel 10105f,GPU为RTX3090,内存大小32 G,编程语言为Python 3.8,深度学习框架为Pytorch 1.10。模型中XLM-R部分主要采用默认参数,TextCNN模块主要参数如表1所示。
表1 TextCNN 主要参数

Tab.1 Main Parameters of TextCNN

参数 参数
词向量维度 768 损失函数 交叉熵
卷积核大小 2,3,4 激活函数 Relu
卷积核数量 128 Drop_out 0.3
学习率 1e-4 Epoch 5
优化器 Adam Batch Size 128
本文采用文本分类常用的准确率、F1值两个指标作为评测标准,评估跨语言文本情报分类模型的性能。混淆矩阵作为一个可视化的工具,可以将分类结果与真实结果放在同一个矩阵中,更加清晰地展示预测值与实际值之间的差异,其表现形式如表2所示。其中,TPTNFNFP为真正例、真反例、假正例、假反例的数量。
表2 混淆矩阵

Tab.2 Confusion matrix

真实值/预测值 正例 反例
正例 TP FN
反例 FP TN
1)准确率(Acc),是指预测正确的样本占总样本的比例,计算公式为
Acc= T P + T N T P + T N + F P + F N
2)F1值是精确率与召回率的加权平均值,主要用于平衡精确率与召回率之间的关系。计算公式如下:
F1= 2 × P r e × R e c P r e + R e c
Pre(精确率)= T P T P + F P
Rec(召回率)= T P T P + F N

3.3 对比实验

为了检验模型的有效性,分别采取全文翻译、多单一语言模型、本方法三种策略进行跨语言文本分类评测,具体对比实验设置如下:
1)基于全文翻译的方法。利用数据集中中文语料训练TextCNN模型,然后利用机器翻译模型将数据集中英语、日语测试集翻译成中文格式,将翻译后的文本输入已训练好的模型验证分类效果。
2)基于多单一语言模型的方法。针对中、英、日三种语言分类训练一个分类模型,针对不同语言选择对应的分类模型进行分类。单一语言模型主要选取经典的机器学习分类模型SVM和深度学习分类模型TextCNN。
3)基于跨语言预训练模型的方法。通过跨语言预训练语言模型,将不同语言的文本转化为相同的词向量表示形式,而后通过TextCNN模型实现多语言文本的分类。为了验证不同跨语言预训练模型对于分类结果的影响,本文选取M-Bert、XLM、XLM-R三种预训练模型进行测试。

3.4 实验结果分析

我们采用三种策略在本数据集进行了对比实验,实验结果如表3所示。
表3 实验结果比较(F1/Acc%)

Tab.3 Comparison of experimental results (F1/Acc%)

模型/
语言
全文翻译 多单一模型 跨语言预训练模型
TextCNN SVM TextCNN M-Bert+TextCNN XLM+TextCNN XLM-R+TextCNN
中文 93.26/92.88 84.27/84.77 93.26/92.88 93.62/93.46 93.93/93.41 94.71/94.54
英语 87.68/86.92 85.83/85.62 93.20/92.96 83.23/83.77 84.82/84.65 87.36/86.88
日语 75.73/75.82 84.35/84.13 92.88/92.57 83.53/82.98 84.73/84.63 85.81/85.44
表3可知,基于跨语言预训练模型策略的文本情报分类准确率和F1值普遍高于全文翻译和传统SVM分类的方法,证明了该策略的可行性与有效性。该方法较全文翻译的方法能够将多语种语言表示为相同的向量,无须再额外转换,避免了分类过程中错误积累的问题;该方法较传统SVM的方式能够更好地表示文本情报的上下文关系,特征提取能力较传统SVM模型能力更强。
在跨语言预训练模型策略中,各模型分类准确度和F1值从高到底排序为:“XLM-R+TextCNN”>“XLM+TextCNN”>“M-Bert+TextCNN”,主要原因在于XLM-R、XLM、M-Bert三种跨语言预训练模型的跨语言表达能力不同。这也侧面证明了XLM-R模型强大的跨语言表达能力,与目前国际评测相吻合,也证明了选取XLM-R作为跨语言文本情报向量化表示的优越性。
同时,从表3中可看出,在基础中文分类方面,“XLM-R+TextCNN”模型分类准确率和F1值均略高于TextCNN模型,但优势不大。主要原因是TextCNN已经具备强大的上下文及特征提取能力,基于多层Transfomer的XLM-R模型对于提升特征提取效果不明显。在英语文本情报分类过程中,“XLM-R+TextCNN”模型分类准确率要低于通过单一语料再训练的TextCNN模型,主要原因在于TextCNN模型通过单一语言再训练可以获取该类语言特有的分类特征,所以,准确率要高于“XLM-R+TextCNN”模型。但“XLM-R+TextCNN”模型仅通过中文语料训练,无须再经过英文、日文语料训练即可在英语、日语文本情报分类中实现86%以上的准确率,可以达到“一通百通”的效果,这是单一语言模型所无法企及的。单一语言模型需要针对特定语言训练特定模型,针对特定语言训练的模型无法迁移至其他语言,泛化性不强。
在实验过程中,中、英、日训练数据充足,所以,针对单一语言的分类模型准确率都比较高。但在现实情况下,部分小语种语言训练数据非常少,无法支撑TextCNN训练。在数据集较少的情况下,基于单一语言模型方法的弊端将越发明显,本模型的优势将会进一步凸显。接下来,以日语为例子,模拟不同样本的数量对于模型精确度的影响。在训练集每类分别取500、1 000、2 500、5 000、10 000、20 000条数据作为训练集,分别训练TextCNN模型,而后观察模型分类准确率。
图3可知,模型准确率随着训练样本的数量减少下降明显,当每类样本数量降至500时,模型准确率仅为67.74%左右。实验证明,“XLM-R+TextCNN”模型在经过充足语料训练后,无须再经过目标语言训练即可达到85%以上的精度,这更加表明了本模型的优势。
图3 不同训练样本数量下文本分类精度

Fig.3 Text classification accuracy under different training sample numbers

4 结束语

针对当前文本情报分类模型多面向单一语言,多语言处理能力不足的问题,提出了面向跨语言文本情报分类的“XLM-R+TextCNN”模型。实验表明,该模型具备跨语言泛化能力强,训练语料要求低等优势,但也存在模型参数大,分类速度偏慢的问题。下一步,将研究在不明显降低模型准确率的情况下,进一步压缩模型参数,提高模型分类效率。同时,实验所用数据为中文经“必应翻译”生成的多语言数据集,在某种程度上存在简化甚至与真实文本情报分布不一致的问题。在后续工作中,将进一步收集其他多语种,特别是小语种的真实文本情报数据,进一步验证方法的有效性。
[1]
张汉青. 网络空间情报赋能商业风险防控[N]. 经济参考报, 2019-04-04(A07).

ZHANG H Q. Business risk prevention and control enabled by cyberspace information[N]. Economic Information Daily, 2019-04-04(A07).

[2]
王明乾, 倪林, 张斌. 基于文本分类的开源军事情报获取方法[J]. 情报探索, 2021(7): 17-23.

WANG M Q, NI L, ZHANG B. An open source military intelligence acquisition method based on text classification[J]. Information Research, 2021(7): 17-23.

[3]
薛春香, 张玉芳. 面向新闻领域的中文文本分类研究综述[J]. 图书情报工作, 2013, 57(14): 134-139.

DOI

XUE C X, ZHANG Y F. Research review on Chinese text classification in the newsfield[J]. Library and Information Service, 2013, 57(14): 134-139.

[4]
BEL N, KOSTER C H A, VILLEGAS M. Cross-lingual text categorization[C]//Research and Advanced Technology for Digital Libraries. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003: 126-139.

[5]
HAO Y H, LIN S, DI Q, et al. M3p: learning universal representations via multitask multilingual multimodal pre-training[EB/OL]. (2020-06-04)[2022-06-07]. https://arxiv.org/abs/2006.02635v1.

[6]
DEVLIN J, CHANG M-W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, Volume 1 (long and short papers). Minneapolis, Minne-sota: Association for Computational Linguistics, 2019: 4171-4186.

[7]
CONNEAU A, WU S J, LI H R, et al. Emerging cross-lingual structure in pretrained language models[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online. 2020: 6022-6034.

[8]
CONNEAU A, KHANDELWAL K, GOYAL N, et al. Unsupervised cross-lingual representation learning at scale[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online. 2020.

[9]
WICIAPUTRA Y, YOUNG J, RUSLI A. Bilingual text classification in english and indonesian via transfer learning using XLM-RoBERTa[J]. International Journal of Advances in Soft Computing and Its Applications, 2021, 13(3): 73-87.

DOI

[10]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems-Volume 1. Laketahoe, Nevada: Curran Associates Inc., 2012: 1097-1105.

[11]
KIM Y. Convolutional neural networks for sentence classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha2014: 1746-1751.

[12]
WEI J, ZOU K. EDA: easy data augmentation techniques for boosting performance on text classification tasks[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, 2019: 6382-6388.

文章导航

/