2018年,谷歌发布单语言预训练模型Bert
[6](Bidirectional Encoder Representation from Transformers),同时发布了支持104种语言的多语言模型(M-Bert),M-Bert能够将多语言表示在相同的语义空间。2019年,Face-book为解决M-Bert中训练语料共享词汇过少的问题,提出了跨语言预训练模型XLM
[7](Cross-language pre-training Model)。其在Bert训练基础上,采用双语料对模型进行训练。2019年,Facebook对XLM进行了改进,提出XLM-R
[8],取消了对双语料平行库的依赖,进一步提高了其在小语种上的效果。理论上,基于跨语言预训练模型设计的文本情报分类模型,可以实现跨语言零样本迁移,即通过资源丰富的源语言进行训练后,可以快速迁移至新语言上,无须针对新语言再次进行训练。Yakobus等人
[9]提出了基于XLM-R模型的跨语言分类模型,首先在大型英语新闻数据集上训练模型,而后将模型迁移至训练数据较少的印度尼西亚文本上,取得了较好的分类效果,模型在印度尼西亚文本上分类精度达到90%以上。