1 融入领域知识和深度学习的领域短文本命名实体识别
1.1 领域词向量空间及知识实体词向量生成
1.2 模型构建
1.3 模型训练
2 实验与分析
2.1 实验数据集
表1 实验数据集Tab.1 Experimental data set |
| 数据集 | 领域短文 本数量 | 平均长度 (包含汉字数量) | 平均领域命名 实体数量 |
|---|---|---|---|
| User1 | 510 | 172 | 15 |
| User2 | 545 | 163 | 13 |
| User3 | 458 | 245 | 23 |
| User4 | 474 | 288 | 29 |
| User5 | 502 | 180 | 17 |
2.2 参数设置
表2 实验参数设置Tab.2 Experimental parameter settings |
| 参数名称 | 参数值 |
|---|---|
| 读取批量 | 64 |
| 序列长度 | 100 |
| 领域词表 | 3 000 |
| 词向量维度 | 100 |
| 隐藏单元 | 256 |
| 隐藏层数 | 4 |
| 学习率 | 0.01 |
2.3 实验结果及分析
表3 实验结果Tab.3 Experimental results |
| 模型名称 | 准确率P/% | 召回率R/% | F1/% |
|---|---|---|---|
| RNN | 67.03 | 68.14 | 67.58 |
| LSTM | 71.34 | 70.92 | 71.13 |
| BiLSTM | 75.89 | 76.39 | 76.14 |
| BiLSTM_CRF | 79.23 | 79.10 | 79.16 |
| 本方法 | 84.37 | 84.84 | 84.60 |
表4 实验统计结果Tab.4 Experimental results |
| 数据集 | 平均领域命名 实体数量 | 包含投影聚类处理与不包含 投影聚类处理的时间比/% |
|---|---|---|
| User1 | 15 | 90.43 |
| User2 | 13 | 95.29 |
| User3 | 23 | 85.37 |
| User4 | 29 | 84.67 |
| User5 | 17 | 87.29 |
| 均值 | 88.61 | |
中国指挥与控制学会会刊 