1 标签生成问题描述
2 标签生成方法
2.1 标签框架构建
2.2 数据预处理
2.3 改进K-medoids聚类
3 仿真验证
3.1 实验数据处理
表1 样本比例与精确率/召回率、准确率的关系Tab.1 Relationship between sample ratio and accuracy/recall |
样本比例 | 直线/% | 左转/% | 右转/% | 交叉/% | 准确率/% |
---|---|---|---|---|---|
150∶90∶90∶30 | 93.24/92.00 | 96.59/94.44 | 94.32/92.22 | 58.33/70.00 | 90.83 |
150∶90∶90∶45 | 90.38/94.00 | 98.81/92.22 | 90.22/92.22 | 69.77/66.67 | 89.87 |
150∶90∶90∶60 | 86.42/93.33 | 95.51/94.44 | 84.38/93.33 | 82.00/68.33 | 89.74 |
150∶90∶90∶75 | 83.91/97.33 | 97.65/92.22 | 95.29/90.00 | 83.61/68.00 | 89.14 |
150∶90∶90∶90 | 90.60/90.00 | 94.44/94.44 | 91.30/93.33 | 80.90/80.00 | 89.52 |
90∶90∶90∶90 | 84.85/93.33 | 94.44/94.44 | 92.31/93.33 | 88.75/78.89 | 90.00 |
75∶90∶90∶90 | 82.35/93.33 | 94.44/94.44 | 92.31/93.33 | 89.87/78.89 | 89.96 |
60∶90∶90∶90 | 78.57/91.67 | 94.44/94.44 | 92.31/93.33 | 89.87/76.67 | 89.39 |
45∶90∶90∶90 | 69.49/91.11 | 94.44/94.44 | 92.31/93.33 | 92.00/76.67 | 88.57 |
30∶90∶90∶90 | 63.41/86.67 | 94.44/94.44 | 92.31/93.33 | 91.03/78.89 | 88.67 |
表2 各样本比例下的F1值Tab.2 F1 at each sample ratio |
样本比例 | macro-F1 | 样本比例 | macro-F1 |
---|---|---|---|
150∶90∶90∶30 | 86.39% | 90∶90∶90∶90 | 90.04% |
150∶90∶90∶45 | 86.78% | 75∶90∶90∶90 | 89.87% |
150∶90∶90∶60 | 87.22% | 60∶90∶90∶90 | 89.19% |
150∶90∶90∶75 | 88.47% | 45∶90∶90∶90 | 87.96% |
150∶90∶90∶90 | 89.38% | 30∶90∶90∶90 | 86.79% |
3.2 实验结果及分析
3.2.1 第一层标签聚类结果分析
表3 四种算法的评估结果Tab.3 Evaluation of four algorthms |
K-medoids/ % | 改进 K-medoids/% | BP 神经网络/% | SVM/% | |
---|---|---|---|---|
准确率 | 83.25 | 89.75 | 90.00 | 91.25 |
精确率(宏平均) | 85.22 | 89.90 | 91.53 | 93.52 |
召回率(宏平均) | 83.25 | 89.75 | 90.00 | 91.25 |
3.2.2 第二层标签聚类结果分析
表4 两种聚类方式的评价结果Tab.4 Evaluation for the two clustering methods |
轮廓系数 | CH指数 | |
---|---|---|
基于标签 框架的聚类 | 0.471 8 | 89.419 6 |
直接聚类 | 0.368 1 | 37.188 7 |