1 PRE相关研究
2 基于格式相似度的无监督聚类
2.1 令牌格式距离测量
J(m,n)=
DJ(m,n)=1-J(m,n)=
2.2 报文格式距离测量——NWP
2.3 无监督聚类策略
3 实验与分析
3.1 数据收集和预处理
表1 数据集1Tab.1 Dataset 1 |
报文标签 | 数量 |
---|---|
NBNS查询请求 | 98 994 |
NTP头 | 84 439 |
DNS | 59 097 |
Skinny | 1 474 |
PPTP | 771 |
PPTP控制 | 421 |
VXLAN | 32 |
NBT会话报文 | 19 |
NBNS查询响应 | 3 |
表2 数据集2Tab.2 Dataset 2 |
报文标签 | 数量 |
---|---|
DNS | 2 733 |
SNMP | 58 |
BOOTP | 53 |
RADIUS | 11 |
3.2 评估指标
HOM=1-
COM=1-
H(G|P)=- ·log
fmi=
3.3 实验结果
表3 分割度Tab.3 segmentability |
方法 | HOM | COM | V | FMI | COV | |
---|---|---|---|---|---|---|
DBSCAN | 0.88 | 0.98 | 0.91 | 0.97 | 0.99 | |
CUPFC | UPGMA | 0.88 | 0.93 | 0.87 | 0.96 | — |
PAM | 0.82 | 0.69 | 0.66 | 0.82 | — | |
DBSCAN | 0.87 | 0.98 | 0.91 | 0.97 | 0.99 | |
v-NW | UPGMA | 0.86 | 0.74 | 0.70 | 0.83 | — |
PAM | 0.79 | 0.66 | 0.65 | 0.83 | — | |
DBSCAN | 0.39 | 0.93 | 0.42 | 0.84 | 0.99 | |
t-NW | UPGMA | 0.69 | 0.88 | 0.72 | 0.92 | — |
PAM | 0.89 | 0.53 | 0.58 | 0.72 | — |