中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Information Fusion

Social media fake news detection model in the context of cognitive domain operations

  • ZHANG Jian 1 ,
  • WEI Bin 2 ,
  • SONG Peijia 2
Expand
  • 1 Hainan Provincial Armed Police Corps, Haikou 570001, China
  • 2 Armed Police Engineering University, Xian 710000, China

Received date: 2024-11-02

  Revised date: 2024-12-01

  Online published: 2025-09-25

Abstract

With the rapid development and popularization of information technology, cognitive domain operations will be an important form of military occupation and control, striking enemy forces and participating in non war military operations in the future. In order to gain the initiative in the war, enemy forces often use media platforms to publish fake news, attempting to confuse the public’s vision and even mislead public perception, posing a threat to social stability and security. This article proposes a social media fake news detection model in the context of cognitive domain operations, which by utilizing the news itself, user information, and user comment information can be modeled as a Heterogeneous Information Network (HIN), the introduction of hierarchical aggregation technology enables the simultaneous capture of global and local features of data by aggregating HIN at both node and classification levels. The study aims to detect fake news in cognitive domain war and curb the dissemination before it has a negative impact.

Cite this article

ZHANG Jian , WEI Bin , SONG Peijia . Social media fake news detection model in the context of cognitive domain operations[J]. Command Control and Simulation, 2025 , 47(5) : 72 -78 . DOI: 10.3969/j.issn.1673-3819.2025.05.010

随着科技的飞速进步,互联网日益完善,网民规模和互联网普及率均呈现显著的提升。与网络相关联的认知对抗,是信息化战争的新形态和新领域,是未来军队占领与控制、打击敌方势力、参与非战争军事行动的重要形式。战时和应急情况条件下,利用社交媒体发布虚假新闻,实施针对性的敏感信息“爆料”等方式,容易造成舆情转向,心理失控,社会动荡。因此,如何精确检测虚假新闻,确保新闻的真实性和可信度,已成为当前社会研究的重要方向之一。
虚假新闻作为一种具有高度欺骗性和误导性的新型武器,在认知域作战中发挥着重要作用。社交媒体平台现已成为虚假新闻传播的主要渠道。与传统媒体相比,社交媒体具有更广泛的受众、更快的传播速度和更高的互动性。虚假新闻在社交媒体上得以迅速扩散,影响公众对事件真相的判断力和对敌方的认知,从而达到战略或战术目的。
基于图神经网络分层聚合的虚假新闻检测方法具有独特的优势。图神经网络能够处理复杂的节点和边的关系,并从中学习有用的特征表示。在社交媒体数据的图结构表示中,节点可以是用户、帖子、标签等,边可以是用户之间的关系、互动、转发等。运用图神经网络可以更好地理解新闻在社交媒体上的传播模式,分层聚合策略在虚假新闻检测中具有重要意义。
在认知域作战中,虚假新闻往往经过不法分子的精心设计和传播,以逃避检测和过滤。采用分层聚合策略就是从多个层次和角度分析社交媒体数据,从宏观到微观,从整体到局部,全面了解新闻传播的路径和模式。通过聚合不同层次的信息,能够更准确地识别虚假新闻,并对其来源和动机进行深入分析。
基于图神经网络(GNN[1])分层聚合模型,能够在社交媒体平台上高效捕捉和识别敌军传播的虚假信息[2],这将有助于提高公众对新闻真实性的认知和判断能力,有效减少虚假新闻的传播,提高官兵舆论防护能力,此外,还可以为相关机构和媒体提供参考,加强对虚假新闻的监管和防范,维护社会稳定和公共安全。

1 虚假新闻检测发展现状

虚假新闻检测作为一个新兴的课题,国内外学者已经进行了一些研究工作,其中,Ciampaglia等[3]基于知识的方法旨在通过比较从新闻中提取的信息与真实信息来评估新闻的真实性。然而,Zhou和Zafarani[4]提出知识图谱的及时性和完整性仍然是一个未解决的问题。另一种典型的方法是基于写作风格,例如通过运用修辞结构理论进行话语水平检测[5]、情感和可读性[6]。基于新闻文本、用户(传播者)和帖子之间的关系,开发了矩阵分解[7]、张量分解[8]、分层词编码器[9]以及递归神经网络(RNNs)[10-11]进行虚假新闻检测。
虚假新闻检测技术的核心在于利用多种技术手段来分析和验证新闻的真实性。文本分析技术通过对新闻文本的语义、情感、逻辑等方面进行深入分析,以辨别其真实性。自然语言处理(NLP)技术通过对文本进行词频分析、情感分析、逻辑分析,识别虚假新闻特征。媒体来源验证技术通过对新闻网站的域名、证书、访问历史等进行分析,可初步判断新闻来源的可信度。
总体来说,现有虚假新闻检测方法可以分为两个流派。一种是基于信息本身,另一种是凭借外部信息的帮助。虚假信息检测发展现状呈现技术融合与创新、方法多样化的趋势,但仍需不断应对新的挑战和问题。

2 基于图神经网络分层聚合的虚假新闻检测模型构建

基于图神经网络分层聚合的虚假新闻检测模型(HAGN)由节点级注意力和归类级注意力的分层注意力结构构成。HAGN利用节点级注意力来学习属于同一类型的邻居权重,并将其聚合获得特定类型的邻居表示。再通过归类级注意力来学习节点类型的信息,将得到的两种邻居表示再次聚合,实现最终虚假新闻检测任务的最优加权组合,总体框架图1所示。
图1 HAGN总体框架

Fig.1 HAGN Overall framework

2.1 术语定义

新闻文章:新闻文章指的是发布在社交媒体或公共媒体上的新闻内容,可以表示为集合N={n1,n2,…,nm},对于每条新闻文章niN,都包含文本内容。
社交媒体用户:社交媒体用户是指网络传播的接受者,可以是一个人,也可以是一个组织、群众,泛指上网者。社交媒体用户表示为集合S ={S1,S2,…,Sk},对于每个用户SiS,都包含用户信息。
用户评论信息:用户评论信息是指用户在社交媒体上浏览新闻后发表的自身看法和观点,一些较具权威的用户评论对其他用户会起到很大的引导作用。用户评论信息可以用集合C ={C1,C2,…,Cn}表示,对于每条用户评论信息CiC,都包含不同的见解、看法。
我们可以将新闻文章、社交媒体用户和用户评论信息建模为三种类型的节点,每个节点具有不同的特征,根据它们之间的连接关系构建不同类型的链接。
News HIN可以定义为G=(υ,ε),其中节点集υ=NSC,链路集合ε=εc,nεn,s涉及用户评论信息与新闻文章之间的“属于”链接以及社交媒体用户与新闻文章之间的“浏览”链接。
为了更好地理解News HIN并利用类型信息,有必要根据三类节点之间的关系来定义模式级别的描述。News HIN的模式将用于模型中,以了解不同类型的节点和链接的重要性。
形式上给定News HIN G=(υ,ε),模式表示为SG =(υT,εT) (υT={ϕn,ϕs,ϕc},εT ={属于,浏览}),υTεT分别表示异构信息网络中节点类型和链路类型的结合。

2.2 问题定义

给定News HIN G =(υ,ε),虚假新闻检测问题旨在学习分类函数f: NY,将集合N中的新闻文章节点分类到具有Y中的可信度标签的正确类中,有效合并News HIN G中的各种异构信息。

2.3 节点级注意力

节点级注意力可以了解新闻文章中属于同一类型的邻居重要性,并且聚合那些有意义的邻居的表示,形成一个集合表示,将其定义为模式节点。节点级注意力层的输入是节点的初始特征向量。由于News HIN中存在多种类型的节点,初始特征向量属于不同维度的特征空间。为了使注意力机制能够在不同类型的节点之间输出可比较且有意义的权重,我们首先利用特定类型的变换矩阵将不同维度的特征投影到同一特征空间中。以新闻文章节点niN为例,类型ϕn的变换矩阵是 M ϕ n R F × F ϕ n,其中, F ϕ n是初始特征 h n i R F ϕ n的维数,F是映射到的特征空间的维数。对于所有类型特定的变换矩阵,F是相同的。投影过程可以表示为

h' n i= M ϕ n· h n i;h' c i= M ϕ c· h c i;h ' s i= M ϕ s· h s i

通过特定类型的投影操作,可以统一不同类型节点的特征空间,自注意机制可以在其中学习各种节点之间的权重。在这里,节点级注意力将分别学习同类型邻居节点的重要性。在检测虚假新闻时,目标节点是新闻文章节点niN,其邻居属于NSC。需要注意的是,目标节点本身也要视为邻居节点,以配合自注意机制。我们设T∈{N,S,C},T中的节点具有相同的类型ϕ,则对于Tni的邻居节点,节点级注意力可以学习 e i j ϕ t的重要性,这意味着节点tiT对于ni将会多么重要。 e i j ϕ t的重要性可以公式化如下
e i j ϕ t=attention(h' n j,h' t i;ϕt)
attention表示与进行节点注意力相同的深度神经网络,对于具有相同类型ϕt的所有相邻节点是共享的。掩饰注意力能够保持网络结构信息,只有当节点tj∈neighbo r n i是类型为ϕt的节点ni的邻居节点时,它才会被计算并记录为 e i j ϕ t。否则,它的注意力权重将为0,我们通过softmax函数将节点归一化处理得到权重系数:
α i j ϕ t=softmax( e i j ϕ t)
模式节点 T n i可被聚合为
T n i=σ( t j n e i g h b o r n i α i j ϕ t·h' t j)
与图注意力网络(GAT)类似,在节点级注意力中,可以使用多头注意力机制来稳定自我注意力的学习过程。具体来说,K独立节点级注意力执行方程(4)的变换,由K中关键词实现的特征将被级联,从而得到模式节点的输出表示:
T n i= k = 1 Kσ( t j n e i g h b o r n i α i j ϕ t·h' t j)
在面临的一些问题中,基于HIN模式,每个目标节点ni都有3个模式节点NniCniSni,对应3个不同类型的邻居。

2.4 归类级注意力

通过节点级注意力,我们将新闻文章节点的邻居聚合为几个模式节点。从本质上讲,它相当于将来自相同类型的邻居节点的信息融合到模式节点的表示中。我们现在仍然需要做的是从所有模式节点学习新闻文章节点的表示。不同的模式节点包含不同的类型信息,这需要我们区分节点类型的重要性。我们将使用归类级注意力来自动学习不同模式节点的重要性,并最终使用学习到的系数进行加权融合。为了获得足够的表达能力来计算作为高级特征的模式节点之间的注意力权重,我们把一个可学习的线性变换应用于节点级注意力的模式节点的特征,这个线性变换由一个加权矩阵WRF'×KF参数化(K是节点级注意力中的关键词数量),归类级注意力机制图式是一个单层前馈神经网络,应用了维度为2F0的激活函数Sigmoid。对于模式节点 T n i,它的重要性可以表示为 ω i ϕ t:
ω i ϕ t=schema(W T n i,W N n i)
通过softmax函数来规范每个模式节点的重要性。最终融合的系数表示为 β i ϕ t,计算如下:

β i ϕ t=softmax( ω i ϕ t)= e x p ( ω i ϕ t ) ϕ υ T e x p ( ω i ϕ )

基于所学系数,我们可以融合所有模式节点以获得目标节点ni的最终表示

r n i= ϕ t υ T β i ϕ t· T n i

学习的最终表示集表示为R图2描述了两级聚合过程。
图2 节点级与归类级聚合过程说明

Fig.2 Aggregation process of node-level attention and classification-level attention

2.5 损失函数

一旦实现了最终的表示,就可以使用标记的新闻文章节点来训练分类器。在实验中,使用逻辑回归层进行预测。我们将一组标记的新闻文章节点定义为Nl。对于虚假新闻检测任务,优化目标函数被设置为交叉熵损失最小化,并且可以通过反向传播进行优化。
在二分类虚假新闻检测中,损失为
Loss(R,Nl)=- n j N l( y n ilog( p n i)+(1- y n i)log(1- p n j))
其中,y是二进制指示符(0或1),指示标签是否是新闻文章节点的正确分类。 p n i是新闻文章节点ni表示的预测概率。预测概率将由模型中的逻辑回归层输出。
对于多类虚假新闻检测,基于交叉熵的损失可以表示为
LossR,Nl=- n i N l j Y y n i , jlog( p n i , j)
其中,y也是二进制指示符(0或1),其指示类标签j是否是新闻文章节点ni的正确分类。将训练多类逻辑回归层以输出预测概率 p n i , j

3 实验及结果分析

本实验中使用的数据集是FakeNewsNet数据集在PolitiFact平台上搜集的数据。关于新闻文章,PolitiFact在网站上提供原始内容、事实核查结果和全面的事实核查报告。该平台根据内容和主题将它们分类为不同的科目,还将提供每个主题的简要描述。事实核查结果可以表明相应新闻文章的可信度,并从{True、Mostly True、Half True、Mostly False、False、Pants on Fire}中取值。在PolitiFact数据集中,1 322篇新闻文章被标记为“Pants on Fire”,而带有“False”的新闻文章数量为2 601篇。此外,数据集中还存在2 539篇“Mostly False”新闻文章和2 765篇“Half True”的新闻文章。“Mostly True”和“True”新闻的数量分别为2 676条和2 149条。如果我们将标签{Pant on fire、False、Mostly False}分组为假新闻,将标签{True、Mostly True、Half True}分组为真新闻,则假新闻的数量为6 465,真新闻的数量为7 590。我们在原始数据集的基础上建立了一个异构的信息网络(HIN)。HIN包括三种类型的节点:新闻文章(N)、社交媒体用户(S)和用户评论信息(C),以及两种类型的链接:属于(新闻文章和用户评论信息之间)和浏览(新闻文章和社交媒体用户之间)。描述HIN的关键统计数据见表1
表1 HIN 统计数据

Tab.1 HIN statistical data

nature PolitiFact
新闻文章(N) 14 055
节点(n) 社交媒体用户(S) 10 374
用户评论信息(C) 3 6734
关系 属于(N-C) 36 734
浏览(N-S) 48 756
本文引入的2行2列混淆矩阵,如表2所示,作为一种标准格式,可以用来表示精度评价。其中:TP(true positive):真正例,模型正确预测为正样本的实际正样本数。TN(true negative):真负例,模型正确预测为负样本的实际负样本数。FP(false positive):假正例,模型错误预测为正样本的实际负样本数。FN(false negative):假负例,模型错误预测为负样本的实际正样本数。
表2 混淆矩阵

Tab.2 Confusion matrix

预测值=1 预测值=0
真实值=1 TP FN
真实值=0 FP TN
本文采用准确率、精确率、召回率和F1分数作为分类模型的主要评价指标。
准确率是分类任务中用于衡量模型整体预测准确性的指标,是模型正确预测的样本数占总样本数的比例,表示为

准确率= T P + F N T P + F P + T N + F N

精确率是分类任务中的一个重要评价指标,用于衡量模型预测正样本的准确性,表示为

精确率= T P T P + F P

召回率是分类任务中的一个关键评价指标,能够衡量正样本的检出能力,表示为

召回率= T P T P + F N

F1分数是分类任务中的一个综合评价指标,同时考虑了模型的精确率和召回率,并计算它们的调和平均数,表示为

F1分数= 2 × P × R P + R

3.1 二分类任务

HAGN模型在准确率、精确率、召回率和F1分数上实现了最佳性能,结果见表3
表3 二分类实验结果

Tab.3 Binary-classification experiment results

准确率 精确率 召回率 F1分数
LIWC 0.473 0.454 0.264 0.314
LINE 0.512 0.443 0.137 0.227
DW 0.530 0.449 0.236 0.301
GCN 0.541 0.998 0.004 0.003
SVM 0.571 0.504 0.334 0.399
GAT 0.573 0.978 0.045 0.083
HAN 0.579 0.697 0.206 0.312
LP 0.581 0.607 0.204 0.315
HAGN 0.626 0.603 0.424 0.507
然而,当考虑精度时,我们可以从图3(d)中观察到,HAGN模型的性能低于GCN和GAT。通过仔细分析可以发现,面对虚假新闻检测,GAT和GCN倾向于将大多数实例判断为“真实”,这与较高的精度与极低的召回率有关。在这种情况下,更高的精度是不实用的,导致很多虚假新闻无法检测到。通过比较模型和网络嵌入方法的性能,我们可以得出结论:文本信息是非常重要的,而仅仅基于网络结构是不够的。同时,通过模型和文本分类方法的比较,我们可以发现网络结构对虚假新闻的检测功能也很强大。最后,通过图神经网络方法之间的比较,验证了应该以更有效的方式来处理网络的异构性。如果简单地忽略类型,将异构网络视为同构网络,那么结果将非常令人失望。同样作为一种异构图的方法,HAGN模型也显示出优于HAN的优势。更重要的是,HAGN模型是一个没有手工制作功能限制的元路径自由模型。
图3 二分类新闻文章分类结果

Fig.3 Classification results of binary-news articles

3.2 多分类任务

由于新兴新闻性质的不确定性,通常很难直接判断新闻是绝对真实的还是虚假的。此外,这也不利于后续操作。根据新闻的可信度进行更细粒度的多分类任务是非常有意义的。6个标签分类的实验结果如表4所示,其中HAGN模型优于所有比较方法,具有明显的优势。从更普遍的角度来看,这也表明HAGN模型在异构网络中具有更强的学习能力,学习到的表示也更全面、更具鉴别力。结果表明,面对异构网络中的其他场景,HAGN具有巨大的潜力和可扩展性。
表4 多类新闻文章分类结果

Tab.4 Classification results of multiple types of news articles

Train Text-based Network Embed GNNs
SVM LIWC LP DW LINE GAT HAN HAGN
20% 准确率 0.196 7 0.143 2 0.221 8 0.193 2 0.153 2 0.211 0 0.218 1 0.256 1
F1分数值 0.162 4 0.122 5 0.192 5 0.156 2 0.076 5 0.105 4 0.123 4 0.214 1
召回率 0.180 1 0.096 5 0.215 3 0.171 8 0.143 3 0.197 5 0.188 4 0.241 5
精准率 0.190 5 0.140 9 0.285 9 0.174 2 0.032 6 0.168 7 0.246 7 0.239 7
40% 准确率 0.204 2 0.154 3 0.227 8 0.195 2 0.156 7 0.223 7 0.224 0 0.275 7
F1分数值 0.177 5 0.131 4 0.194 4 0.164 6 0.079 8 0.110 3 0.144 1 0.248 4
召回率 0.189 2 0.098 7 0.218 3 0.174 2 0.150 5 0.198 7 0.185 3 0.261 6
精确率 0.204 7 0.149 1 0.303 7 0.174 5 0.040 1 0.181 5 0.257 2 0.364 9
60% 准确率 0.206 1 0.151 3 0.237 3 0.196 9 0.145 3 0.221 4 0.225 6 0.270 7
F1分数值 0.187 1 0.132 1 0.209 9 0.164 7 0.065 3 0.116 2 0.147 5 0.244 5
召回率 0.197 6 0.100 2 0.222 2 0.176 4 0.141 0 0.195 4 0.185 2 0.257 6
精确率 0.211 8 0.156 1 0.295 5 0.196 6 0.030 7 0.187 0 0.279 2 0.376 7
80% 准确率 0.218 6 0.156 7 0.240 7 0.201 3 0.162 3 0.221 2 0.220 7 0.266 5
F1分数值 0.196 2 0.130 5 0.218 7 0.166 9 0.087 5 0.103 7 0.121 8 0.239 3
召回率 0.208 1 0.095 4 0.234 1 0.183 0 0.151 2 0.197 5 0.184 0 0.258 6
精确率 0.223 3 0.155 3 0.314 9 0.189 6 0.046 8 0.181 9 0.249 7 0.375 7

3.3 模式级注意力的表现

为了验证模式级注意力的有效性,我们将基于图神经网络分层聚合的虚假新闻检测模型的模式级注意力替换为模式节点的固定等权重。在实验中,所有三个模式节点都被分配了权重3,并且我们将该比较模型表示为无模式级模型。图4为HAGN模型和无模式级HAGN模型之间的比较结果。结果来自具有不同训练比率的多类别分类设置的实验。很明显,从各种指标来看,HAGN模型和无模式级HAGN模型获得了更好的性能。这表明模式节点的重要性区分,而HAGN模型可以有效地通过注意力权重来区分重要性。相比之下,聚合模式节点的简单平均操作损害了性能,本质上相当于丢弃了模式节点的类型信息。
图4 HAGN与无模式级HAGN注意力的比较

Fig.4 Comparison of attention between HAGN and HAGN_no_schema

4 结束语

本模型充分利用News HIN的丰富特性,有效捕获新闻文章的文本信息、用户信息、用户评论信息以及网络结构信息,通过一种独特的方式实现了对虚假新闻的更精准检测。
本模型还具有高度的可扩展性,作为一种通用的图表示学习模型,它不需要任何手工制作的特征或先验知识,这使得其可以轻松地适应不同的应用场景和数据集,为其他基于异构网络的问题提供了有效的解决方案。
[1]
吴博, 梁循, 张树森, 等. 图神经网络前沿进展与应用[J]. 计算机学报, 2022, 45(1): 35-68.

WU B, LIANG X, ZHANG S S, et al. Advances and applications in graph neural network[J]. Chinese Journal of Computers, 2022, 45(1): 35-68.

[2]
王静, 何苗苗, 丁建立, 等. 面向多维时间序列异常检测的时空图卷积网络[J]. 西安电子科技大学学报, 2024, 51(3): 170-181.

WANG J, HE M M, DING J L, et al. Spatial-temporal graph convolutional networks for anomaly detection in multivariate time series[J]. Journal of Xidian University, 2024, 51(3): 170-181.

[3]
王玉玺, 齐锋, 柯明星, 等. 透过俄乌冲突看人工智能对认知领域作战影响[C]// 第十一届中国指挥控制大会论文集. 国防科技大学电子对抗学院,2023:5.

WANG Y X, QI F, KE M X. Look at AI’s impact on cognitive field operations through the Russia Ukraine conflict[C]// Proceedings of the 11th China Command and Control Conference. College of Electronic Warfare, National University of Defense Technology, 2023:5.

[4]
Xinyi Zhou, Reza Zafarani. Fakenews: A survey of research, detection methods, and opportunities[J/OL]. In arXiv preprint arXiv:1812.00315, 2018.

[5]
杨圣鹏, 施建栋, 周斯炜, 等. 基于图框架变换的动态图神经网络模型[J]. 浙江师范大学学报(自然科学版), 2024, 47(1): 19-28.

YANG S P, SHI J D, ZHOU S W, et al. Dynamic graph neural network model based on graph framelets transform[J]. Journal of Zhejiang Normal University(Natural Sciences), 2024, 47(1): 19-28.

[6]
张明书, 葛晓义, 魏彬. 基于情感特征和谣言种类的谣言检测[J]. 计算机仿真, 2023, 40(6): 21-25, 60

ZHANG M S, GE X Y, WEI B. Rumor detection based on emotional features and types of rumors[J]. Computer Simulation, 2023, 40(6): 21-25, 60

[7]
韩浩. 基于多任务学习的假新闻检测[D]. 哈尔滨: 哈尔滨工业大学, 2020.

HAN H. Fake news detection based on multi-task learning[D]. Harbin: Harbin Institute of Technology, 2020.

[8]
柳晓翠. 基于机器学习算法的虚假新闻检测研究[J]. 信息技术与信息化, 2021(9): 237-239.

LIU X C. Research on false news detection based on machine learning algorithm[J]. Information Technology and Informatization, 2021(9): 237-239.

[9]
王光晨. 生成式自动文本摘要研究[D]. 保定: 河北大学, 2021.

WANG G C. Research on generative automatic text summarization[D]. Baoding: Hebei University, 2021.

[10]
SHU K, MAHUDESWARAN D, WANG S H, et al. FakeNewsNet: a data repository with news content, social context, and spatiotemporal information for studying fake news on social media[J]. Big Data, 2020, 8(3): 171-188.

[11]
CUI L M, SHU K, WANG S H, et al. dEFEND: a system for explainable fake news detection[C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. Beijing China, 2019: 2 961-2 964.

Outlines

/