一种基于双曲嵌入图神经网络的社交媒体谣言检测方法技术

技术编号：40178317 阅读：30 留言：0更新日期：2024-01-26 23:45

本发明专利技术提出一种基于双曲嵌入图神经网络的社交媒体谣言检测方法，包括：数据收集和预处理，得到待验证话题下的所有互动信息；利用Bert预训练模型生成每条互动信息对应的特征向量，构建该话题对应的特征矩阵；构建待验证话题所对应的传播树结构，得到该话题对应的邻接矩阵；将传播树结构嵌入双曲空间，得到每个节点的双曲坐标，计算每条互动信息之间的关联程度，得到该话题对应的关联矩阵；将该传播树所对应的三种属性矩阵作为谣言检测模型输入，通过基于双曲嵌入的图神经网络模型，最终得到该话题是谣言的概率。本发明专利技术可以对社交媒体上的各种话题判定其是否为谣言。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能、机器学习、复杂网络、双曲空间、谣言检测等领域，特别涉及一种基于双曲嵌入图神经网络的在线社交媒体谣言检测方法。

技术介绍

1、互联网的飞速发展、网络社交平台的广泛应用为谣言的产生和传播提供了温床。微博、facebook等一批在线社交媒体，逐渐成为大众信息消费的主要载体。如何准确、快速的识别谣言是亟待解决的问题。

2、近年来，随着计算机运算能力不断提高，利用机器学习方法解决谣言检测问题已成为主流，层出不穷的检测模型被设计提出。前期的检测模型主要基于待检测文本内容来设计，如从统计角度设计了诸如文本长度，情感词统计，用户年龄等人工特征进行学习。但是，谣言的检测不能仅仅考虑信息内容，信息的传递过程也是判定的重要标准之一。因此，利用图神经网络学习传播结构特征以进行谣言检测成为新的热点，如杨延杰等人考虑到帖子之间的转发结构信息、融合门控单元和图卷积网络建模、利用源贴信息，取得良好效果。

3、但传统图神经网络对“树形”图嵌入会造成很大的失真，丢失网络中部分结构信息。如何低失真的嵌入传播树结构，从而提高谣言检测精度，是亟待解决的关键问题。

技术实现思路

1、解决的技术问题：本专利技术提出一种基于双曲嵌入图神经网络的社交媒体谣言检测方法，通过将待验证话题传播树嵌入到双曲空间，以更好的保留结构信息，提高谣言检测模型精度。

2、技术方案：

3、一种基于双曲嵌入图神经网络的社交媒体谣言检测方法，其特征在于，所述社交媒体谣言检测方法包括以下步骤：

4、s1，数据收据和预处理：收集待验证话题下所有的互动信息，以及互动发起人的用户信息；

5、s2，生成每条互动信息对应的特征向量：对每条互动信息用户特征和内容特征进行拼接操作以得到互动信息的文本表示，再通过bert预训练模型得到互动信息的特征向量表示；

6、s3，构建邻接矩阵：根据待验证话题及其所包含互动信息的传播路径构建话题传播树结构，得到对应的邻接矩阵；

7、s4，计算互动信息之间的关联程度：将步骤s3得到的邻接矩阵嵌入到双曲空间模型，得到每个节点的双曲嵌入坐标，根据得到的双曲嵌入坐标，计算节点间双曲距离，得到节点间关联程度，构建关联矩阵；

8、s5，根据每个话题下的互动信息传播路径和特征向量构建话题传播树，将话题传播树作为谣言检测模型输入，通过基于双曲嵌入的图神经网络模型计算得到话题是谣言的概率。

9、进一步地，步骤s1中，数据收据和预处理的过程具体包括：

10、s11，收集包括评论内容、点赞和转发内容在内的待验证话题t下所有的互动信息；收集包括用户名、个人简介、性别、年龄、ip位置在内的公开的互动发起人的用户信息；

11、s12，对收集的互动信息和用户信息进行清理，删除无关的表情和图片。

12、进一步地，步骤s2中，生成每条互动信息对应的特征向量的过程具体包括：

13、假设待验证话题t下所有的互动信息的文本特征hi由用户特征信息ui以及用户所发布的互动信息vi这两部分组成：

14、hi＝concat(ui，vi)

15、式中，i表示互动信息的编号，concat(·)表示拼接操作函数：针对用户特征信息，ui＝concat(xi，1，…，xi，l，…，xi，n)；xi，l表示互动信息hi对应的用户的第l个属性，n表示属性个数；针对用户所发布的互动信息，vi＝{yi，1，…，yi，s，…，yi，m}；yi，s表示互动信息vi中的第s个单词，m表示互动信息中所有单词个数；

16、将hj作为输入，导入bert预训练模型，得到每一条互动信息的特征向量表示hi，所有的互动信息特征向量构成待验证话题对应的特征矩阵h＝{h1，…，hi，…，hn}t；其中n表示待验证话题下的互动信息数量。

17、进一步地，步骤s3中，构建邻接矩阵的过程具体包括：

18、s31，将每一条互动信息看成一个节点，将互动信息之间的交互关系定义成连边，使每一条待验证话题及其所包含的所有互动信息构成传播图结构g(v，e)；其中节点v代表每一条互动信息，连边e代表互动信息之间的交互关系；令|v|＝n，n表示待验证话题t下的所有互动信息数量，即g中所包含的所有节点数；

19、s32，将传播图结构g转换为无向图，构建传播图结构g对应的邻接矩阵a，其中如果节点a和节点b相连，则a中a行b列元素为1，反之为0；a的对角元素为0，a是对称矩阵。

20、进一步地，步骤s4中，将步骤s3得到的邻接矩阵嵌入到双曲空间模型的过程具体包括：

21、s41，计算传播图结构g的相关属性，包括：邻接矩阵平均度值<k>，平均聚类系数以及每个节点的度值ki，i＝1，2…n；

22、s42，随机选取聚类系数β，根据公式：计算平均度μ；

23、s43，调整每个节点在模型里面的期望度值κi以保证其能够匹配原始网络中的度值；模型是一种简单的描述网络中隐藏度量空间的模型，其假定节点分布在一维圆圈上，通过设定节点期望度值κ，来表征节点属性；初次设定κi＝ki；

24、s44，计算模型里的平均聚类系数如果则进行下一步骤；反之，返回步骤s42，，重新调整参数β；

25、s45，对于所有度数大于1的节点，计算其期望弦长dij：

26、

27、其中，δθij是节点i和节点j的角距离；

28、s46，构建拉普拉斯矩阵l＝d-w，其中d是度矩阵，t表示dij的方差；

29、s47，计算l所对应的特征值和特征向量，并选择两个最小特征值所对应的特征向量：

30、v1＝(v1，1，v1，2，…，v1，n)，v2＝(v2，1，v2，2，…，v2，n)；

31、s48，计算得到每个节点对应的角坐标：

32、θi＝atan2(v2，i，v1，i)；

33、s49，根据角坐标的大小，对节点进行排序；在步骤s45被排除的节点，随机的在其邻居前后插入序列；

34、s410，调整序列中所有点的角坐标，以使所有点的角坐标加起来为2π；

35、s411，根据公式将所有节点嵌入到模型，得到对应的径坐标ri；模型是模型的等价模型，其将节点嵌入到二维圆盘上，因此节点表征相较模型会多出径坐标r；之后为嵌入双曲空间模型中的所有节点分配一个双曲坐标ci[ri，θi]，ri是其径坐标，θi是其角坐标；

36、计算节点i和节点j之间的双曲距离dij：

37、

38、式中，i≠j；

39、对于节点自身的双曲距离设置为0，即dist(ci，ci)＝0；双曲距离用于反映节点与节点之间的关联程度，双曲距离越远，代表节点越不关联；对双曲距离取倒数以表征节点关联程度，节点i和节点j的关联程度cij为：

40、

41、本文档来自技高网...

【技术保护点】

1.一种基于双曲嵌入图神经网络的社交媒体谣言检测方法，其特征在于，所述社交媒体谣言检测方法包括以下步骤：

2.根据权利要求1所述的基于双曲嵌入图神经网络的社交媒体谣言检测方法，其特征在于，步骤S1中，数据收据和预处理的过程具体包括：

3.根据权利要求1所述的基于双曲嵌入图神经网络的社交媒体谣言检测方法，其特征在于，步骤S2中，生成每条互动信息对应的特征向量的过程具体包括：

4.根据权利要求1所述的基于双曲嵌入图网络的社交媒体谣言检测方法，其特征在于，步骤S3中，构建邻接矩阵的过程具体包括：

5.根据权利要求4所述的基于双曲嵌入图神经网络的社交媒体谣言检测方法，其特征在于，步骤S4中，将步骤S3得到的邻接矩阵嵌入到双曲空间模型的过程具体包括：

6.根据权利要求5所述的基于双曲嵌入图神经网络的社交媒体谣言检测方法，其特征在于，步骤S5中，通过基于双曲嵌入的图神经网络模型计算得到话题是谣言的概率的过程具体包括：

【技术特征摘要】

1.一种基于双曲嵌入图神经网络的社交媒体谣言检测方法，其特征在于，所述社交媒体谣言检测方法包括以下步骤：

2.根据权利要求1所述的基于双曲嵌入图神经网络的社交媒体谣言检测方法，其特征在于，步骤s1中，数据收据和预处理的过程具体包括：

3.根据权利要求1所述的基于双曲嵌入图神经网络的社交媒体谣言检测方法，其特征在于，步骤s2中，生成每条互动信息对应的特征向量的过程具体包括：

4.根据权利要求1所述的基...

【专利技术属性】
技术研发人员：宋玉蓉，曲鸿博，赵有峰，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人