System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于社交机器人识别,具体涉及一种基于发布内容和用户关系融合的社交机器人检测方法。
技术介绍
1、当前的社交机器人检测方法可分为基于用户特征的方法和基于网络结构的方法。前者从使用传统的特征工程分析方法发展到如今的对文本编码训练提取特征结构。后者传统方法主要是分析网络流量,构建网络图,来分析网络中的异常节点,而随着对深度神经网络结构的研究,逐渐将图神经网络应用于社交媒体机器人检测,即使用用户节点和用户关系网络构建社交图,通过训练得到预测结果。
2、当前,存在着基于特征工程的社交机器人检测方法,通过对不同类别的特征进行分析提取,得到特征集进行训练,但是这些特征集的提取过程与数据集质量密切相关,大多数情况下,由于缺乏真实数据,需要人工标注标签,恶意账户的特征是自动行为和人为行为的混合,容易出现标注错误。除此之外,文本内容信息是社交机器人检测的一个重要特征构成,大多数检测都对发布内容进行编码通过深度网络进行训练,忽视了发布内容信息存在的关联性。传统基于网络流量的社交机器人检测除了流量数据的不易获取以外,在构建图模型的时候相对简单,与现实契合较差,性能取决于算法的假设。很多基于图神经网络的方法忽略了账户发布内容、传播链路以及人物所属社区等重要信息。
技术实现思路
1、为了解决上述问题,本专利技术提供一种基于发布内容和用户关系融合的社交机器人检测方法,旨在根据用户在社交媒体上发布的内容信息和其社交关系图识别出社交机器人,通过对不同类型数据的分析利用,提升识别的准确率。
>2、本专利技术所采用的技术方案为:
3、在第一个方面,本申请公开了一种基于发布内容和用户关系融合的社交机器人检测方法,包括以下步骤:
4、上传用户数据;
5、对所述用户数据进行预处理,获得预处理后的文本数据、属性数据以及关系数据;
6、利用所述预处理后的文本数据和属性数据进行文本表征提取,获得第一向量,利用所述预处理后的文本数据、属性数据和关系数据进行关系网络表示提取,获得第二向量;
7、根据所述第一向量和第二向量进行结果识别;
8、其中,所述第一向量为用户文本表示向量,所述第二向量为用户关系网络表示向量。
9、作为一种可选的技术方案,所述预处理包括:
10、从所述用户数据中获取文本数据、属性数据以及关系数据;
11、对所述文本数据统一分词,并使用第一编码方式进行编码;
12、将所述属性数据归类为真假数据项、数字属性项或者位置数据项,对所述真假数据项采用第二编码方式进行编码,对所述数字属性项采用第三编码方式进行编码,对所述位置数据项采用第四编码方式进行编码;
13、其中,所述关系数据包括显示关系数据和隐式关系数据,显示关系数据包括用户的关注关系和好友关系数据,隐式关系数据包含了标签共现,所述标签共现从所述文本数据中提取;所述第一编码方式为roberta编码,所述第二编码方式为零一编码,所述第三编码方式为z-score编码,所述第四编码方式为独热编码。
14、作为一种可选的技术方案,所述文本表征提取包括:
15、利用编码后的文本数据,提取第三向量和第四向量,利用编码后的属性数据,获得第五向量;
16、根据所述第三向量、第四向量和第五向量,建立全连接层,得到所述第一向量;
17、其中,所述第三向量为用户文本信息向量,所述第四向量为语义一致性表示向量,第五向量为用户属性表示向量。
18、作为一种可选的技术方案,所述第三向量的提取包括如下步骤:
19、利用编码后的所述文本数据,生成第j条文本的前向隐藏状态序列和后向隐藏状态序列
20、根据所述序列和将前后向的结果聚合,形成第j条文本表示序列和进而获得该第j条文本的表示向量
21、对用户的每条文本均生成一个表示向量后得到集合
22、利用所述集合生成一个正向和反向的序列,再将正向序列和反向序列的结果连接起来,形成所述第三向量。
23、作为一种可选的技术方案,所述第四向量的提取包括如下步骤:
24、利用语言训练模型得到原始的注意力权重矩阵mi;
25、使用最大池化函数对所述矩阵mi下采样,缩小矩阵mi得到矩阵
26、对所述矩阵展开,得到每一层的一致性表示向量di:
27、对获得的所有所述一致性表示向量di使用加权函数合并,得到所述第四向量。
28、作为一种可选的技术方案,所述关系网络表示提取包括:以关系图卷积神经网络r-gcn为基础,利用编码后的属性数据和文本数据作为用户节点特征,根据所述节点特征以及所述关系数据进行节点聚合,输出所述第二向量。
29、作为一种可选的技术方案,所述节点聚合包括:
30、转换节点特征,得到了节点的初始隐藏向量
31、所述向量经过l层关系图卷积神经网络r-gcn之后得到中间向量
32、利用所述中间向量获得所述第二向量。
33、在第二个方面,本申请还公开了一种基于发布内容和用户关系融合的社交机器人检测装置,包括:
34、数据上传模块,用于上传用户数据;
35、预处理模块,用于对所述用户数据进行预处理,获得预处理后的文本数据、属性数据以及关系数据;
36、向量提取模块,用于利用所述预处理后的文本数据和属性数据进行文本表征提取,获得第一向量,还用于利用所述预处理后的文本数据、属性数据和关系数据进行关系网络表示提取,获得第二向量;
37、识别模块,用于根据所述第一向量和第二向量进行结果识别;
38、其中,所述第一向量为用户文本表示向量,所述第二向量为用户关系网络表示向量。
39、作为一种可选的技术方案,所述预处理模块包括:
40、数据获取单元,用于从所述用户数据中获取文本数据、属性数据以及关系数据;
41、第一编码单元,用于对所述文本数据统一分词,并使用第一编码方式进行编码;
42、第二编码单元,用于将所述属性数据归类为真假数据项、数字属性项或者位置数据项,并对所述真假数据项采用第二编码方式进行编码,对所述数字属性项采用第三编码方式进行编码,对所述位置数据项采用第四编码方式进行编码;
43、其中,所述关系数据包括显示关系数据和隐式关系数据,显示关系数据包括用户的关注关系和好友关系数据,隐式关系数据包含了标签共现,所述标签共现从所述文本数据中提取;所述第一编码方式为roberta编码,所述第二编码方式为零一编码,所述第三编码方式为z-score编码,所述第四编码方式为独热编码。
44、作为一种可选的技术方案,所述向量提取模块包括文本表征提取模块和关系网络表示提取模块,所述文本表征提取模块包括:
45、向量提取单元,用于根据编码后的文本数据,提取第三向量和第四向量,利用编码后的属本文档来自技高网...
【技术保护点】
1.一种基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述预处理包括:
3.根据权利要求2所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述文本表征提取包括:
4.根据权利要求3所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述第三向量的提取包括如下步骤:
5.根据权利要求3或4所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述第四向量的提取包括如下步骤:
6.根据权利要求2所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述关系网络表示提取包括:以关系图卷积神经网络R-GCN为基础,利用编码后的所述属性数据和文本数据作为用户节点特征,根据所述节点特征以及所述关系数据进行节点聚合,输出所述第二向量。
7.根据权利要求6所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述节点聚合包括:
8.一
9.根据权利要求8所述的基于发布内容和用户关系融合的社交机器人检测装置,其特征在于:
10.一种计算机可读介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述预处理包括:
3.根据权利要求2所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述文本表征提取包括:
4.根据权利要求3所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述第三向量的提取包括如下步骤:
5.根据权利要求3或4所述的基于发布内容和用户关系融合的社交机器人检测方法,其特征在于,所述第四向量的提取包括如下步骤:
6.根据权利要求2所述的基于发布内容和用户关系融合的社交机器人检...
【专利技术属性】
技术研发人员:张栗粽,孙明,田玲,高辉,孔京,
申请(专利权)人:电子科技大学深圳高等研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。