一种特征融合的多重图卷积神经网络社交机器人检测方法技术

技术编号:39640848 阅读:19 留言:0更新日期:2023-12-09 11:07
本发明专利技术为一种特征融合的多重图卷积神经网络社交机器人检测方法与装置,包括以下步骤:获取社交平台的用户账号数据;根据用户账号数据构建基于社交网络显式内容关系和隐式内容关系的多重图网络关系;对多重图网络关系进行显式特征提取,得到第一特征数据;对多重图网络关系进行隐式特征提取,得到第二特征数据;将第一特征数据和第二特征数据进行融合,得到第一特征融合数据;对第一图网络关系和

【技术实现步骤摘要】
一种特征融合的多重图卷积神经网络社交机器人检测方法


[0001]本专利技术涉及计算机科学
,特别涉及社交机器人检测领域


技术介绍

[0002]社交机器人是活跃在社交媒体中的具有明显机器行为的账号,按照真人参与的程度可以细分为机器人和半机器人

社交机器人群体规模日益增大,在社交媒体上的发声能够产生一定的影响,特别是在虚假信息传播

评价刷单

热度控制等方面起到了负面的作用

早期的社交机器人在社交网络中较为分散,机器人之间的社交关系并不明显,而机器行为特征较为明显,识别相对容易;随着机器人检测技术的提升,机器人也开始通过社交网络关系进行掩饰以规避检测,形成社交机器人特殊的网络结构,检测难度大大提升;随着生成合成算法的应用与更多人工的参与,新一代社交机器人呈现出高度仿真的态势,对社交机器人检测方法的不断提升提出了要求

目前,社交机器人的进化与社交机器人检测技术的提升呈现胶着的攻防状态

[0003]现有的社交机器人检测技术多数集中于个体机器人检测,主流的检测方法结合各类用户特征信息特别是社交关系信息进行图网络模型构建,然而即使是利用了各类特征进行融合来进行社交机器人检测,依然存在着几个问题

第一个是现有的图网络方法对于用户社交关系的依赖比较强,迁移性较差,虽然社交关系如粉丝

关注关系是比较有效的特征,但是一旦该类关系不能获得,是否仍可以继续利用图网络模型的优势进行检测,就需要对图网络关系的构建方法提出更高的要求;第二个是图网络关系中一类典型的应用是社群发现,即使用社群发现方法将图中节点形成不同的分群并加以分析,据调研目前很少有将社群发现方法挖掘出的特征与深度图网络模型结合进行研究的方法,特别是涉及到重叠社群方法的使用,而这些社群信息的引入可以进一步提升深度图网络检测方法的准确性;第三个是社交机器人的深度图网络建模方面,深度图网络方法本质上还是依赖各类特征的构建,随着社交机器人的不断更新升级,一些新构建的与社交机器人相关的特征同样可以继续提升社交机器人检测的效果,这些特征应该持续融合到最新的检测模型当中


技术实现思路

[0004]专利技术人在进行社交机器人检测研究的时候,发现图网络方法较为依赖社交网络关系,对数据存在较高的要求,迁移性较差,一些图网络方法在缺少粉丝

关注关系后可能会退化到无法使用;此外,目前将图网络方法与图社群发现方法结合的研究较少,针对重叠社群发现方法与图神经网络模型结合的研究更加稀少,存在提升的空间;还有一些随着社交机器人更新升级而持续总结出的特征也需要不断融合到模型当中,以提升模型的检测精度

[0005]为了解决上述问题,本专利技术公开一种特征融合的多重图卷积神经网络社交机器人检测方法,包括以下步骤:
[0006]获取社交平台的用户账号数据;
[0007]根据所述用户账号数据构建基于社交网络显式内容关系和隐式内容关系的多重图网络关系;
[0008]对所述多重图网络关系进行显式特征提取,得到第一特征数据;
[0009]对所述多重图网络关系进行隐式特征提取,得到第二特征数据;
[0010]将所述第一特征数据和第二特征数据进行融合,得到第一特征融合数据;
[0011]对所述第一图网络关系和
/
或第二图网络关系进行重叠社群划分,计算重叠社群的节点特征,得到第三特征数据;
[0012]将所述第三特征数据和第一特征融合数据进行融合,得到第二特征融合数据;
[0013]将所述第二特征融合数据输入到多重图卷积神经网络中进行训练,生成社交机器人检测分类器

[0014]在本专利技术一实施例中,所述构建基于社交网络显式内容关系的多重图网络关系的步骤是利用社交关系建立的

[0015]在本专利技术一实施例中,所述利用社交关系建立社交网络显式内容关系的多重图网络关系的步骤进一步包括:
[0016]建立关注网络

粉丝网络

评论网络

转发网络

回复网络

点赞网络

[0017]在本专利技术一实施例中,所述构建基于社交网络隐式内容关系的多重图网络关系的步骤是利用文本内容关系建立的

[0018]在本专利技术一实施例中,所述利用文本内容关系建立社交网络隐式内容关系的多重图网络关系的步骤进一步包括:
[0019]建立文本复制网络

话题共现网络

提及网络

[0020]在本专利技术一实施例中,所述建立文本复制网络的步骤进一步包括:
[0021]步骤
S211
:获取多个数据集或话题下的所有账号及其发文信息;
[0022]步骤
S212
:对所述发文信息进行向量化,得到文本向量;
[0023]步骤
S213
:通过相似度阈值计算所述文本向量之间的相似度,超过相似度阈值则认为高度相似;
[0024]步骤
S214
:将存在高度相似发文的账号之间建立连边关系

[0025]在本专利技术一实施例中,所述对文本向量化的步骤进一步包括:
[0026]通过词向量计算与文本分类工具对文本向量化

在本专利技术一实施例中,所述建立话题共现网络的步骤进一步包括:
[0027]步骤
S221
:对发布相同话题的账号和
/
或在相同话题下评论

转发的账号建立连边关系;
[0028]步骤
S222
:对所述账号出现次数从高到底排序;
[0029]步骤
S223
:所述账号出现次数取下中位数;
[0030]步骤
S224
:对所述下中位数和一可配置第一阈值进行比较;
[0031]步骤
S225
:所述下中位数大于等于所述第一阈值,保留所述账号的连边关系;
[0032]步骤
S226
:所述下中位数小于所述第一阈值,不保留所述账号的连边关系

[0033]在本专利技术一实施例中,对所述多重图网络关系进行显式特征提取的步骤进一步包括:
[0034]对用户元信息特征

用户行为特征

时序特征

内容特征

社交网络特征进行特征
提取

[0035]在本专利技术一实施例中,所述对用户元信息特征进行特征提取的步骤进一步包括:
[0036]步骤
S311
:使用目标检测算法在所述账号的头像中提取实体信息,在人物知识库中识别实体,得到是否本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种特征融合的多重图卷积神经网络社交机器人检测方法,其特征在于,包括以下步骤:获取社交平台的用户账号数据;根据所述用户账号数据构建基于社交网络显式内容关系和隐式内容关系的多重图网络关系;对所述多重图网络关系进行显式特征提取,得到第一特征数据;对所述多重图网络关系进行隐式特征提取,得到第二特征数据;将所述第一特征数据和第二特征数据进行融合,得到第一特征融合数据;对所述第一图网络关系和
/
或第二图网络关系进行重叠社群划分,计算重叠社群的节点特征,得到第三特征数据;将所述第三特征数据和第一特征融合数据进行融合,得到第二特征融合数据;将所述第二特征融合数据输入到多重图卷积神经网络中进行训练,生成社交机器人检测分类器
。2.
如权利要求1所述的方法,其特征在于,所述构建基于社交网络显式内容关系的多重图网络关系的步骤是利用社交关系建立的
。3.
如权利要求2所述的方法,其特征在于,所述利用社交关系建立社交网络显式内容关系的多重图网络关系的步骤进一步包括:建立关注网络

粉丝网络

评论网络

转发网络

回复网络

点赞网络
。4.
如权利要求1或3所述的方法,其特征在于,所述构建基于社交网络隐式内容关系的多重图网络关系的步骤是利用文本内容关系建立的
。5.
如权利要求4所述的方法,其特征在于,所述利用利用文本内容关系建立社交网络隐式内容关系的多重图网络关系的步骤进一步包括:建立文本复制网络

话题共现网络

提及网络
。6.
如权利要求5所述的方法,其特征在于,所述建立文本复制网络的步骤进一步包括:步骤
S211
:获取多个数据集或话题下的所有账号及其发文信息;步骤
S212
:对所述发文信息进行向量化,得到文本向量;步骤
S213
:通过相似度阈值计算所述文本向量之间的相似度,超过相似度阈值则认为高度相似;步骤
S214
:将存在高度相似发文的账号之间建立连边关系
。7.
如权利要求6所述的方法,其特征在于,所述对文本向量化的步骤进一步包括:通过词向量计算与文本分类工具对文本向量化
。8.
如权利要求5所述的方法,其特征在于,所述建立话题共现网络的步骤进一步包括:步骤
S221
:对发布相同话题的账号和
/
或在相同话题下评论

转发的账号建立连边关系;步骤
S222
:对所述账号出现次数从高到底排序;步骤
S223
:所述账号出现次数取下中位数;步骤
S224
:对所述下中位数和一可配置第一阈值进行比较;步骤
S225
:所述下中位数大于等于所述第一阈值,保留所述账号的连边关系;步骤
S226
:所述下中位数小于所述第一阈值,不保留所述账号的连边关系

9.
如权利要求8所述的方法,其特征在于,对所述多重图网络关系进行显式特征提取的步骤进一步包括:对用户元信息特征

用户行为特征

时序特征

内容特征

社交网络特征进行特征提取
。10.
如权利要求9所述的方法,其特征在于,所述对用户元信息特征进行特征提取的步骤进一步包括:步骤
S311
:使用目标检测算法在所述账号的头像中提取实体信息,在人物知识库中识别实体,得到是否存在高度相似头像的结果;步骤
S312
:提取所述账号一第一时间内
ip
变化属地数和所述相同话题下
ip
变化属地数;步骤
S313
:提取所述账号终端设备和相同话题下同一终端设备账号
id
数;步骤
S314
:提取个人信息填报列数,用于检测个人信息完备度;步骤
S315
:提取账号的注册时间
。11.
如权利要求9所述的方法,其特征在于,所述对用户行为特征进行特征提取的步骤进一步包括:步骤
S321
:提取发文时序平均助推影响力;步骤
S322
:提取账号有无重复转评自己原创内容的记录;步骤
S323
:提取账号是否存在过取关操作的记录;步骤
S324
:根据一可配置的第二阈值,提取账号是否存在长期休眠的记录;步骤
S325
:在一可配置的第二时间,将账号第二时间内活跃度与账号日常平均活跃水平比较,提取是否存在账号活跃度异常;步骤
S326
:提取账号是否启用推送功能的记录
。12.
如权利要求9所述的方法,其特征在于,所述对时序特征进行特征提取的步骤进一步包括:步骤
S331
:计算账号发文时间序列熵值;步骤
S332
:计算账号发文时间间隔序列熵值;步骤
S333
:计算当次发文时间间隔减上次发文时间间隔的序列的熵值
。13.
如权利要求9所述的方法,其特征在于,所述对内容特征进行特征提取的步骤进一步包括:步骤
S341
:计算话题下回复时间极短的内容相似度;步骤
S342
:计算月度发文情感极性方差;步骤
S343
:提取账号发文是否使用多种语言的记录
。14.
如权利要求9所述的方法,其特征在于,所述对社交网络特征进行特征提取的步骤进一步包括:步骤
S351
:根据所述多重图网络关系中的节点信息,计算邻居节点中不同性别的比例;步骤
S352
:计算节点出度和入度的和...

【专利技术属性】
技术研发人员:张怀博刘晓娜冯浩源杨新元尹芷仪沈华伟程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1