【技术实现步骤摘要】
一种特征融合的多重图卷积神经网络社交机器人检测方法
[0001]本专利技术涉及计算机科学
,特别涉及社交机器人检测领域
。
技术介绍
[0002]社交机器人是活跃在社交媒体中的具有明显机器行为的账号,按照真人参与的程度可以细分为机器人和半机器人
。
社交机器人群体规模日益增大,在社交媒体上的发声能够产生一定的影响,特别是在虚假信息传播
、
评价刷单
、
热度控制等方面起到了负面的作用
。
早期的社交机器人在社交网络中较为分散,机器人之间的社交关系并不明显,而机器行为特征较为明显,识别相对容易;随着机器人检测技术的提升,机器人也开始通过社交网络关系进行掩饰以规避检测,形成社交机器人特殊的网络结构,检测难度大大提升;随着生成合成算法的应用与更多人工的参与,新一代社交机器人呈现出高度仿真的态势,对社交机器人检测方法的不断提升提出了要求
。
目前,社交机器人的进化与社交机器人检测技术的提升呈现胶着的攻防状态
。
[0003]现有的社交机器人检测技术多数集中于个体机器人检测,主流的检测方法结合各类用户特征信息特别是社交关系信息进行图网络模型构建,然而即使是利用了各类特征进行融合来进行社交机器人检测,依然存在着几个问题
。
第一个是现有的图网络方法对于用户社交关系的依赖比较强,迁移性较差,虽然社交关系如粉丝
、
关注关系是比较有效的特征,但是一旦该类关系不能获得,是否仍可以继续利用图网络模 ...
【技术保护点】
【技术特征摘要】
1.
一种特征融合的多重图卷积神经网络社交机器人检测方法,其特征在于,包括以下步骤:获取社交平台的用户账号数据;根据所述用户账号数据构建基于社交网络显式内容关系和隐式内容关系的多重图网络关系;对所述多重图网络关系进行显式特征提取,得到第一特征数据;对所述多重图网络关系进行隐式特征提取,得到第二特征数据;将所述第一特征数据和第二特征数据进行融合,得到第一特征融合数据;对所述第一图网络关系和
/
或第二图网络关系进行重叠社群划分,计算重叠社群的节点特征,得到第三特征数据;将所述第三特征数据和第一特征融合数据进行融合,得到第二特征融合数据;将所述第二特征融合数据输入到多重图卷积神经网络中进行训练,生成社交机器人检测分类器
。2.
如权利要求1所述的方法,其特征在于,所述构建基于社交网络显式内容关系的多重图网络关系的步骤是利用社交关系建立的
。3.
如权利要求2所述的方法,其特征在于,所述利用社交关系建立社交网络显式内容关系的多重图网络关系的步骤进一步包括:建立关注网络
、
粉丝网络
、
评论网络
、
转发网络
、
回复网络
、
点赞网络
。4.
如权利要求1或3所述的方法,其特征在于,所述构建基于社交网络隐式内容关系的多重图网络关系的步骤是利用文本内容关系建立的
。5.
如权利要求4所述的方法,其特征在于,所述利用利用文本内容关系建立社交网络隐式内容关系的多重图网络关系的步骤进一步包括:建立文本复制网络
、
话题共现网络
、
提及网络
。6.
如权利要求5所述的方法,其特征在于,所述建立文本复制网络的步骤进一步包括:步骤
S211
:获取多个数据集或话题下的所有账号及其发文信息;步骤
S212
:对所述发文信息进行向量化,得到文本向量;步骤
S213
:通过相似度阈值计算所述文本向量之间的相似度,超过相似度阈值则认为高度相似;步骤
S214
:将存在高度相似发文的账号之间建立连边关系
。7.
如权利要求6所述的方法,其特征在于,所述对文本向量化的步骤进一步包括:通过词向量计算与文本分类工具对文本向量化
。8.
如权利要求5所述的方法,其特征在于,所述建立话题共现网络的步骤进一步包括:步骤
S221
:对发布相同话题的账号和
/
或在相同话题下评论
、
转发的账号建立连边关系;步骤
S222
:对所述账号出现次数从高到底排序;步骤
S223
:所述账号出现次数取下中位数;步骤
S224
:对所述下中位数和一可配置第一阈值进行比较;步骤
S225
:所述下中位数大于等于所述第一阈值,保留所述账号的连边关系;步骤
S226
:所述下中位数小于所述第一阈值,不保留所述账号的连边关系
。
9.
如权利要求8所述的方法,其特征在于,对所述多重图网络关系进行显式特征提取的步骤进一步包括:对用户元信息特征
、
用户行为特征
、
时序特征
、
内容特征
、
社交网络特征进行特征提取
。10.
如权利要求9所述的方法,其特征在于,所述对用户元信息特征进行特征提取的步骤进一步包括:步骤
S311
:使用目标检测算法在所述账号的头像中提取实体信息,在人物知识库中识别实体,得到是否存在高度相似头像的结果;步骤
S312
:提取所述账号一第一时间内
ip
变化属地数和所述相同话题下
ip
变化属地数;步骤
S313
:提取所述账号终端设备和相同话题下同一终端设备账号
id
数;步骤
S314
:提取个人信息填报列数,用于检测个人信息完备度;步骤
S315
:提取账号的注册时间
。11.
如权利要求9所述的方法,其特征在于,所述对用户行为特征进行特征提取的步骤进一步包括:步骤
S321
:提取发文时序平均助推影响力;步骤
S322
:提取账号有无重复转评自己原创内容的记录;步骤
S323
:提取账号是否存在过取关操作的记录;步骤
S324
:根据一可配置的第二阈值,提取账号是否存在长期休眠的记录;步骤
S325
:在一可配置的第二时间,将账号第二时间内活跃度与账号日常平均活跃水平比较,提取是否存在账号活跃度异常;步骤
S326
:提取账号是否启用推送功能的记录
。12.
如权利要求9所述的方法,其特征在于,所述对时序特征进行特征提取的步骤进一步包括:步骤
S331
:计算账号发文时间序列熵值;步骤
S332
:计算账号发文时间间隔序列熵值;步骤
S333
:计算当次发文时间间隔减上次发文时间间隔的序列的熵值
。13.
如权利要求9所述的方法,其特征在于,所述对内容特征进行特征提取的步骤进一步包括:步骤
S341
:计算话题下回复时间极短的内容相似度;步骤
S342
:计算月度发文情感极性方差;步骤
S343
:提取账号发文是否使用多种语言的记录
。14.
如权利要求9所述的方法,其特征在于,所述对社交网络特征进行特征提取的步骤进一步包括:步骤
S351
:根据所述多重图网络关系中的节点信息,计算邻居节点中不同性别的比例;步骤
S352
:计算节点出度和入度的和...
【专利技术属性】
技术研发人员:张怀博,刘晓娜,冯浩源,杨新元,尹芷仪,沈华伟,程学旗,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。