生成对抗网络的训练方法、检测方法及装置制造方法及图纸

技术编号:29935378 阅读:41 留言:0更新日期:2021-09-04 19:10
本发明专利技术公开了一种用于检测机器账号的生成对抗网络的训练方法,包括:获取多个用于训练所述生成对抗网络公开数据集;从所述公开数据集中抽取所述真实账号数据,得到真实账号数据集;按照不同特征提取方式从所述真实账号数据集中提取所述真实账号数据的特征数据,得到所述真实账号数据的特征数据;将随机噪声输入到所述生成对抗网络的生成器中,输出虚假账号特征数据;利用每种所述特征提取方式对应的真实账号数据的特征数据和所述虚假账号特征数据分别训练所述生成对抗网络的判别器,得到每种所述特征提取方式对应的判别器。本发明专利技术同时公开了一种训练装置、一种利用生成对抗网络进行机器账号检测的方法以及检测装置。行机器账号检测的方法以及检测装置。行机器账号检测的方法以及检测装置。

【技术实现步骤摘要】
生成对抗网络的训练方法、检测方法及装置


[0001]本专利技术涉及机器账号检测领域,尤其涉及一种用于检测机器账号的生成对抗网络的训练方法、检测方法及装置。

技术介绍

[0002]随着移动互联网的大面积普及,社交网络或其他平台中的机器账号在大幅增长,这些机器账号不仅散布广告和低俗信息,而且会模仿真实用户发言来操控舆论,挑拨对立,影响用户间正常的交流和社交网络氛围。对机器账号进行检测,进而分析其背后的行为意图,已经成为智能感知对抗领域的一个亟需解决问题。
[0003]目前针对机器账号尤其是第三代机器账号的检测方法有很多,比如通过用户好友的社会关系来区分正常账号和机器账号;利用蜜罐技术,收集账号的发帖和关注数据,区分正常账号和机器账号;从用户和消息两类实体出发,给出用户和消息的划分指示矩阵,区分正常账号和机器账号;通过聚类算法训练支持向量机(SVM)来区分正常账号和机器账号。
[0004]然而上述现有技术中仍存在一些问题:分类依据单一,依赖账号的单一特征数据集进行分类,没有对账号的特征数据进行充分利用和提取,形成对账号数据多维度多角度的特征提取;严重依赖带标签的真实账号与机器账号组成的样本数据集,训练出来的模型固化,不能应对不同类型标签的样本数据集,检测模型泛化性不足,无法应对样本攻击。

技术实现思路

[0005]鉴于上述现有技术中的问题,本专利技术提出了一种用于检测机器账号的生成对抗网络的训练方法、一种利用生成对抗网络进行机器账号检测的方法以及装置,旨在降低对示例数据集的依赖性,提高分类器的分类效果,在新一代机器账号被发现前,提前对新一代机器账号的进化进行预防,提升分类器的鲁棒性。。
[0006]本专利技术公开了一种用于检测机器账号的生成对抗网络的训练方法,包括:获取多个用于训练上述生成对抗网络公开数据集,其中,上述公开数据集中包括真实账号数据和机器账号数据;从上述公开数据集中抽取上述真实账号数据,得到真实账号数据集,其中,上述真实账号数据集中包括抽取出来的上述真实账号数据;按照不同特征提取方式从上述真实账号数据集中提取上述真实账号数据的特征数据,得到每种上述特征提取方式对应的上述真实账号数据的特征数据;将随机噪声输入到上述生成对抗网络的生成器中,输出虚假账号特征数据,其中,上述虚假账号特征数据中的特征与上述真实账号数据的特征相同;以及针对每种上述特征提取方式,利用每种上述特征提取方式对应的真实账号数据的特征数据和上述虚假账号特征数据分别训练上述生成对抗网络的判别器,得到每种上述特征提取方式对应的判别器。
[0007]根据本专利技术公开的训练方法,其中,每种上述特征提取方式具有对应的目标类型和目标数量的被提取特征,上述按照不同特征提取方式从上述真实账号数据集中提取上述真实账号数据的特征数据,得到每种上述特征提取方式对应的上述真实账号数据的特征数
据包括:
[0008]按照与上述特征提取方式对应的目标类型和目标数量的被提取特征,从上述真实账号数据集中提取上述真实账号数据的特征数据。
[0009]根据本专利技术公开的训练方法,其中,针对每种上述特征提取方式,利用每种上述特征提取方式对应的真实账号数据的特征数据和上述虚假账号特征数据分别训练上述生成对抗网络的判别器,得到每种上述特征提取方式对应的判别器包括:
[0010]将每种上述特征提取方式对应的真实账号数据的特征数据划分为训练集和验证集;
[0011]利用上述训练集和上述虚假账号特征数据分别训练上述生成对抗网络的判别器,得到待验证判别器;
[0012]利用上述验证集对上述待验证判别器进行验证,得到用于表征分类准确率的验证结果,若上述验证结果不符合迭代停止条件,则继续对上述待验证判别器进行训练,直至上述验证结果符合上述迭代停止条件,输出上述判别器。
[0013]根据本专利技术公开的上述训练方法,其中,上述迭代停止条件包括分类阈值。
[0014]根据本专利技术公开的上述训练方法,其中,上述分类阈值利用接收者操作特征曲线下的面积作为评价标准并通过交叉验证得到。
[0015]本专利技术同时公开了一种利用生成对抗网络进行机器账号检测的方法,包括:通过用户接口输入待检测账号;获取与上述待检测账号对应的关联数据;按照不同特征提取方式,从上述关联数据中提取与上述特征提取方式对应的特征数据;针对每种上述特征提取方式,将每种上述特征提取方式对应的特征数据输入上述生成对抗网络中对应的判别器中;获取每个上述判别器输出的判别结果;根据每个上述判别器输出的判别结果确定上述待检测账号的最终判别结果,其中,上述生成对抗网络由本专利技术公开的训练方法训练得到。
[0016]根据本专利技术公开的方法,其中,上述根据每个上述判别器输出的判别结果确定上述待检测账号的最终判别结果包括:确定上述判别器输出的判别结果中的最大值;将上述最大值作为上述最终判别结果。
[0017]根据本专利技术公开的方法,其中,上述判别结果用于表征上述待检测账号为机器账号的概率值。
[0018]本专利技术还提供了一种用于检测机器账号的生成对抗网络的训练装置,包括:获取模块,用于获取多个用于训练所述生成对抗网络公开数据集,其中,所述公开数据集中包括真实账号数据和机器账号数据;抽取模块,用于从所述公开数据集中抽取所述真实账号数据,得到真实账号数据集,其中,所述真实账号数据集中包括抽取出来的所述真实账号数据;提取模块,用于按照不同特征提取方式从所述真实账号数据集中提取所述真实账号数据的特征数据,得到每种所述特征提取方式对应的所述真实账号数据的特征数据;生成模块,用于将随机噪声输入到所述生成对抗网络的生成器中,输出虚假账号特征数据,其中,所述虚假账号特征数据中的特征与所述真实账号数据的特征相同;以及判别模块,用于针对每种所述特征提取方式,利用每种所述特征提取方式对应的真实账号数据的特征数据和所述虚假账号特征数据分别训练所述生成对抗网络的判别器,得到每种所述特征提取方式对应的判别器。
[0019]本专利技术还提供了一种利用生成对抗网络进行机器账号检测的装置,包括:第一输
入模块,用于通过用户接口输入待检测账号;第一获取模块,用于获取与上述待检测账号对应的关联数据;提取模块,用于按照不同特征提取方式,从上述关联数据中提取与上述特征提取方式对应的特征数据;第二输入模块,用于针对每种上述特征提取方式,将每种上述特征提取方式对应的特征数据输入上述生成对抗网络中对应的判别器中;第二获取模块,用于获取每个上述判别器输出的判别结果;确定模块,用于根据每个上述判别器输出的判别结果确定上述待检测账号的最终判别结果,其中,上述生成对抗网络由本专利技术公开的训练方法训练得到。
[0020]本专利技术通过单一类别的数据集,即真实账号数据集本专利技术,而不依赖于机器账号数据集,不需要对机器账号的示例进行学习来判断待检测账号是机器账号还是真实账号,所以本专利技术在进行机器账号检测时,泛化性更高。
[0021]本专利技术使用多种特征抽取方式,用每种方式都训练出一个判别器,用多个具有不同特征的判别器一起对待检测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于检测机器账号的生成对抗网络的训练方法,包括:获取多个用于训练所述生成对抗网络公开数据集,其中,所述公开数据集中包括真实账号数据和机器账号数据;从所述公开数据集中抽取所述真实账号数据,得到真实账号数据集,其中,所述真实账号数据集中包括抽取出来的所述真实账号数据;按照不同特征提取方式从所述真实账号数据集中提取所述真实账号数据的特征数据,得到每种所述特征提取方式对应的所述真实账号数据的特征数据;将随机噪声输入到所述生成对抗网络的生成器中,输出虚假账号特征数据,其中,所述虚假账号特征数据中的特征与所述真实账号数据的特征相同;以及针对每种所述特征提取方式,利用每种所述特征提取方式对应的真实账号数据的特征数据和所述虚假账号特征数据分别训练所述生成对抗网络的判别器,得到每种所述特征提取方式对应的判别器。2.根据权利要求1所述的训练方法,其中,每种所述特征提取方式具有对应的目标类型和目标数量的被提取特征,所述按照不同特征提取方式从所述真实账号数据集中提取所述真实账号数据的特征数据,得到每种所述特征提取方式对应的所述真实账号数据的特征数据包括:按照与所述特征提取方式对应的目标类型和目标数量的被提取特征,从所述真实账号数据集中提取所述真实账号数据的特征数据。3.根据权利要求1所述的训练方法,其中,针对每种所述特征提取方式,利用每种所述特征提取方式对应的真实账号数据的特征数据和所述虚假账号特征数据分别训练所述生成对抗网络的判别器,得到每种所述特征提取方式对应的判别器包括:将每种所述特征提取方式对应的真实账号数据的特征数据划分为训练集和验证集;利用所述训练集和所述虚假账号特征数据分别训练所述生成对抗网络的判别器,得到待验证判别器;利用所述验证集对所述待验证判别器进行验证,得到用于表征分类准确率的验证结果,若所述验证结果不符合迭代停止条件,则继续对所述待验证判别器进行训练,直至所述验证结果符合所述迭代停止条件,输出所述判别器。4.根据权利要求1所述的训练方法,其中,所述迭代停止条件包括分类阈值。5.根据权利要求4所述的训练方法,其中,所述分类阈值利用接收者操作特征曲线下的面积作为评价标准并通过交叉验证得到。6.一种利用生成对抗网络进行机器账号检测的方法,包括:通过用户接口输入待检测账号;获取与所述待检测账号对应的关联数据;按照不同特征提取方式,...

【专利技术属性】
技术研发人员:杨英光谢海永吴曼青
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1