恶意用户检测方法及装置制造方法及图纸

技术编号:14984277 阅读:106 留言:0更新日期:2017-04-03 15:24
本发明专利技术涉及一种恶意用户检测方法,包括:将各恶意用户注入到推荐系统中,生成正例数据集合,所述正例数据集合中的每个正例数据包括一组行为特征,一组行为特征构成一组向量;对多组向量进行离散化处理;根据离散化处理的结果,从推荐系统中的无标记用户中获取反例用户,生成反例数据集合;将正例数据集合和反例数据集合构成标记数据集,将无标记用户中获取反例用户后的剩余用户构成无标记数据集,根据标记数据集和无标记数据集,获取推荐系统中的恶意用户,从而检测到隐藏更深的恶意用户。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,尤其涉及一种推荐系统中的恶意用户检测方法及装置
技术介绍
推荐系统(英文:RecommenderSystems,缩写:RS)是一种为用户提供建议的智能化软件工具,目前已被应用于电子商务、电影和视频网站、社交网络、个性化阅读以及广告等诸多领域。产品的评分越来越影响用户对产品的选择,高质量的正向评分无疑会为商家带来很多的经济收益;相反的,低评分则将给商家带来经济损失。基于这一商业目的,有些商家为了促进产品的销售或打压其他商家的信誉,将会雇佣大量的用户来为自己的产品打高分,同时给其他商家的产品低评分。目前国内已出现了通过指导恶意用户以促进特定产品销售或打压其他产品信誉来获利的网站,如“刷客网”。在诸多的电子商务推荐系统中,协同过滤推荐算法是应用最为广泛的推荐系统算法。目前,国内外著名的推荐系统大多都是基于协同过滤推荐算法的,如亚马逊(英文:Amazon)网络书店、GroupLens、TiVo、Netflix、YouTube和Facebook等。基于协同过滤推荐算法的推荐方法大多基于用户-项目矩阵(英文:User-ItemMatrix)进行推荐,该算法的优点是可对多种类型的资源进行过滤,并能为用户发现新的感兴趣的信息,其核心思想是通过找到与目标用户Ut最相似的k个相似用户,根据k个相似用户对项目Ii的评分预测Ut对项目Ii的评分。但该算法给恶意用户可乘之机,这些恶意用户通过伪造出与目标用户Ut相似的评分向量,就能影响Ut的预测评分,恶意用户实施的这种攻击称为托攻击(英文:shillingattack)。为了解决这一问题,国内外学者进行了大量工作。目前大多的方法是:首先总结用户异于正常用户的行为特征,然后基于这些行为特征构造分类器来检测这些恶意用户。其中最为典型的算法是美国DePaul大学Mobasher,Burke和Williams等学者系统定义了恶意用户检测指标,并提出了平均、随机、分段、流行和Love/Hate五种攻击类型,并基于C4.5决策树检测这些恶意用户。国内国防科技大学的李聪在其博士论文中从恶意用户行为特征的群体效应作为切入点,构建了定量度量和相应的遗传优化目标函数来实现恶意用户检测。华南大学的陈健等人在其专利《一种基于兴趣组合的协作推荐攻击检测系统及方法》提出了基于用户兴趣组合挖掘模块的聚类分析方法检测恶意用户。上述方法通过捕捉恶意用户的异常行为成功的检测出了大量的恶意用户。但现实中,为了逃脱已有算法的检测,恶意用户通常将其评分方式接近于正常用户,目前的推荐系统恶意用户检测方法难以有效地检测这些用户。如以亚马逊上的某一用户“chen---yanyan”为例,在其评论的商品中,其写了大量的有用评论,并且购买了大量的商品,表面上看来其属于正常用户,但仔细分析其评分的商品,可发现其所评分的所有商品均来自于同一商家“北京紫图图书有限公司”,因此有理由确认该用户是该公司的枪手。现实的推荐系统中,往往存在大量的无标记用户(推荐系统真实存在的用户,不通过检测无法判读其是正常用户或恶意用户)和少量的标记用户(即人工判别出的恶意用户),由于标记数据很少,如果直接用基于特征分类器,则检测效果不佳。
技术实现思路
本专利技术的目的是解决现有的推荐系统恶意用户检测方法效果不佳的问题,通过基于正例和无标记(英文:PositiveandUnlabeled,缩写:PU)学习方法来检测多种恶意用户检测,其中P表示注入的恶意用户,而U表示无标记的推荐系统数据,并提出了一种新颖的反例用户(英文:Negative,即异于正例用户行为特征的用户)数据抽取方法;其次,本专利技术提出的混合学习方法在集成Beyesian模型的基础上,将在恶意用户行为特征的基础上将用户-商品关系集成到该传统机器学习算法中,以检测隐藏更深的恶意用户;最后在抽取可靠反例用户的基础上,基于半监督学习来检测恶意用户,更好的利用标记数据和无标记数据,并通过实验验证了其有效性。第一方面,本专利技术实施例提供了一种恶意用户检测方法,包括:将各恶意用户注入到推荐系统中,生成正例数据集合,所述正例数据集合中的每个正例数据包括一组行为特征,所述一组行为特征构成一组向量;对多组所述向量进行离散化处理;根据所述离散化处理的结果,从所述推荐系统中的无标记用户中获取可靠反例用户,生成反例数据集合;将所述正例数据集合和所述反例数据集合构成标记数据集,将所述无标记用户中获取反例用户后的剩余用户构成无标记数据集,根据所述标记数据集和所述无标记数据集,获取推荐系统中的恶意用户。优选地,所述恶意用户具体包括:随机注入、平均注入、流行随机注入、流行平均注入、混合随机流行注入、混合平均流行注入。优选地,所述一组行为特征具体包括:熵、与近邻的平均相似度、长度变化、用户评过分项目与其平均值之间的平均偏差、用户评最高分的项目集合与其他评分项目集合的偏差、用户模型评过分项目与其平均值之间的二阶矩、用户模型对目标项目的关注度、流行排序、所有用户的平均距离、分类熵。优选地,利用公式计算所述流行排序;其中,PopRank为流行排序,Ij为所有为商品j打过分的用户集合,Ri为用户ui所有评过分的商品集合,|R.j|为对项目Ij打过分的所有用户的个数,|Ri.|为用户ui所有打过分商品的个数。优选地,利用计算所述所有用户的平均距离;其中,DistAvg为与所有用户的平均距离,N为所有用户个数,PCCij为用户ui和用户uj的皮尔逊相关系数。优选地,利用计算所述分类熵;其中,CatEnt为分类熵,Sig为用户ui所评分商品中属于类别g的个数,1≤g≤G,G为商品类别总个数,S为用户ui所评商品的总个数。第二方面,本专利技术实施例提供了一种恶意用户检测装置,包括:所述装置包括:注入单元,处理单元,获取单元;所述注入单元,用于将各恶意用户注入到推荐系统中,生成正例数据集合,所述正例数据集合中的每个正例数据包括一组行为特征,所述一组行为特征构成一组向量;所述处理单元,用于对多组所述向量进行离散化处理;所述获取单元,用于根据所述离散化处理的结果,从所述推荐系统中的无标记用户中获取可靠反例用户,生成反例数据集合;所述获取单元还用于:将所述正例数据集合和所述反例数据集合构成标记数据集,将所述无标记用户中获取反例用户后的剩余用户构成无标记数据集,根据所述标记数据集和所述无标记数据集,获取推荐系统中的恶意本文档来自技高网
...

【技术保护点】
一种恶意用户检测方法,其特征在于,所述方法包括:将各恶意用户注入到推荐系统中,生成正例数据集合,所述正例数据集合中的每个正例数据包括一组行为特征,所述一组行为特征构成一组向量;对多组所述向量进行离散化处理;根据所述离散化处理的结果,从所述推荐系统中的无标记用户中获取可靠反例用户,生成反例数据集合;将所述正例数据集合和所述反例数据集合构成标记数据集,将所述无标记用户中获取反例用户后的剩余用户构成无标记数据集,根据所述标记数据集和所述无标记数据集,获取推荐系统中的恶意用户。

【技术特征摘要】
1.一种恶意用户检测方法,其特征在于,所述方法包括:
将各恶意用户注入到推荐系统中,生成正例数据集合,所述正例数据集
合中的每个正例数据包括一组行为特征,所述一组行为特征构成一组向量;
对多组所述向量进行离散化处理;
根据所述离散化处理的结果,从所述推荐系统中的无标记用户中获取可靠
反例用户,生成反例数据集合;
将所述正例数据集合和所述反例数据集合构成标记数据集,将所述无标记
用户中获取反例用户后的剩余用户构成无标记数据集,根据所述标记数据集
和所述无标记数据集,获取推荐系统中的恶意用户。
2.根据权利要求1所述的方法,其特征在于,所述恶意用户具体包括:
随机注入、平均注入、流行随机注入、流行平均注入、混合随机流行注入、
混合平均流行注入。
3.根据权利要求1所述的方法,其特征在于,所述一组行为特征具体包
括:熵、与近邻的平均相似度、长度变化、用户评过分项目与其平均值之间
的平均偏差、用户评最高分的项目集合与其他评分项目集合的偏差、用户模
型评过分项目与其平均值之间的二阶矩、用户模型对目标项目的关注度、流
行排序、所有用户的平均距离、分类熵。
4.根据权利要求2所述的方法,其特征在于,利用公式
PopRanki=ΣIj∈Ri|R·j||Ri·|]]>计算所述流行排序;
其中,PopRank为流行排序,Ij为所有为商品j打分的用户集合,Ri.
为用户ui所有评过分的商品集合,|R.j|为对项目Ij打过分的所有用户的个
数,|Ri.|为用户ui所有打过分商品的个数。
5.根据权利要求2所述的方法,其特征在于,利用计算所述所有用户的...

【专利技术属性】
技术研发人员:王有权曹杰潘迪陶海成朱桂祥
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1