一种基于用户的关注关系的垃圾用户发现方法,其包括:获取用户以及用户之间的关注关系;对于任一第一用户,基于所述关注关系来统计所述第一用户的局部三角形的数量,其中,所述局部三角形中的任意一个由所述第一用户与另外两个用户构成,并且其中,所述第一用户关注所述另外两个用户中的每一个,且在所述另外两个用户之间也存在关注关系;根据所述第一用户的局部三角形的数量来计算所述第一用户的局部三角形比例;以及至少部分地基于所述第一用户的局部三角形比例来判断所述第一用户是否是垃圾用户。
【技术实现步骤摘要】
基于用户的关注关系的垃圾用户发现方法
本专利技术涉及web挖掘领域,尤其涉及基于用户的关注关系的垃圾用户或垃圾账户发现方法。
技术介绍
类Twitter的微博服务最近作为一个新的通信媒介得到迅速发展,据第29次中国互联网报告统计:截至2011年12月底,我国微博实际用户数达到2.5亿,较上一年底增长了296.0%,网民使用率为48.7%。区别于其他类Facebook的社交网络服务,微博服务的社会网络关系为单向的,用户不需要其他用户对其赋予权限就可以“关注”他们。例如,Twitter中社会网络由关注关系形成,用户关注的人称为该用户的好友或关注好友;关注某用户的人称为该用户的粉丝,用户发布的所有博文将出现在公共时间线上,该用户所有粉丝的时间线上将显示该用户的所有消息。随着微博服务的普及,存在大量以刺探隐私情报、商业推销、推高用户人气等为目的的人工垃圾用户。这些大量的垃圾用户使得微博服务提供商的账户资源受到了冲击,加大了管理账户的难度,提高了账户资源开发和管理成本。例如,大量的垃圾用户使得微博服务提供商不得不花费更多的硬件资源或人力成本来进行账户管理。同时,这些垃圾用户的大量存在也对正常用户的使用带来了干扰。因此,一直以来,人们期望能够发现微博中的垃圾用户以便对其进行合适的处理。传统的微博中垃圾用户发现方法主要基于用户的显式统计特征来进行判断,比如发帖规律、关注的好友数量与其粉丝数量比例、博文中提及(@userScreenName)其他用户比例等。这些方法例如:在参考文献1“ChuZ,GianvecchioS,WangH,etal.WhoistweetingonTwitter:human,bot,orcyborg?[C].Procofthe26thAnnualComputerSecurityApplicationsConference.ACM,2010:21-30.”中依靠Twitter中用户发布博文的显式统计特性区分垃圾机器人、类人机器人和正常用户,利用发帖规律、关注的好友数量与其粉丝数量比例、博文中提及(@userScreenName)其他用户比例等识别垃圾用户。在参考文献2“McCordM,ChuahM.SpamDetectiononTwitterUsingTraditionalClassifiers[C].Procofthe8thInternationalConferenceonAutonomicandTrustedComputing.NJ:IEEE,2011:175-186.”中,利用用户特征与博文特征设计分类器区分正常用户与垃圾用户,分类器采用贝叶斯分类方法。在参考文献3“StringhiniG,KruegelC,VignaG.Detectingspammersonsocialnetworks[C].Procofthe26thAnnualComputerSecurityApplicationsConference.ACM,2010:1-9.”中分析了垃圾用户的发帖行为,依靠显式统计特性识别垃圾用户和大规模垃圾用户整体活动。在参考文献4“Thomas,K,Grier,C,Paxson,V,etal.SuspendedAccountsinRetrospect:AnAnalysisofTwitterSpam[C].Procofthe2011ACMSIGCOMMconferenceonInternetmeasurementconference.NewYork:ACM,2011:243-258.”中利用Twitter中暂停的账号分析垃圾用户特性。本文将使用上述传统方法基于用户的显式统计特征所发现的垃圾用户称为显式垃圾用户。上述传统方法确实能够在一定程度上发现垃圾用户,但是由于其算法较为粗糙(例如,仅考虑一些显式统计特征),因此并不能提供概率上的高可靠性,例如,其可能遗漏大量垃圾用户,或者,其可能将大量正常用户误判为垃圾用户。特别是,随着上述这些传统垃圾用户发现方法的使用,一些恶意制造垃圾用户的人也相应地采取了对策,使得垃圾用户在显式统计特征方面更加类似于正常用户,例如,使得垃圾用户同样具有大量好友和粉丝,这导致了垃圾用户特征的更加复杂化,也更加难于准确地区分垃圾用户和正常用户。在本文中可以将此类在显式统计特征方面比较类似于正常用户的垃圾用户称为隐式垃圾用户。因此,为了弥补传统的垃圾用户发现方法的不足,需要提供一种可以更准确地发现微博中的垃圾用户(特别是隐式垃圾用户)的方法,以便使得微博服务提供商能够对这些垃圾用户进行相应的处理,从而节省微博服务提供商用于账户管理的硬件资源或人力成本,同时,也避免这些垃圾用户对正常用户的干扰。
技术实现思路
本专利技术的一个方面涉及一种基于用户的关注关系的垃圾用户发现方法,其包括:获取用户以及用户之间的关注关系;对于任一第一用户,基于所述关注关系来统计所述第一用户的局部三角形的数量,其中,所述局部三角形中的任意一个由所述第一用户与另外两个用户构成,并且其中,所述第一用户关注所述另外两个用户中的每一个,且在所述另外两个用户之间也存在关注关系;根据所述第一用户的局部三角形的数量来计算所述第一用户的局部三角形比例;以及至少部分地基于所述第一用户的局部三角形比例来判断所述第一用户是否是垃圾用户。优选地,所述根据所述第一用户的局部三角形的数量来计算所述第一用户的局部三角形比例包括:根据所述第一用户的局部三角形的数量以及在所述第一用户与其所关注的其他用户之间能够形成的所述第一用户的局部三角形的最大数量来计算所述第一用户的局部三角形比例;或者,根据所述第一用户的局部三角形的数量以及所述第一用户关注的其他用户的数量来计算所述第一用户的局部三角形比例。优选地,所述至少部分地基于所述第一用户的局部三角形比例来判断所述第一用户是否是垃圾用户包括:如果所述第一用户的局部三角形比例低于预定阈值,则判断所述第一用户是垃圾用户。优选地,判断所述第一用户是否是垃圾用户进一步基于用户之间的信任正向传播过程和/或信任逆向传播过程。优选地,所述信任正向传播过程包括:确定正常用户种子节点;确定所述正常用户种子节点所直接关注或间接关注的所有节点,其中,所述正常用户种子节点所直接关注或间接关注的节点具有更高的概率是正常用户;所述信任逆向传播过程包括:确定垃圾用户种子节点;确定直接关注或间接关注所述垃圾用户种子节点的所有节点,其中,直接关注或间接关注所述垃圾用户种子节点的节点具有更高的概率是垃圾用户。本专利技术的另一个方面涉及一种基于用户的关注关系的垃圾用户发现设备,其包括:用于获取用户以及用户之间的关注关系的装置;用于对于任一第一用户,基于所述关注关系来统计所述第一用户的局部三角形的数量的装置,其中,所述局部三角形中的任意一个由所述第一用户与另外两个用户构成,并且其中,所述第一用户关注所述另外两个用户中的每一个,且在所述另外两个用户之间也存在关注关系;用于根据所述第一用户的局部三角形的数量来计算所述第一用户的局部三角形比例的装置;以及用于至少部分地基于所述第一用户的局部三角形比例来判断所述第一用户是否是垃圾用户的装置。优选地,所述用于根据所述第一用户的局部三角形的数量来计算所述第一用户的局部三角形比例的本文档来自技高网...
【技术保护点】
一种基于用户的关注关系的垃圾用户发现方法,其包括:获取用户以及用户之间的关注关系;对于任一第一用户,基于所述关注关系来统计所述第一用户的局部三角形的数量,其中,所述局部三角形中的任意一个由所述第一用户与另外两个用户构成,并且其中,所述第一用户关注所述另外两个用户中的每一个,且在所述另外两个用户之间也存在关注关系;根据所述第一用户的局部三角形的数量来计算所述第一用户的局部三角形比例;以及至少部分地基于所述第一用户的局部三角形比例来判断所述第一用户是否是垃圾用户。
【技术特征摘要】
2012.11.02 CN 201210433441.11.一种基于用户的关注关系的垃圾用户发现方法,其包括:获取用户以及用户之间的关注关系;对于任一第一用户,基于所述关注关系来统计所述第一用户的局部三角形的数量,其中,所述局部三角形中的任意一个由所述第一用户与另外两个用户构成,并且其中,所述第一用户关注所述另外两个用户中的每一个,且在所述另外两个用户之间也存在关注关系;根据所述第一用户的局部三角形的数量来计算所述第一用户的局部三角形比例;以及至少部分地基于所述第一用户的局部三角形比例来判断所述第一用户是否是垃圾用户,其中,判断所述第一用户是否是垃圾用户进一步基于用户之间的信任正向传播过程和信任逆向传播过程,所述信任正向传播过程包括:确定正常用户种子节点;确定所述正常用户种子节点所直接关注或间接关注的所有节点,其中,所述正常用户种子节点所直接关注或间接关注的节点比所述正常用户种子节点未直接关注或间接关注的节点具有更高的概率是正常用户;所述信任逆向传播过程包括:确定垃圾用户种子节点;确定直接关注或间接关注所述垃圾用户种子节点的所有节点,其中,直接关注或间接关注所述垃圾用户种子节点的节点比未直接关注或间接关注所述垃圾用户种子节点的节点具有更高的概率是垃圾用户。2.根据权利要求1所述的方法,其中,所述根据所述第一用户的局部三角形的数量来计算所述第一用户的局部三角形比例包括:根据所述第一用户的局部三角形的数量以及在所述第一用户与其所关注的其他用户之间能够形成的所述第一用户的局部三角形的最大数量来计算所述第一用户的局部三角形比例;或者根据所述第一用户的局部三角形的数量以及所述第一用户关注的其他用户的数量来计算所述第一用户的局部三角形比例。3.根据权利要求1所述的方法,其中,所述至少部分地基于所述第一用户的局部三角形比例来判断所述第一用户是否是垃圾用户包括:如果所述第一用户的局部三角形比例低于预定阈值,则判断所述第一用户...
【专利技术属性】
技术研发人员:丁兆云,贾焰,杨树强,周斌,韩伟红,李爱平,韩毅,李莎莎,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。