一种基于文本特征和行为特征的微博Spammer识别方法技术

技术编号:15077884 阅读:84 留言:0更新日期:2017-04-07 10:57
本发明专利技术公开了一种基于用户文本特征和行为特征的微博Spammer识别方法,属于计算机社交网络数据分析技术领域。该方法包括:(1)用户信息元数据获取,通过爬虫工具selenium获得相应的用户链接,在用户页面解析获取用户信息元数据;(2)多视图特征抽取,抽取文本特征与行为特征;(3)基于多视图分类的Spammer检测,在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在未带标签的数据集合上进行标注,得到Spammer识别结果。本发明专利技术能够基于多视图分类识别Spammer,解决现有技术不能全面考虑Spammer特征和依赖大量带标签数据的技术缺陷,为后续的社交网络挖掘提供良好的数据集。

A micro-blog Spammer recognition method based on text features and behavior features

The invention discloses a micro-blog Spammer identification method based on user's text characteristics and behavior characteristics, which belongs to the technical field of the data analysis of the computer social network. The method comprises the following steps: (1) the user information metadata access, to obtain the corresponding user link through the crawler tool selenium to obtain user information metadata in the user page parsing; (2) multi view feature extraction, text feature and behavior feature extraction; (3) multi view classification Spammer detection based on an example set according to the view features were synchronous training two classifier in the labeled data, and marked with labels in the data set using the trained classifier, the recognition results obtained Spammer. The invention is capable of multi view classification based on Spammer, to solve the existing technology can not fully consider the characteristics of Spammer and rely on the technical defects of plenty of labeled data mining, for the subsequent social network provides a good data set.

【技术实现步骤摘要】

本专利技术属于计算机社交网络数据分析
,具体涉及一种基于文本特征和行为特征的微博Spammer识别方法
技术介绍
随着互联网的发展和普及,Twitter、Facebook、新浪微博等这类通过关注机制分享简短实时信息的广播式的社交网络平台,已经拥有大量注册及参与用户,成为人们社交生活的一个重要参与平台。在线社交网络已经成为人们交友、获取和发布信息的一个重要途径。微博独具的信息多样化、表达自由化、裂变式传播速度等特性,同时也使其成为spammer活跃的主要平台。在中国影响力最大的社交网络站点新浪微博中,含有大量Spammer用户,这些用户利用微博传播商业广告信息,推销传播自己的思想或恶意窃取他人账户隐私等,向正常用户传递垃圾信息,阻碍了真正有效信息的传播,造成人们无法从大量信息中迅速而准确地找到有用的信息。Spammer的发帖行为和内容往往都带有某种目的,如有些Spammer出于商业利益重复发帖,这些原因使得Spammer与正常用户在文本和行为特征上存在区别。因而,我们需要通过抽取这些特征来进行Spammer的检测。现有技术中,公开了一种识别微博异常用户的方法和系统[专利号:CN201310076056.0];在该专利中,系统充分利用了用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征,生成行为时间特征向量和界定参数,将超出界定参数的待测用户判定为异常用户并对异常用户的内容进行关键词抽取和展示。该专利技术专利的方法主要解决了异常用户的判定方法,需要大量带标签数据且依赖用户行为数据的完整性,但是,其仍然无法识别与正常用户行为相似的Spammer,如有些Spammer发帖时间与正常用户一致,但其微博内容都是推销商品的,这类用户就无法通过该方法进行识别。
技术实现思路
本专利技术的目的在于提供一种基于文本特征和行为特征的微博Spammer识别方法,该方法能够基于多视图分类识别Spammer,为后续的社交网络挖掘提供良好的数据集。本专利技术是通过以下技术方案来实现:本专利技术公开了一种基于文本特征和行为特征的微博Spammer识别方法,包括以下步骤:1)用户信息元数据获取,通过爬虫工具selenium获得相应的用户链接,在用户页面解析获取用户信息元数据;2)多视图特征抽取,抽取文本特征和行为特征;3)基于多视图分类的Spammer检测,在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在未带标签的数据集合上进行标注,得到Spammer识别结果。本专利技术公开的基于文本特征和行为特征的微博Spammer识别方法方法,具体包括以下步骤:1)获取用户信息元数据在微博页面,通过爬虫工具获取所得帖子的链接并进行保存,从保存的帖子链接中逐一提取链接获得相应的用户链接,在用户页面解析获取用户信息元数据;2)多视图特征抽取抽取文本特征和行为特征;其中,文本特征抽取包括:用户发帖中的帖子相似度fsim、帖子为转发帖的比例fre、帖子中包含话题标签的比例ftag和帖子中包含URL的比例furl;行为特征抽取包括:用户等级fclass、关注数/粉丝数ffof、帖子中包含@的比例fat和午夜发帖比例fmidn;3)基于多视图分类的Spammer检测首先,将每个用户表示为(x,y),其中x为属性集,y是该实例所代表的类型;然后,定义实例空间X=X1∪X2,其中X1和X2对应于观察实例的文本特征集和行为特征集,针对文本特征集x1采用SVM作为分类器h1,针对行为特征集x2,采用C4.5作为分类器h2;再次,令带标签的数据构成实例集合L,令未带标签的数据构成实例集合U;在L上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在U上进行标注;最后,将U中一致性高的实例加入L并从U中删除,重复此过程直至U为空,得到Spammer识别结果。步骤1)所述的获取用户信息元数据的具体操作为:第一步,通过爬虫工具selenium启动IE9浏览器,进入微博页面;第二步,通过selenium的变量current_url获取所得帖子的链接urlp并保存;第三步,从保存的帖子链接中逐一提取链接获得相应的用户链接,在用户页面中用Beautifulsoup解析出用户信息字段,包括用户id、用户名、关注数、粉丝数和每个帖子的帖子id、帖子内容、发帖时间、评论数、转发数,并存储在数据库的相应表中;第四步,通过发帖人user_id,得到粉丝链接和关注列表链接,爬取该用户的关注和粉丝用户相应数据并存储在数据库的相应表中。第四步中,该用户的关注和粉丝用户相应数据包括用户信息、用户所发帖子信息。步骤2)中,文本特征的抽取具体操作为:用户发帖中的帖子相似度fsim:采用字符串匹配来统计该用户发帖中每种帖子重复的次数ri,计算公式如下所示:fsim=max(r1,r2,...);帖子为转发帖的比例fre:统计该用户所发的所有帖子中为转发帖的比例,计算公式如下所示,其中Nre表示转发帖子的总数,N表示该用户的总发贴数:fre=NreN;]]>帖子中包含话题标签的比例ftag:统计该用户所发的所有帖子中包含话题标签“##”帖子的比例,计算公式如下所示,其中Ntag表示包含话题标签的帖子的总数:ftag=NtagN;]]>帖子中包含URL的比例furl:统计该用户所发的所有帖子中包含URL帖子的比例,计算公式如下所示,其中Nurl表示包含URL的帖子的总数:furl=NurlN.]]>步骤2)中,行为特征的抽取具体操作为:用户等级fclass:直接从用户元数据中获取;关注数/粉丝数ffof:直接从用户元数据中获取该用户的关注数Nfollowee、粉丝数Nfollower,计算公式如下所示:ffof=NfolloweeNfollower;]]>帖子中包含@的比例fat:统计用户所发的所有帖子中为包含“@”的帖子的比例,计算公式如下所示,其中Nat表示包含“@”的帖子的总数:fat=NatN;]]>午夜发帖比例fmidn:统计用户在午夜,24:00~6:00时间段内发帖数占总发帖数的比例,计算公式如下所示,其中Nmidn表示午夜发帖总数:fmidn=NmidnN.]]>步骤3)所述基于多视图分类的Spammer检测的具体操作如下:第一步,将每个用户表示为(x,y),其中x为属性集,y是该实例所代表的类型;输出是一个函数h:X×Y→[0,1],h(x,y)是一个条件概率p(x|y)的估计值;定义实例空间X=X1∪X2,X1和X2对应于观察实例的两个不同“视图”,即文本特征和行为特征;f代表在所有实例上的组合目标概念,对于任何观测到标记为1的实例,都有f(X)=f(X1)=f(X2)=1;设n个实例中前m个有标签yi,而i=m+1…n的实例未带标签;找出函数f,满足f(x1i,x2i)=yi,满足:当i=1…m时,f1(x1,i)=f2(x2,i)=yi;当i=m+1…n时,f1(x1,i)=f2(x2,i);令带标签的数据构成实例集合L,未带标签的数据构成实例集合U;第二步,从U中随机选择u个实例构成集合U’;第三步,使用L训练只考虑x的x1部分的分类器h1;使用L训练只考虑x的x2部分的本文档来自技高网
...

【技术保护点】
一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,包括以下步骤:1)用户信息元数据获取,通过爬虫工具selenium获得相应的用户链接,在用户页面解析获取用户信息元数据;2)多视图特征抽取,抽取文本特征和行为特征;3)基于多视图分类的Spammer检测,在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在未带标签的数据集合上进行标注,得到Spammer识别结果。

【技术特征摘要】
1.一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,包括以下步骤:1)用户信息元数据获取,通过爬虫工具selenium获得相应的用户链接,在用户页面解析获取用户信息元数据;2)多视图特征抽取,抽取文本特征和行为特征;3)基于多视图分类的Spammer检测,在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在未带标签的数据集合上进行标注,得到Spammer识别结果。2.根据权利要求1所述的基于文本特征和行为特征的微博Spammer识别方法,其特征在于,包括以下步骤:1)获取用户信息元数据在微博页面,通过爬虫工具获取所得帖子的链接并进行保存,从保存的帖子链接中逐一提取链接获得相应的用户链接,在用户页面解析获取用户信息元数据;2)多视图特征抽取抽取文本特征和行为特征;其中,文本特征抽取包括:用户发帖中的帖子相似度fsim、帖子为转发帖的比例fre、帖子中包含话题标签的比例ftag和帖子中包含URL的比例furl;行为特征抽取包括:用户等级fclass、关注数/粉丝数ffof、帖子中包含@的比例fat和午夜发帖比例fmidn;3)基于多视图分类的Spammer检测首先,将每个用户表示为(x,y),其中x为属性集,y是该实例所代表的类型;然后,定义实例空间X=X1∪X2,其中X1和X2对应于观察实例的文本特征集和行为特征集,针对文本特征集x1采用SVM作为分类器h1,针对行为特
\t征集x2,采用C4.5作为分类器h2;再次,令带标签的数据构成实例集合L,令未带标签的数据构成实例集合U;在L上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在U上进行标注;最后,将U中一致性高的实例加入L并从U中删除,重复此过程直至U为空,得到Spammer识别结果。3.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,步骤1)所述的获取用户信息元数据的具体操作为:第一步,通过爬虫工具selenium启动IE9浏览器,进入微博页面;第二步,通过selenium的变量current_url获取所得帖子的链接urlp并保存;第三步,从保存的帖子链接中逐一提取链接获得相应的用户链接,在用户页面中用Beautifulsoup解析出用户信息字段,包括用户id、用户名、关注数、粉丝数和每个帖子的帖子id、帖子内容、发帖时间、评论数、转发数,并存储在数据库的相应表中;第四步,通过发帖人user_id,得到粉丝链接和关注列表链接,爬取该用户的关注和粉丝用户相应数据并存储在数据库的相应表中。4.根据权利要求3所述的一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,第四步中,该用户的关注和粉丝用户相应数据包括用户信息、用户所发帖子信息。5.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,步骤2)中,文本特征的抽取具体操作为:用户发帖中的帖子相似度fsim:采用字符串匹配来统计该用户发帖中每种帖子重复的次数...

【专利技术属性】
技术研发人员:刘均占梦婷陈浩米建红吕彦章
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1