一种基于文本特征和行为特征的微博Spammer识别方法技术

技术编号：15077884 阅读：90 留言：0更新日期：2017-04-07 10:57

本发明专利技术公开了一种基于用户文本特征和行为特征的微博Spammer识别方法，属于计算机社交网络数据分析技术领域。该方法包括：(1)用户信息元数据获取，通过爬虫工具selenium获得相应的用户链接，在用户页面解析获取用户信息元数据；(2)多视图特征抽取，抽取文本特征与行为特征；(3)基于多视图分类的Spammer检测，在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器，并使用训练所得分类器在未带标签的数据集合上进行标注，得到Spammer识别结果。本发明专利技术能够基于多视图分类识别Spammer，解决现有技术不能全面考虑Spammer特征和依赖大量带标签数据的技术缺陷，为后续的社交网络挖掘提供良好的数据集。

A micro-blog Spammer recognition method based on text features and behavior features

The invention discloses a micro-blog Spammer identification method based on user's text characteristics and behavior characteristics, which belongs to the technical field of the data analysis of the computer social network. The method comprises the following steps: (1) the user information metadata access, to obtain the corresponding user link through the crawler tool selenium to obtain user information metadata in the user page parsing; (2) multi view feature extraction, text feature and behavior feature extraction; (3) multi view classification Spammer detection based on an example set according to the view features were synchronous training two classifier in the labeled data, and marked with labels in the data set using the trained classifier, the recognition results obtained Spammer. The invention is capable of multi view classification based on Spammer, to solve the existing technology can not fully consider the characteristics of Spammer and rely on the technical defects of plenty of labeled data mining, for the subsequent social network provides a good data set.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机社交网络数据分析
，具体涉及一种基于文本特征和行为特征的微博Spammer识别方法。
技术介绍
随着互联网的发展和普及，Twitter、Facebook、新浪微博等这类通过关注机制分享简短实时信息的广播式的社交网络平台，已经拥有大量注册及参与用户，成为人们社交生活的一个重要参与平台。在线社交网络已经成为人们交友、获取和发布信息的一个重要途径。微博独具的信息多样化、表达自由化、裂变式传播速度等特性，同时也使其成为spammer活跃的主要平台。在中国影响力最大的社交网络站点新浪微博中，含有大量Spammer用户，这些用户利用微博传播商业广告信息，推销传播自己的思想或恶意窃取他人账户隐私等，向正常用户传递垃圾信息，阻碍了真正有效信息的传播，造成人们无法从大量信息中迅速而准确地找到有用的信息。Spammer的发帖行为和内容往往都带有某种目的，如有些Spammer出于商业利益重复发帖，这些原因使得Spammer与正常用户在文本和行为特征上存在区别。因而，我们需要通过抽取这些特征来进行Spammer的检测。现有技术中，公开了一种识别微博异常用户的方法和系统[专利号:CN201310076056.0]；在该专利中，系统充分利用了用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征，生成行为时间特征向量和界定参数，将超出界定参数的待测用户判定为异常用户并对异常用户的内容进行关键词抽取和展示。该专利技术专利的方法主要解决了异常用户的判定方法，需要大量带标签数据且依赖用户行为数据的完整性，但是，其仍然无法识别与正常用户行为相似的Spa...

【技术保护点】
一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，包括以下步骤：1)用户信息元数据获取，通过爬虫工具selenium获得相应的用户链接，在用户页面解析获取用户信息元数据；2)多视图特征抽取，抽取文本特征和行为特征；3)基于多视图分类的Spammer检测，在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器，并使用训练所得分类器在未带标签的数据集合上进行标注，得到Spammer识别结果。

【技术特征摘要】
1.一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，包括以下步骤：1)用户信息元数据获取，通过爬虫工具selenium获得相应的用户链接，在用户页面解析获取用户信息元数据；2)多视图特征抽取，抽取文本特征和行为特征；3)基于多视图分类的Spammer检测，在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器，并使用训练所得分类器在未带标签的数据集合上进行标注，得到Spammer识别结果。2.根据权利要求1所述的基于文本特征和行为特征的微博Spammer识别方法，其特征在于，包括以下步骤：1)获取用户信息元数据在微博页面，通过爬虫工具获取所得帖子的链接并进行保存，从保存的帖子链接中逐一提取链接获得相应的用户链接，在用户页面解析获取用户信息元数据；2)多视图特征抽取抽取文本特征和行为特征；其中，文本特征抽取包括：用户发帖中的帖子相似度fsim、帖子为转发帖的比例fre、帖子中包含话题标签的比例ftag和帖子中包含URL的比例furl；行为特征抽取包括：用户等级fclass、关注数/粉丝数ffof、帖子中包含@的比例fat和午夜发帖比例fmidn；3)基于多视图分类的Spammer检测首先，将每个用户表示为(x,y)，其中x为属性集，y是该实例所代表的类型；然后，定义实例空间X＝X1∪X2，其中X1和X2对应于观察实例的文本特征集和行为特征集，针对文本特征集x1采用SVM作为分类器h1，针对行为特
\t征集x2，采用C4.5作为分类器h2；再次，令带标签的数据构成实例集合L，令未带标签的数据构成实例集合U；在L上根据多视图特征分别同步训练两个分类器，并使用训练所得分类器在U上进行标注；最后，将U中一致性高的实例加入L并从U中删除，重复此过程直至U为空，得到Spammer识别结果。3.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，步骤1)所述的获取用户信息元数据的具体操作为：第一步，通过爬虫工具selenium启动IE9浏览器，进入微博页面；第二步，通过selenium的变量current_url获取所得帖子的链接urlp并保存；第三步，从保存的帖子链接中逐一提取链接获得相应的用户链接，在用户页面中用Beautifulsoup解析出用户信息字段，包括用户id、用户名、关注数、粉丝数和每个帖子的帖子id、帖子内容、发帖时间、评论数、转发数，并存储在数据库的相应表中；第四步，通过发帖人user_id，得到粉丝链接和关注列表链接，爬取该用户的关注和粉丝用户相应数据并存储在数据库的相应表中。4.根据权利要求3所述的一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，第四步中，该用户的关注和粉丝用户相应数据包括用户信息、用户所发帖子信息。5.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，步骤2)中，文本特征的抽取具体操作为：用户发帖中的帖子相似度fsim：采用字符串匹配来统计该用户发帖中每种帖子重复的次数...

【专利技术属性】
技术研发人员：刘均，占梦婷，陈浩，米建红，吕彦章，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人