基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法技术

技术编号:15391647 阅读:130 留言:0更新日期:2017-05-19 04:52
基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,利用网络爬虫自动获取微博或其它社交网络用户数据,同时还具有模拟登陆功能,从网络爬虫提取的数据中选取出特征字段,得到训练样本和测试样本,并采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,再利用测试样本对分类模型进行测试,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度,最后利用最佳分类模型对微博或其它社交网络用户进行检测,对虚假粉丝的检测精确度得到了极大地提高,而且运算量较小,处理速度快,数据在运算过程中不容易受干扰,特别适合于海量数据处理。

Web crawler and false fan detection method based on machine learning in social networking sites

The web crawler and the use of social networking sites false fans detection method based on machine learning, automatic acquisition of micro-blog or other social network user data using the web crawler, and has simulated landing function, select feature extraction from web crawler field data, get the training samples and testing samples, and the classical SVM algorithm classifier. Random extraction from training samples into several groups of data to make the classifier, classifier machine learning, form the training classification model, then using the test sample to test the classification model, to achieve the best cross validation accuracy through continuous adjustment of the classification model of the set parameters, the best classification model was used to detect the micro-blog or other social network users, the detection accuracy of false fans has been greatly improved, and the computation time is The processing speed is fast, and the data is not easy to be disturbed during the operation. It is especially suitable for mass data processing.

【技术实现步骤摘要】
基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
本专利技术涉及一种虚假粉丝检测方法,尤其涉及一种基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,属于数据处理

技术介绍
现在世界各地的人们依靠在线社交网络(OSN)分享知识、意见和经验,寻求信息和资源,拓展人脉关系,但在社交网站中,用户的行为并不一定都是真实的。由于现在使用在线社交网络的用户非常之多,社交网站在对普通用户提供价值的同时,也成为各种形式的被利用获利的平台。例如:社交网站上的大量用户信息是广告推广者和进行诈骗的人所希望获取的;一些希望扩大自己账户的社交参与度的人会利用机器人进行点赞或转发;在社交网站上拥有很高人气的人则希望通过大量的虚假账户来提升自己账户的被关注数量,进而显示自己在社交网站的人气。一些企业希望通过社交网站中用户的详细信息来提取对自己有价值的业务信息,人们希望用真实人的信息来引导自己的数据库。但是20%到40%之间的Facebook账户是伪造的,推特和LinkedIn也面临不同程度的假账户问题。不管创造假账号的特殊动机是什么,大量的假账户的存在,都会破坏该社交网络的价值。例如,如果用户开始怀疑个人资料信息的真实性,就会削弱网络的可信度。他们也可能会对网络广告收入产生负面影响,因为如果他们中的许多人都不是真正的人,广告主可能会质疑他们对一定数量的用户支付的价格。一般而言,任何参与活动的网络社交账户如果没有反应用户的真正兴趣,则可以被视为虚假的社交账户。由于社交网络粉丝数量在广告推广、娱乐节目等方面拥有巨大的经济价值,在利益驱动之下,当前社交网络系统中出现了大量的异常用户,俗称“僵尸粉”。异常用户的存在既有损社交网络价值,也违背诚信社会之原则,造成了恶劣的社会影响。僵尸粉是指一些长期没有动态、也没有活动记录,不参与任何社交活动,同一IP地址申请多个微博账号的用户,也称为虚假粉丝或死粉丝。一般都用在商业领域发挥他的用处的,有商家会向需要增加自己粉丝数量的用户出售这样的僵尸粉。这样看起来用户的粉丝很多,受到很多微博用户的关注,但其实都只是根本没有人管理的虚假账户,这种虚假粉丝从不对该用户发布的信息进行评论、转发,除了增加粉丝的数字没有任何实际意义。微博上的虚假粉丝,通过花钱就可以买到很多的微博用户的“关注”,通常是由系统自动产生的恶意注册用户,并不是由真是的人所使用的账户,因此实现僵尸粉的精确检测进而删除僵尸粉对微博具有重要意义。目前检测社交网站虚假粉丝的方法也有一些研究,但是现有已经被提出的检测方法大多依赖于在线社交活动中具有相似行为模式的用户组进行行为聚类的方法,现有的检测方法对于数据来源大多依赖社交网站的安全团队所提供的数据,或与其他组织合作得到数据来源。对数据规模的要求很大,可能需要太多的集群来产生有用的结果,同时需要很大的计算量,运算复杂,处理速度慢,尤其是一些聚类算法对孤立分布的点或记录错误的数据敏感,孤立分布的点或记录错误的数据很容易干扰运算过程,导致聚类效果不佳,另外,现在的聚类算法对于不同的输入数据的顺序会导致不同的结果,以上弊端都会导致对虚假粉丝的检测不准确,很容易出现遗漏的现象。因此,如何准确的大规模检测并分类筛选出虚假粉丝和异常账户已经成为一个亟待解决的技术难题。
技术实现思路
本专利技术的目的是针对现有取微博或其它社交网络存在大量的虚假粉丝,现有的检测识别方法准确度不佳,运算量很大,运算复杂,处理速度慢,而且对孤立分布的点或记录错误的数据敏感,数据在运算过程中很容易受干扰的缺陷和不足,现提供一种运算量较小,处理速度快,数据在运算过程中不容易受干扰,对虚假粉丝检测精确度高的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法。为实现上述目的,本专利技术的技术解决方案是:基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于包括以下步骤:a、首先利用爬虫框架构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫,并定义了相应的item字段用于保存所希望提取的结构性数据;b、然后网络爬虫自动获取微博或其它社交网络数据,提取所选定的特征值,网络爬虫从一个初始的URL开始,获取网页中所需要提取的数据,再提取新的URL进入下一轮爬取,直至满足停止要求;c、在提取的数据中选取出特征字段,得到训练样本和测试样本,并对训练样本进行人工标记;d、建立一个采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,完成训练后的分类模型能够对测试样本进行预测分类结果;e、再利用测试样本对分类模型进行测试,得到交叉验证精度,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度;f、最后利用最佳分类模型对微博或其它社交网络用户进行检测,在预测分类结果时输出分类结果,也就检测区分出了虚假粉丝和正常用户。所述d步骤中SVM算法如下:假设有N个训练样本{(x1,y1),(x2,y2),…,(xN,yN)},x是N维向量,而yi∈{-1,+1}是样本的标签,分别代表两个分类的类别,需要用这些被标记过的训练样本去训练一个分类器:f(x)=sgn(wTx+b)(3-1)其中w表示系数向量,x表示n维向量,y表示样本的标签,b表示偏置量;当wTx+b结果小于0的时候,分类器输出-1;当wTx+b结果大于0的时候,分类器输出+1,g(x)=wTx+b=0就是我们要寻找的分类超平面。所述b步骤中采用模拟登陆的方式,通过一个已知账户发送登录的cookie,从而用网络爬虫实现微博或其它社交网络账户的模拟登陆。所述c步骤中的特征字段为5个以上,特征字段包括微博数、关注数、粉丝数、微博ID、用户ID、微博内容、点赞数以及转载数。所述d步骤中分类模型为支持向量机模型。本专利技术的有益效果是:1.本专利技术构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫,能够抓取特定网页上的数据,同时还具有模拟登陆功能,还可以设置爬取深度,使得所获取的信息量能够控制在所需要的范围内。2.本专利技术从网络爬虫提取的数据中选取出特征字段,得到训练样本和测试样本,并采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,再利用测试样本对分类模型进行测试,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度。3、本专利技术不再依赖于社交网站的安全团队所提供的数据,能够直接获取微博或其它社交网络用户数据,并利用机器学习的方式训练形成分类模型,最后利用最佳分类模型对微博或其它社交网络用户进行检测,对虚假粉丝的检测精确度得到了极大地提高,即使对于一些伪装很高级的虚假账户,也能达到较高的检测识别精度,而且运算量较小,处理速度快,数据在运算过程中不容易受干扰,特别适合于海量数据处理。附图说明图1是本专利技术网络爬虫的工作流程图。图2是本专利技术SVM算法分类超平面示意图。图3是本专利技术SVM算法中支持向量与H1和H2的距离图示。图4是采用本专利技术网络爬虫运行截图。具体实施方式以下结合附图说明和具体实施方式对本专利技术作进一步的详细描述。参见图1至图4,本专利技术的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,包括以下步骤:a、首先利用爬虫框架构建一个可以自动获取微博或其它本文档来自技高网
...
基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法

【技术保护点】
基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于包括以下步骤:a、首先利用爬虫框架构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫,并定义了相应的item字段用于保存所希望提取的结构性数据;b、然后网络爬虫自动获取微博或其它社交网络数据,提取所选定的特征值,网络爬虫从一个初始的URL开始,获取网页中所需要提取的数据,再提取新的URL进入下一轮爬取,直至满足停止要求;c、在提取的数据中选取出特征字段,得到训练样本和测试样本,并对训练样本进行人工标记;d、建立一个采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,完成训练后的分类模型能够对测试样本进行预测分类结果;e、再利用测试样本对分类模型进行测试,得到交叉验证精度,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度;f、最后利用最佳分类模型对微博或其它社交网络用户进行检测,在预测分类结果时输出分类结果,也就检测区分出了虚假粉丝和正常用户。

【技术特征摘要】
1.基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于包括以下步骤:a、首先利用爬虫框架构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫,并定义了相应的item字段用于保存所希望提取的结构性数据;b、然后网络爬虫自动获取微博或其它社交网络数据,提取所选定的特征值,网络爬虫从一个初始的URL开始,获取网页中所需要提取的数据,再提取新的URL进入下一轮爬取,直至满足停止要求;c、在提取的数据中选取出特征字段,得到训练样本和测试样本,并对训练样本进行人工标记;d、建立一个采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,完成训练后的分类模型能够对测试样本进行预测分类结果;e、再利用测试样本对分类模型进行测试,得到交叉验证精度,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度;f、最后利用最佳分类模型对微博或其它社交网络用户进行检测,在预测分类结果时输出分类结果,也就检测区分出了虚假粉丝和正常用户。2.根据权利要求1所述的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于:所述d步骤中SVM...

【专利技术属性】
技术研发人员:王一博袁巍李佳桓李珩
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1