基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法技术

技术编号：15391647 阅读：142 留言：0更新日期：2017-05-19 04:52

基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法，利用网络爬虫自动获取微博或其它社交网络用户数据，同时还具有模拟登陆功能，从网络爬虫提取的数据中选取出特征字段，得到训练样本和测试样本，并采用经典的SVM算法的分类器，随机从训练样本中抽取多组数据导入到分类器中，让分类器进行机器学习，形成训练分类模型，再利用测试样本对分类模型进行测试，通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度，最后利用最佳分类模型对微博或其它社交网络用户进行检测，对虚假粉丝的检测精确度得到了极大地提高，而且运算量较小，处理速度快，数据在运算过程中不容易受干扰，特别适合于海量数据处理。

Web crawler and false fan detection method based on machine learning in social networking sites

The web crawler and the use of social networking sites false fans detection method based on machine learning, automatic acquisition of micro-blog or other social network user data using the web crawler, and has simulated landing function, select feature extraction from web crawler field data, get the training samples and testing samples, and the classical SVM algorithm classifier. Random extraction from training samples into several groups of data to make the classifier, classifier machine learning, form the training classification model, then using the test sample to test the classification model, to achieve the best cross validation accuracy through continuous adjustment of the classification model of the set parameters, the best classification model was used to detect the micro-blog or other social network users, the detection accuracy of false fans has been greatly improved, and the computation time is The processing speed is fast, and the data is not easy to be disturbed during the operation. It is especially suitable for mass data processing.

全部详细技术资料下载

【技术实现步骤摘要】
基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
本专利技术涉及一种虚假粉丝检测方法，尤其涉及一种基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法，属于数据处理

技术介绍
现在世界各地的人们依靠在线社交网络(OSN)分享知识、意见和经验，寻求信息和资源，拓展人脉关系，但在社交网站中，用户的行为并不一定都是真实的。由于现在使用在线社交网络的用户非常之多，社交网站在对普通用户提供价值的同时，也成为各种形式的被利用获利的平台。例如：社交网站上的大量用户信息是广告推广者和进行诈骗的人所希望获取的；一些希望扩大自己账户的社交参与度的人会利用机器人进行点赞或转发；在社交网站上拥有很高人气的人则希望通过大量的虚假账户来提升自己账户的被关注数量，进而显示自己在社交网站的人气。一些企业希望通过社交网站中用户的详细信息来提取对自己有价值的业务信息，人们希望用真实人的信息来引导自己的数据库。但是20％到40％之间的Facebook账户是伪造的，推特和LinkedIn也面临不同程度的假账户问题。不管创造假账号的特殊动机是什么，大量的假账户的存在，都会破坏该社交网络的价值。例如，如果用户开始怀疑个人资料信息的真实性，就会削弱网络的可信度。他们也可能会对网络广告收入产生负面影响，因为如果他们中的许多人都不是真正的人，广告主可能会质疑他们对一定数量的用户支付的价格。一般而言，任何参与活动的网络社交账户如果没有反应用户的真正兴趣，则可以被视为虚假的社交账户。由于社交网络粉丝数量在广告推广、娱乐节目等方面拥有巨大的经济价值，在利益驱动之下，当前社交网络系统中出现了大量的异...
基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法

【技术保护点】
基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法，其特征在于包括以下步骤：a、首先利用爬虫框架构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫，并定义了相应的item字段用于保存所希望提取的结构性数据；b、然后网络爬虫自动获取微博或其它社交网络数据，提取所选定的特征值，网络爬虫从一个初始的URL开始，获取网页中所需要提取的数据，再提取新的URL进入下一轮爬取，直至满足停止要求；c、在提取的数据中选取出特征字段，得到训练样本和测试样本，并对训练样本进行人工标记；d、建立一个采用经典的SVM算法的分类器，随机从训练样本中抽取多组数据导入到分类器中，让分类器进行机器学习，形成训练分类模型，完成训练后的分类模型能够对测试样本进行预测分类结果；e、再利用测试样本对分类模型进行测试，得到交叉验证精度，通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度；f、最后利用最佳分类模型对微博或其它社交网络用户进行检测，在预测分类结果时输出分类结果，也就检测区分出了虚假粉丝和正常用户。

【技术特征摘要】
1.基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法，其特征在于包括以下步骤：a、首先利用爬虫框架构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫，并定义了相应的item字段用于保存所希望提取的结构性数据；b、然后网络爬虫自动获取微博或其它社交网络数据，提取所选定的特征值，网络爬虫从一个初始的URL开始，获取网页中所需要提取的数据，再提取新的URL进入下一轮爬取，直至满足停止要求；c、在提取的数据中选取出特征字段，得到训练样本和测试样本，并对训练样本进行人工标记；d、建立一个采用经典的SVM算法的分类器，随机从训练样本中抽取多组数据导入到分类器中，让分类器进行机器学习，形成训练分类模型，完成训练后的分类模型能够对测试样本进行预测分类结果；e、再利用测试样本对分类模型进行测试，得到交叉验证精度，通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度；f、最后利用最佳分类模型对微博或其它社交网络用户进行检测，在预测分类结果时输出分类结果，也就检测区分出了虚假粉丝和正常用户。2.根据权利要求1所述的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法，其特征在于：所述d步骤中SVM...

【专利技术属性】
技术研发人员：王一博，袁巍，李佳桓，李珩，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人