The invention discloses an anomaly detection system and detection method based on Streaming Spark ad clicks, relates to the application field of computer technology, the log collected in the user clicks on the website advertising, the real-time collected data cleaning, data standardization field format, then the standard data transmitted by Flume to the Kafka data message system Spark Streaming to classify the data through the KNN neighbor algorithm, can get three kinds of abnormal data, data, data of suspected normal data. For the abnormal data and normal data stored in the database, the suspect to send data to Kafka data message system, and then through the abnormal data Naive Bayesian training classifier, using the classifier can get classification of suspected data, data stored in the database. Finally, through the normal amount of data reasonably collect advertisers costs, while you can analyze the popularity of each ad, to advertisers to provide industry development direction, to provide users nationwide distribution and other information.
【技术实现步骤摘要】
基于SparkStreaming的广告点击异常检测系统及检测方法
本专利技术涉及计算机技术应用领域,具体是基于SparkStreaming广告点击异常检测系统及检测方法。
技术介绍
随着数据爆发式的增长,大数据的时代已来临,安全、快速、实时、高效的数据处理,不仅能够让企业提前规避风险,而且能够及时提供数据信息为企业发展,产品生产和开发提供真实有效的依据。然而,由于网络具有开放性,在方便大众的同时也带来了信息不真实、恶意访问、恶意攻击等。这是各个开放网站都面临的问题,怎样防止这些问题,怎样提取真实有效数据,减轻服务器恶意荷载是各个开放性网站的研究重点。其中投放广告的恶意点击就是一种典型问题,及时掌握异常数据阻止恶意点击,获得有效的广告点击数据,对开放性网站的合理收费提供依据,能够有效改善服务器负载,为投放广告商户提供合理的商业规划和业务指导具有重要意义。当下的处理技术,一般是基于离线批处理,这样的处理技术不能实时的解决线上问题,对某些需快速决策方案无法快速给出理论依据。对于实时型系统如:Storm,它虽然具备实时处理数据的能力,但是在数据安全性和大批量的数据处理上效果表现弱于SparkStreaming。Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。SparkStreaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。SparkStreaming的优势在于:·能 ...
【技术保护点】
一种基于Spark Streaming的广告点击异常检测系统,其特征在于,包括数据采集单元(1)、数据清洗单元(2)、分布式数据消息系统(3)、第一异常数据检测单元(4)、嫌疑数据提取单元(5)、正常数据和异常数据分类器(6)以及分类数据数据库单元;其中数据采集单元(1),用于采集用户点击广告的日志信息;数据清洗单元(2),对数据采集单元(1)采集到的日志进行清洗及标准化处理,最后将标准化后的数据发送到分布式数据消息系统(3)中,等待被消费;分布式数据消息系统(3),主要存储数据标准后的数据,还存储嫌疑数据提取单元发送来的的嫌疑数据,生成Spark Streaming所需消费的主题数据,不同的数据生成各自Topic;第一异常数据检测单元(4),采用了KNN算法对来自于分布式消息系统(3)中的数据在Spark Streaming中进行准实时处理,得到嫌疑数据、异常数据、正常数据;嫌疑数据提取单元(5),主要用于对第一异常数据检测单元(4)单元产生的嫌疑数据发送回分布式数据消息系统(3)中;正常数据和异常数据分类器(6),采用了朴素贝叶斯分类方法,对存储于分布式消息系统(3)的嫌疑数据进行 ...
【技术特征摘要】
1.一种基于SparkStreaming的广告点击异常检测系统,其特征在于,包括数据采集单元(1)、数据清洗单元(2)、分布式数据消息系统(3)、第一异常数据检测单元(4)、嫌疑数据提取单元(5)、正常数据和异常数据分类器(6)以及分类数据数据库单元;其中数据采集单元(1),用于采集用户点击广告的日志信息;数据清洗单元(2),对数据采集单元(1)采集到的日志进行清洗及标准化处理,最后将标准化后的数据发送到分布式数据消息系统(3)中,等待被消费;分布式数据消息系统(3),主要存储数据标准后的数据,还存储嫌疑数据提取单元发送来的的嫌疑数据,生成SparkStreaming所需消费的主题数据,不同的数据生成各自Topic;第一异常数据检测单元(4),采用了KNN算法对来自于分布式消息系统(3)中的数据在SparkStreaming中进行准实时处理,得到嫌疑数据、异常数据、正常数据;嫌疑数据提取单元(5),主要用于对第一异常数据检测单元(4)单元产生的嫌疑数据发送回分布式数据消息系统(3)中;正常数据和异常数据分类器(6),采用了朴素贝叶斯分类方法,对存储于分布式消息系统(3)的嫌疑数据进行分类,得到异常数据和正常数据;分类数据数据库单元,包括括MySQL数据库(7)和Redis内存数据库(8),其中MySQL数据库(7)用于存储正常数据和异常数据分类器(6)产生的正常数据和异常数据,并将异常数据映射给Redis内存数据库,便于快速训练朴素贝叶斯分类器,Redis为内存数据库,只是用于映射MySQL数据库,便于提高查询和修改的速度,设定一定周期内将数据写入到MySQL,便于永久保存。2.根据权利要求1所述的基于SparkStreaming的广告点击异常检测系统,其特征在于,所述Redis内存数据库还包括将存储的异常数据用于进行训练朴素贝叶斯分类器。3.根据权利要求1所述的基于SparkStreaming的广告点击异常检测系统,其特征在于,所述数据采集单元(1)采集用户点击广告的日志信息的设备为日志采集器Flume分布式日志收集系统,分布式数据消息系统为Kafka。4.根据权利要求1所述的基于SparkStreaming的广告点击异常检测系统,其特征在于,所述第一异常数据检测单元(4)采用了KNN算法的KNN函数为:x为一条待分类日志的向量表示,di为训练集中的一条实例日志向量表示,cj为一类别;它们的相似度使用余弦相似度,待分类日志和实例日志的相似度为:其中当d属于cj时,取d为1,反之取0;距离度量使用欧几里得距离。...
【专利技术属性】
技术研发人员:刘群,谭敢锋,戴大祥,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。