跨时间、多维度异常数据监测的方法和系统技术方案

技术编号:14743571 阅读:85 留言:0更新日期:2017-03-01 18:59
本发明专利技术涉及一种跨时间、多维度异常数据监测的方法和系统,其中,方法包括:收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息;在Spark环境下利用Python将获得的异构数据进行清洗,生成各维度对应的电子表格,准备建模分析;使用GBDT算法建立正常广告点击行为模型;采用支持向量机对异常数据样本进行建模分析,建立异常广告点击行为模型;生成作弊点击监测模型,部署在线反作弊模型。本发明专利技术通过监测作弊互联网广告流量,利用机器学习和云计算技术,解决多种异构数据融合分析及小样本分类准确度问题,本发明专利技术还能在整个机器学习链条中记录下后续互联网广告点击数据,并对此进行分析,完善反作弊模型,以便更好的实现广告投放的精准度。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种跨时间、多维度异常数据监测的方法和系统
技术介绍
在线广告投放后容易产生的各种作弊行为,包括通过程序或脚本恶意模拟用户的点击等带来的非正当途径流量产生的广告点击,损害了广告主及广告平台的利益,现有技术中,对异常广告点击行为的建模方法主要是基于监督学习方法,从原始日志中提取各个记录的特征,经历人工打标签,再生成模型,这种方法不仅效率低,而且无法适应业务的拓展,当接入数据量达到TB甚至PB级别以上的时候,无论从时效性和处理性能都无法满足业务需求。因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新地提出一种有效措施,通过对线上广告系统的海量展示日志、点击日志进行多维分析查询,制定异常广告点击行为的反作弊模型,过滤作弊点击的功能,以对作弊广告点击得以监测。
技术实现思路
为解决上述问题,本专利技术公开了一种跨时间、多维度异常数据监测的方法和系统,以制定异常广告点击行为的反作弊模型,过滤作弊点击的功能,以对作弊广告点击得以监测。根据本专利技术实施例的一个方面,提供的一种跨时间、多维度异常数据监测的方法,包括:收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息,通过收集Web日志和OLAP日志查询,获取网站点击记录、网站网址、网站访问时间戳、网站IP地址、访问网站主题,广告类目、广告位置、广告形式、广告大小和用户名、访问浏览器、用户兴趣标签;在Spark环境下利用Python将获得的异构数据进行清洗,生成各维度对应的电子表格,准备建模分析;使用GBDT算法建立正常广告点击行为模型,所述正常广告点击行为模型为使用未发现作弊点击的用户、广告、流量数据建立的模型,GBDT算法将在Spark环境下利用Python将获得的异构数据进行清洗后,生成各维度的数据集作为输入,GBDT是一种集成学习方法,基学习器是CART决策树,用于回归和分类预测,GBDT训练T轮,每一轮根据之前模型的误差训练的CART树,最终采用线性加权的方法将多个基学习器组合到一起形成一个强学习器;采用支持向量机对异常数据样本进行建模分析,建立异常广告点击行为模型,所述支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力,通过计算类别边界支撑向量对样本数据下的进行分类,在SVM建模中使得不同类别的样本宽划分,扩大边界距离;得到正常广告点击行为模型和建立异常广告点击行为模型后,将两个模型融合,生成作弊点击监测模型,部署在线反作弊模型,并实时对点击信息进行分析。基于上述方法的另一个实施例中,所述收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息包括:收集Web日志和OLAP日志查询,获取网站信息、投放广告信息和用户信息;将收集的信息区分为正常的网站信息、投放广告信息和用户信息,和异常的网站信息、投放广告信息和用户信息。基于上述方法的另一个实施例中,所述Web日志为网络用户访问Web服务器时,Web服务器自动建立的访问日志信息,包括用户ID、受访Web的URL、用户的IP地址、访问日期和时间。基于上述方法的另一个实施例中,所述生成各维度对应的电子表格内容包括:是否点击、网站地址、广告位大小、网站标签、投放广告类别、用户名、浏览器名称、时间戳。根据本专利技术实施例的另一个方面,提供的一种跨时间、多维度异常数据监测的系统,包括:Web日志模块、OLAP日志查询模块、本地分析数据并建模模块、线上反作弊模型部署模块;通过收集web日志模块和OLAP日志查询模块,获取正常数据和异常数据;通过本地分析数据并建模模块对获得数据进行清洗并建立模型;通过线上反作弊模型部署模块在线上对多维数据进行分析评估,部署在线反作弊模型,实时对点击信息进行分析。基于上述系统的另一个实施例中,所述web日志模块存储网络用户访问Web服务器时,Web服务器自动建立的访问日志信息,包括用户ID、受访Web的URL、用户的IP地址、访问日期和时间信息。基于上述系统的另一个实施例中,所述本地分析数据并建模模块通过在Spark环境下利用Python将获得的异构数据进行清洗,生成正常数据,使用GBDT算法来建立正常广告点击行为模型,支持向量机来对异常数据进行建模分析,建立异常广告点击行为模型。基于上述系统的另一个实施例中,所述线上反作弊模型部署模块将正常广告点击行为模型和异常广告点击行为模型融合,生成作弊点击监测模型,部署在线反作弊模型,实时对点击信息进行分析。与现有技术相比,本专利技术包括以下优点:本专利技术通过监测作弊互联网广告流量,利用机器学习和云计算技术,解决多种异构数据融合分析及小样本分类准确度问题,本专利技术还能在整个机器学习链条中记录下后续互联网广告点击数据,并对此进行分析,完善反作弊模型,以便更好的实现广告投放的精准度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所使用的附图做一简单地介绍。图1是本专利技术的一种跨时间、多维度异常数据监测的方法一个实施例的流程图。图2是本专利技术的一种跨时间、多维度异常数据监测的方法另一个实施例的流程图。图3是本专利技术的一种跨时间、多维度异常数据监测的系统一个实施例的结构示意图。图中:1Web日志模块、2OLAP日志查询模块、3本地分析数据并建模模块、4线上反作弊模型部署模块。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1是本专利技术的一种跨时间、多维度异常数据监测的方法一个实施例的流程图,如图1所示,所述一种跨时间、多维度异常数据监测的方法,包括:10,收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息,通过收集Web日志和OLAP日志查询,获取网站点击记录、网站网址、网站访问时间戳、网站IP地址、访问网站主题,广告类目、广告位置、广告形式、广告大小和用户名、访问浏览器、用户兴趣标签;20,在Spark环境下利用Python将获得的异构数据进行清洗,生成各维度对应的电子表格,准备建模分析;30,使用GBDT算法建立正常广告点击行为模型,所述正常广告点击行为模型为使用未发现作弊点击的用户、广告、流量数据建立的模型,GBDT算法将在Spark环境下利用Python将获得的异构数据进行清洗后,生成各维度的数据集作为输入,GBDT是一种集成学习方法,基学习器是CART决策树,用于回归和分类预测,GBDT训练T轮,每一轮根据之前模型的误差训练的CART树,最终采用线性加权的方法将多个基学习器组合到一起形成一个强学习器;40,采用支持向量机对异常数据样本进行建模分析,建立异常广告点击行为模型,所述支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力,通过计算类别边界本文档来自技高网...
跨时间、多维度异常数据监测的方法和系统

【技术保护点】
一种跨时间、多维度异常数据监测的方法,其特征在于,包括:收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息,通过收集Web日志和OLAP日志查询,获取网站点击记录、网站网址、网站访问时间戳、网站IP地址、访问网站主题,广告类目、广告位置、广告形式、广告大小和用户名、访问浏览器、用户兴趣标签;在Spark环境下利用Python将获得的异构数据进行清洗,生成各维度对应的电子表格,准备建模分析;使用GBDT算法建立正常广告点击行为模型,所述正常广告点击行为模型为使用未发现作弊点击的用户、广告、流量数据建立的模型,GBDT算法将在Spark环境下利用Python将获得的异构数据进行清洗后,生成各维度的数据集作为输入,GBDT是一种集成学习方法,基学习器是CART决策树,用于回归和分类预测,GBDT训练T轮,每一轮根据之前模型的误差训练的CART树,最终采用线性加权的方法将多个基学习器组合到一起形成一个强学习器;采用支持向量机对异常数据样本进行建模分析,建立异常广告点击行为模型,所述支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力,通过计算类别边界支撑向量对样本数据下的进行分类,在SVM建模中使得不同类别的样本宽划分,扩大边界距离;得到正常广告点击行为模型和建立异常广告点击行为模型后,将两个模型融合,生成作弊点击监测模型,部署在线反作弊模型,并实时对点击信息进行分析。...

【技术特征摘要】
1.一种跨时间、多维度异常数据监测的方法,其特征在于,包括:收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息,通过收集Web日志和OLAP日志查询,获取网站点击记录、网站网址、网站访问时间戳、网站IP地址、访问网站主题,广告类目、广告位置、广告形式、广告大小和用户名、访问浏览器、用户兴趣标签;在Spark环境下利用Python将获得的异构数据进行清洗,生成各维度对应的电子表格,准备建模分析;使用GBDT算法建立正常广告点击行为模型,所述正常广告点击行为模型为使用未发现作弊点击的用户、广告、流量数据建立的模型,GBDT算法将在Spark环境下利用Python将获得的异构数据进行清洗后,生成各维度的数据集作为输入,GBDT是一种集成学习方法,基学习器是CART决策树,用于回归和分类预测,GBDT训练T轮,每一轮根据之前模型的误差训练的CART树,最终采用线性加权的方法将多个基学习器组合到一起形成一个强学习器;采用支持向量机对异常数据样本进行建模分析,建立异常广告点击行为模型,所述支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力,通过计算类别边界支撑向量对样本数据下的进行分类,在SVM建模中使得不同类别的样本宽划分,扩大边界距离;得到正常广告点击行为模型和建立异常广告点击行为模型后,将两个模型融合,生成作弊点击监测模型,部署在线反作弊模型,并实时对点击信息进行分析。2.根据权利要求1所述的方法,其特征在于,所述收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息包括:收集Web日志和OLAP日志查询,获取网站信息、投放广...

【专利技术属性】
技术研发人员:史建民龚安邦
申请(专利权)人:杭州启冠网络技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1