【技术实现步骤摘要】
用于广告异常流量检测的方法和装置
[0001]本说明书的实施例涉及信息
,更具体地,涉及用于广告异常流量检测的方法、装置、计算设备和机器可读存储介质。
技术介绍
[0002]随着互联网的蓬勃发展,数字广告市场也在不断扩大。与传统广告相比,数字广告可以通过受众定向、流量监测和个性化服务等为广告主创造更大的价值,但是与此同时,数字广告也遭受着日益壮大的广告作弊组织的威胁。广告作弊所产生的异常流量在不断破坏着数字广告的价值和可信度,目前已经对当前互联网业务安全造成了巨大危害。
[0003]针对这一情况,业界一般按照访问频次、行为频率、地域定向、投放时段等人为设定统计规则,进而基于统计规则进行广告异常流量检测。然而,这种方式通常是先被攻击然后发现,最后补充规则,中间可能经历较长的滞后期,导致无法适应当前与广告作弊组织的攻防节奏。此外,实践表明,这种方式通常可能对异常流量的漏检率以及对正常流量的误判率比较高。例如,这种方式可能无法识别通过混拨技术进行作弊的流量。
技术实现思路
[0004]考虑到现有技术的上述问题,本说明书的实施例提供了用于广告异常流量检测的方法、装置、计算设备和机器可读存储介质。
[0005]一方面,本说明书的实施例提供了一种用于广告异常流量检测的方法,包括:获取在历史时间段内的历史广告日志数据,其中,所述历史广告日志数据包括在所述历史时间段内至少一个设备参与广告所得到的数据;基于所述历史广告日志数据,生成特征数据,其中,所述特征数据用于表示广告特征以及参与广告的用户特征 ...
【技术保护点】
【技术特征摘要】
1.一种用于广告异常流量检测的方法,包括:获取在历史时间段内的历史广告日志数据,其中,所述历史广告日志数据包括在所述历史时间段内至少一个设备参与广告所得到的数据;基于所述历史广告日志数据,生成特征数据,其中,所述特征数据用于表示广告特征以及参与广告的用户特征;对所述特征数据进行编码处理,以生成目标训练样本;基于所述目标训练样本进行机器学习模型训练,以用于广告异常流量检测。2.根据权利要求1所述的方法,其中,生成所述特征数据包括:按照所述至少一个设备的设备标识对所述历史广告日志数据进行组织,以确定有效日志数据;基于所述有效日志数据,生成所述特征数据。3.根据权利要求2所述的方法,其中,确定所述有效日志数据包括:按照所述至少一个设备的设备标识对所述历史广告日志数据进行组织,生成基础日志数据;从所述基础日志数据中去除无效日志数据,得到所述有效日志数据,其中,所述无效日志数据表示设备参与广告竞价但未产生曝光和点击操作。4.根据权利要求2所述的方法,其中,所述有效日志数据包括与所述至少一个设备相关联的用户标识信息,所述特征数据包括用户特征信息,其中,所述用户特征信息包括与所述至少一个设备相关联的用户特征;生成所述特征数据包括:从数据管理平台获取用户标签数据;将所述用户标签数据与所述用户标识信息进行关联,生成所述用户特征信息。5.根据权利要求2所述的方法,其中,所述特征数据包括广告数据和上下文信息,其中,所述广告数据包括广告属性,所述上下文信息包括广告操作特征;生成所述特征数据包括:从所述有效日志数据中提取所述广告数据和所述上下文信息。6.根据权利要求1所述的方法,其中,所述特征数据用于表示多个特征,所述多个特征包括适于统计分析的第一类特征以及除了所述第一类特征之外的第二类特征;对所述特征数据进行编码处理,以生成目标训练样本,包括:对所述第一类特征进行统计分析,生成一组统计特征;对所述一组统计特征和所述第二类特征进行编码,得到原始训练样本;从所述原始训练样本中抽取至少一部分样本作为所述目标训练样本。7.根据权利要求6所述的方法,其中,所述原始训练样本包括正样本和负样本,其中,所述正样本和所述负样本是基于从分布式无效流量过滤器获得的无效流量过滤列表来区分的,所述无效流量过滤列表包括被所述分布式无效流量过滤器的成员标记为产生无效流量的设备信息;从所述原始训练样本中抽取至少一部分样本作为所述目标训练样本,包括:从所述正样本和所述负样本中抽取目标正样本和目标负样本,其中,所述目标训练样本包括所述目标正样本和所述目标负样本,所述目标正样本与所述目标负样本之间的比例
是预定义的。8.根据权利要求7所述的方法,其中,与所述负样本相关联的设备在所述无效流量过滤列表中被至少两个成员标记为产生无效流量。9.根据权利要求1所述的方法,其中,基于所述目标训练样本进行机器学习模型训练,包括:基于所述目标训练样本对至少一个初始机器学习模型进行训练,得到至少一个可用机器学习模型;对所述至少一个可用机器学习模型进行评估;从所述至少一个可用机器学习模型中选择评估结果最优的可用机器学习模型,作为用于广告异常流量检测的目标机器学习模型。10.一种用于广告异常流量检测的方法,包括:获取在指定时间段内的当前广告日志数据,其中,所述当前广告日志数据包括在所述指定时间段内至少一个设备参与广告所得到的数据;基于所述当前广告日志数据,生成当前特征数据,其中,所述当前特征数据用于表示广告特征和参与广告的用户特征;对所述当前特征数据进行编码处理,以生成目标特征数据;利用经过训练的机器学习模型对所述目标特征数据进行处理,得到预测结果,其中,所述预测结果用于表示在所述当前广告日志数据中是否存在异常流量。11.根据权利要求10所述的方法,其中,生成所述当前特征数据包括:按照所述至少一个设备的设备标识对所述当前广告日志数据进行组织,以确定当前有效日志数据;基于所述当前有效日志数据,生成所述当前特征数据。12.根据权利要求11所述的方法,其中,确定所述当前有效日志数据包括:按照所述至少一个设备的设备标识对所述当前广告日志数据进行组织,生成当前基础日志数据;从所述当前基础日志数据中去除当前无效日志数据,得到所述当前有效日志数据,其中,所述当前无效日志数据表示设备参与广告竞价但未产生曝光和点击操作。13.根据权利要求11所述的方法,其中,所述当前有效日志数据包括与所述至少一个设备相关联的用户标识信息,所述当前特征数据包括当前用户特征信息,其中,所述当前用户特征信息包括与所述至少一个设备相关联的用户特征;生成所述当前特征数据包括:从数据管理平台获取用户标签数据;将所述用户标签数据与所述用户标识信息进行关联,生成所述当前用户特征信息。14.根据权利要求11所述的方法,其中,所述当前特征数据包括当前广告数据和当前上下文信息,其中,所述当前广告数据包括广告属性,所述当前上下文信息包括广告操作特征;生成所述当前特征数据包括:从所述当前有效日志数据中提取所述当前广告数据和所述当前上下文信息。15.根据权利要求10所述的方法,其中,所述当前特征数据用于表示多个特征,所述多
个特征包括适于统计分析的第一类特征以及除了所述第一类特征之外的第二类特征;对所述当前特征数据进行编码处理,以生成目标特征数据,包括:对所述第一类特征进行统计分析,生成一组统计特征;对所述一组统计特征和所述第二类特征进行编码,生成所述目标特征数据。16.一种用于广告异常流量检测的装置,包括:获取单元,用于获取在历史时间段内的历史广告日志数据,其中,所述历史广告日志数据包括在所述历史时间段内至少一个设备参与广告所得到的数据;生成单元,用于基于所述历史广告日志数据,生成特征数据,其中,所述特征数据用于表示广告特征以及参与广告的用户特征;编码单...
【专利技术属性】
技术研发人员:苏同,郭田奇,李诚,刘崴,李响,
申请(专利权)人:华扬联众数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。