用于广告异常流量检测的方法和装置制造方法及图纸

技术编号:33905294 阅读:20 留言:0更新日期:2022-06-25 18:34
本说明书的实施例提供了用于广告异常流量检测的方法、装置、计算设备和机器可读存储介质。该方法可以包括:获取在历史时间段内的历史广告日志数据,其中,历史广告日志数据包括在历史时间段内至少一个设备参与广告所得到的数据;基于历史广告日志数据,生成特征数据,其中,特征数据用于表示广告特征以及参与广告的用户特征;对特征数据进行编码处理,以生成目标训练样本;基于目标训练样本进行机器学习模型训练,以用于广告异常流量检测。以用于广告异常流量检测。以用于广告异常流量检测。

【技术实现步骤摘要】
用于广告异常流量检测的方法和装置


[0001]本说明书的实施例涉及信息
,更具体地,涉及用于广告异常流量检测的方法、装置、计算设备和机器可读存储介质。

技术介绍

[0002]随着互联网的蓬勃发展,数字广告市场也在不断扩大。与传统广告相比,数字广告可以通过受众定向、流量监测和个性化服务等为广告主创造更大的价值,但是与此同时,数字广告也遭受着日益壮大的广告作弊组织的威胁。广告作弊所产生的异常流量在不断破坏着数字广告的价值和可信度,目前已经对当前互联网业务安全造成了巨大危害。
[0003]针对这一情况,业界一般按照访问频次、行为频率、地域定向、投放时段等人为设定统计规则,进而基于统计规则进行广告异常流量检测。然而,这种方式通常是先被攻击然后发现,最后补充规则,中间可能经历较长的滞后期,导致无法适应当前与广告作弊组织的攻防节奏。此外,实践表明,这种方式通常可能对异常流量的漏检率以及对正常流量的误判率比较高。例如,这种方式可能无法识别通过混拨技术进行作弊的流量。

技术实现思路

[0004]考虑到现有技术的上述问题,本说明书的实施例提供了用于广告异常流量检测的方法、装置、计算设备和机器可读存储介质。
[0005]一方面,本说明书的实施例提供了一种用于广告异常流量检测的方法,包括:获取在历史时间段内的历史广告日志数据,其中,所述历史广告日志数据包括在所述历史时间段内至少一个设备参与广告所得到的数据;基于所述历史广告日志数据,生成特征数据,其中,所述特征数据用于表示广告特征以及参与广告的用户特征;对所述特征数据进行编码处理,以生成目标训练样本;基于所述目标训练样本进行机器学习模型训练,以用于广告异常流量检测。
[0006]另一方面,本说明书的实施例提供了一种用于广告异常流量检测的方法,包括:获取在指定时间段内的当前广告日志数据,其中,所述当前广告日志数据包括在所述指定时间段内至少一个设备参与广告所得到的数据;基于所述当前广告日志数据,生成当前特征数据,其中,所述当前特征数据用于表示广告特征和参与广告的用户特征;对所述当前特征数据进行编码处理,以生成目标特征数据;利用经过训练的机器学习模型对所述目标特征数据进行处理,得到预测结果,其中,所述预测结果用于表示在所述当前广告日志数据中是否存在异常流量。
[0007]另一方面,本说明书的实施例提供了一种用于广告异常流量检测的装置,包括:获取单元,用于获取在历史时间段内的历史广告日志数据,其中,所述历史广告日志数据包括在所述历史时间段内至少一个设备参与广告所得到的数据;生成单元,用于基于所述历史广告日志数据,生成特征数据,其中,所述特征数据用于表示广告特征以及参与广告的用户特征;编码单元,用于对所述特征数据进行编码处理,以生成目标训练样本;训练单元,用于
基于所述目标训练样本进行机器学习模型训练,以用于广告异常流量检测。
[0008]另一方面,本说明书的实施例提供了一种用于广告异常流量检测的装置,包括:获取单元,用于获取在指定时间段内的当前广告日志数据,其中,所述当前广告日志数据包括在所述指定时间段内至少一个设备参与广告所得到的数据;生成单元,用于基于所述当前广告日志数据,生成当前特征数据,其中,所述当前特征数据用于表示广告特征和参与广告的用户特征;编码单元,用于对所述当前特征数据进行编码处理,以生成目标特征数据;预测单元,用于利用经过训练的机器学习模型对所述目标特征数据进行处理,得到预测结果,其中,所述预测结果用于表示在所述当前广告日志数据中是否存在异常流量。
[0009]另一方面,本说明书的实施例提供了一种计算设备,包括至少一个处理器;与所述至少一个处理器进行通信的存储器,其上存储有可执行代码,所述可执行代码在被所述至少一个处理器执行时使得所述至少一个处理器实现上述第一个方面提供的方法。
[0010]另一方面,本说明书的实施例提供了一种计算设备,包括:至少一个处理器;与所述至少一个处理器进行通信的存储器,其上存储有可执行代码,所述可执行代码在被所述至少一个处理器执行时使得所述至少一个处理器实现上述第二个方面提供的方法。
[0011]另一方面,本说明书的实施例提供了一种机器可读存储介质,其存储有可执行代码,所述可执行代码在被执行时使得机器执行上述第一个方面提供的方法。
[0012]另一方面,本说明书的实施例提供了一种机器可读存储介质,其存储有可执行代码,所述可执行代码在被执行时使得机器执行上述第二个方面提供的方法。
附图说明
[0013]通过结合附图对本说明书的实施例的更详细的描述,本说明书的实施例的上述以及其它目的、特征和优势将变得更加明显,其中,在本说明书的实施例中,相同的附图标记通常代表相同的元素。
[0014]图1是根据一些实施例的用于基于机器学习技术进行广告异常流量检测的总体过程的示意性流程图。
[0015]图2是根据一些实施例的用于广告异常流量检测的方法的示意性流程图。
[0016]图3是根据一些实施例的用于广告异常流量检测的方法的示意性流程图。
[0017]图4是用于处理历史广告日志数据的过程的一个示例的示意性流程图。
[0018]图5是用于机器学习模型训练的过程的一个示例的示意性流程图。
[0019]图6是根据一些实施例的用于广告异常流量检测的装置的示意性框图。
[0020]图7是根据一些实施例的用于广告异常流量检测的装置的示意性流程图。
[0021]图8是根据一些实施例的用于广告异常流量检测的计算设备的硬件结构图。
[0022]图9是根据一些实施例的用于广告异常流量检测的计算设备的硬件结构图。
具体实施方式
[0023]现在将参考各实施例讨论本文描述的主题。应当理解的是,讨论这些实施例仅是为了使得本领域技术人员能够更好地理解并且实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者例子的限制。可以在不脱离权利要求书的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个实施例可以根据需要,省略、替换或者
添加各种过程或组件。
[0024]如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其它实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其它的定义,无论是明确的还是隐含的,除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
[0025]目前,广告作弊所产生的异常流量已经对数字广告业务产生了巨大危害。异常流量通常是指针对广告而产生的非真实流量(比如,伪造或虚构的流量等)。而现有的基于统计规则进行异常流量检测的方式可能存在严重的滞后性,难以满足快速变化的异常流量状况。另外,这种方式的漏检率和误判率也较高。
[0026]如今,随着人工智能的快速发展,作为其分支的机器学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于广告异常流量检测的方法,包括:获取在历史时间段内的历史广告日志数据,其中,所述历史广告日志数据包括在所述历史时间段内至少一个设备参与广告所得到的数据;基于所述历史广告日志数据,生成特征数据,其中,所述特征数据用于表示广告特征以及参与广告的用户特征;对所述特征数据进行编码处理,以生成目标训练样本;基于所述目标训练样本进行机器学习模型训练,以用于广告异常流量检测。2.根据权利要求1所述的方法,其中,生成所述特征数据包括:按照所述至少一个设备的设备标识对所述历史广告日志数据进行组织,以确定有效日志数据;基于所述有效日志数据,生成所述特征数据。3.根据权利要求2所述的方法,其中,确定所述有效日志数据包括:按照所述至少一个设备的设备标识对所述历史广告日志数据进行组织,生成基础日志数据;从所述基础日志数据中去除无效日志数据,得到所述有效日志数据,其中,所述无效日志数据表示设备参与广告竞价但未产生曝光和点击操作。4.根据权利要求2所述的方法,其中,所述有效日志数据包括与所述至少一个设备相关联的用户标识信息,所述特征数据包括用户特征信息,其中,所述用户特征信息包括与所述至少一个设备相关联的用户特征;生成所述特征数据包括:从数据管理平台获取用户标签数据;将所述用户标签数据与所述用户标识信息进行关联,生成所述用户特征信息。5.根据权利要求2所述的方法,其中,所述特征数据包括广告数据和上下文信息,其中,所述广告数据包括广告属性,所述上下文信息包括广告操作特征;生成所述特征数据包括:从所述有效日志数据中提取所述广告数据和所述上下文信息。6.根据权利要求1所述的方法,其中,所述特征数据用于表示多个特征,所述多个特征包括适于统计分析的第一类特征以及除了所述第一类特征之外的第二类特征;对所述特征数据进行编码处理,以生成目标训练样本,包括:对所述第一类特征进行统计分析,生成一组统计特征;对所述一组统计特征和所述第二类特征进行编码,得到原始训练样本;从所述原始训练样本中抽取至少一部分样本作为所述目标训练样本。7.根据权利要求6所述的方法,其中,所述原始训练样本包括正样本和负样本,其中,所述正样本和所述负样本是基于从分布式无效流量过滤器获得的无效流量过滤列表来区分的,所述无效流量过滤列表包括被所述分布式无效流量过滤器的成员标记为产生无效流量的设备信息;从所述原始训练样本中抽取至少一部分样本作为所述目标训练样本,包括:从所述正样本和所述负样本中抽取目标正样本和目标负样本,其中,所述目标训练样本包括所述目标正样本和所述目标负样本,所述目标正样本与所述目标负样本之间的比例
是预定义的。8.根据权利要求7所述的方法,其中,与所述负样本相关联的设备在所述无效流量过滤列表中被至少两个成员标记为产生无效流量。9.根据权利要求1所述的方法,其中,基于所述目标训练样本进行机器学习模型训练,包括:基于所述目标训练样本对至少一个初始机器学习模型进行训练,得到至少一个可用机器学习模型;对所述至少一个可用机器学习模型进行评估;从所述至少一个可用机器学习模型中选择评估结果最优的可用机器学习模型,作为用于广告异常流量检测的目标机器学习模型。10.一种用于广告异常流量检测的方法,包括:获取在指定时间段内的当前广告日志数据,其中,所述当前广告日志数据包括在所述指定时间段内至少一个设备参与广告所得到的数据;基于所述当前广告日志数据,生成当前特征数据,其中,所述当前特征数据用于表示广告特征和参与广告的用户特征;对所述当前特征数据进行编码处理,以生成目标特征数据;利用经过训练的机器学习模型对所述目标特征数据进行处理,得到预测结果,其中,所述预测结果用于表示在所述当前广告日志数据中是否存在异常流量。11.根据权利要求10所述的方法,其中,生成所述当前特征数据包括:按照所述至少一个设备的设备标识对所述当前广告日志数据进行组织,以确定当前有效日志数据;基于所述当前有效日志数据,生成所述当前特征数据。12.根据权利要求11所述的方法,其中,确定所述当前有效日志数据包括:按照所述至少一个设备的设备标识对所述当前广告日志数据进行组织,生成当前基础日志数据;从所述当前基础日志数据中去除当前无效日志数据,得到所述当前有效日志数据,其中,所述当前无效日志数据表示设备参与广告竞价但未产生曝光和点击操作。13.根据权利要求11所述的方法,其中,所述当前有效日志数据包括与所述至少一个设备相关联的用户标识信息,所述当前特征数据包括当前用户特征信息,其中,所述当前用户特征信息包括与所述至少一个设备相关联的用户特征;生成所述当前特征数据包括:从数据管理平台获取用户标签数据;将所述用户标签数据与所述用户标识信息进行关联,生成所述当前用户特征信息。14.根据权利要求11所述的方法,其中,所述当前特征数据包括当前广告数据和当前上下文信息,其中,所述当前广告数据包括广告属性,所述当前上下文信息包括广告操作特征;生成所述当前特征数据包括:从所述当前有效日志数据中提取所述当前广告数据和所述当前上下文信息。15.根据权利要求10所述的方法,其中,所述当前特征数据用于表示多个特征,所述多
个特征包括适于统计分析的第一类特征以及除了所述第一类特征之外的第二类特征;对所述当前特征数据进行编码处理,以生成目标特征数据,包括:对所述第一类特征进行统计分析,生成一组统计特征;对所述一组统计特征和所述第二类特征进行编码,生成所述目标特征数据。16.一种用于广告异常流量检测的装置,包括:获取单元,用于获取在历史时间段内的历史广告日志数据,其中,所述历史广告日志数据包括在所述历史时间段内至少一个设备参与广告所得到的数据;生成单元,用于基于所述历史广告日志数据,生成特征数据,其中,所述特征数据用于表示广告特征以及参与广告的用户特征;编码单...

【专利技术属性】
技术研发人员:苏同郭田奇李诚刘崴李响
申请(专利权)人:华扬联众数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1