一种基于广告推送的数据特征优化方法及装置制造方法及图纸

技术编号:29931732 阅读:18 留言:0更新日期:2021-09-04 19:01
本申请公开了一种基于广告推送的数据特征优化方法及装置,通过对分箱结果进行数据特征优化处理的方式,能对线性强度不高的连续型特征做交叉生成新的特征,使得交叉后的特征更加地精确,从而对连续型特征进行降维的同时,能够在尽可能保留有用信息的前提下确保特征交集的最小化,避免在进行特征合并的过程中出现信息丢失,在应用到广告推送领域时,能够降低相关数据的复杂程度,并确保相关数据的特征识别度,当采用线性回归模型对上述数据特征进行处理时,能够确保线性回归模型的模型性能和效果,从而提高广告推送的准确性,减少无效广告推送造成的资源浪费。告推送造成的资源浪费。告推送造成的资源浪费。

【技术实现步骤摘要】
一种基于广告推送的数据特征优化方法及装置


[0001]本申请公开涉及业务数据处理
,特别涉及一种基于广告推送的数据特征优化方法及装置。

技术介绍

[0002]在广告推送业务中,通常会采用广告推送模型进行相关推送处理。一般而言,所使用的广告推送模型为线性回归模型(linear regression,LR)。但是线性回归模型由于其自身的缺陷,在应用时的效果欠佳。为改善线性回归模型的应用效果以提高广告推送的准确性,减少无效广告推送造成的资源浪费,需要对广告业务数据进行特征优化。然而相关的特征优化技术仍然存在一些缺陷。

技术实现思路

[0003]为改善上述
技术介绍
存在的技术问题,本公开提供了一种基于广告推送的数据特征优化方法及装置。
[0004]本申请提供了一种基于广告推送的数据特征优化方法,应用于计算机设备,所述方法包括:
[0005]获取待处理数据集;其中,所述待处理数据集为广告业务数据;
[0006]对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
[0007]对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
[0008]对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
[0009]优选地,所述对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果,包括:
[0010]对所述多个特征值进行等频分箱,得到第一分箱结果;
[0011]对所述多个特征值进行卡方分箱,得到第二分箱结果;
[0012]对所述多个特征值进行best

ks分箱,得到第三分箱结果;
[0013]对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
[0014]优选地,对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果,包括:
[0015]按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
[0016]将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
[0017]优选地,对所述最终分箱结果进行两两交叉,得到多个目标分箱特征,包括:
[0018]根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱
特征序列,其中,每个目标分箱特征包括多个取值;
[0019]将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
[0020]针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
[0021]优选地,对所述多个目标分箱特征进行独热编码,得到目标编码特征之后,还包括:
[0022]将所述目标编码特征输入到模型中。
[0023]本申请提供了一种基于广告推送的数据特征优化装置,应用于计算机设备,所述装置包括:
[0024]数据获取模块,用于获取待处理数据集;其中,所述待处理数据集为广告业务数据;
[0025]特征分箱模块,用于对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
[0026]结果交叉模块,用于对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
[0027]独热编码模块,用于对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
[0028]优选地,所述特征分箱模块,具体用于:
[0029]对所述多个特征值进行等频分箱,得到第一分箱结果;
[0030]对所述多个特征值进行卡方分箱,得到第二分箱结果;
[0031]对所述多个特征值进行best

ks分箱,得到第三分箱结果;
[0032]对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
[0033]优选地,所述特征分箱模块,具体用于:
[0034]按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
[0035]将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
[0036]优选地,所述结果交叉模块,具体用于:
[0037]根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值;
[0038]将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
[0039]针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
[0040]优选地,所述独热编码模块,具体用于:
[0041]将所述目标编码特征输入到模型中。
[0042]本申请公开的实施例提供的技术方案可以包括以下有益效果。
[0043]一种基于广告推送的数据特征优化方法及装置,根据待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对多个特征值进行分箱,得到每个连续数值型特征的最终分箱结果,对最终分箱结果进行两两交叉,得到多个目标分箱特征,对多个目标分箱特征进行独热编码,得到目标编码特征。通过对分箱结果进行数据特征优化处理的方式,能对线性强度不高的连续型特征做交叉生成新的特征,使得交叉后的特征更加地精确,从而对连续型特征进行降维的同时,能够在尽可能保留有用信息的前提下确保特征交集的最小化,避免在进行特征合并的过程中出现信息丢失,在应用到广告推送领域时,能够降低相关数据的复杂程度,并确保相关数据的特征识别度,当采用线性回归模型对上述数据特征进行处理时,能够确保线性回归模型的模型性能和效果,从而提高广告推送的准确性,减少无效广告推送造成的资源浪费。
[0044]应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
[0045]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并于说明书一起用于解释本专利技术的原理。
[0046]图1为本专利技术实施例所提供的一种基于广告推送的数据特征优化方法的流程图;
[0047]图2为本专利技术实施例所提供的一种基于广告推送的数据特征优化装置的功能模块框图。
具体实施方式
[0048]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于广告推送的数据特征优化方法,其特征在于,应用于计算机设备,所述方法包括:获取待处理数据集;其中,所述待处理数据集为广告业务数据;对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。2.根据权利要求1所述的方法,其特征在于,所述对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果,包括:对所述多个特征值进行等频分箱,得到第一分箱结果;对所述多个特征值进行卡方分箱,得到第二分箱结果;对所述多个特征值进行best

ks分箱,得到第三分箱结果;对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。3.根据权利要求2所述的方法,其特征在于,对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果,包括:按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。4.根据权利要求1所述的方法,其特征在于,对所述最终分箱结果进行两两交叉,得到多个目标分箱特征,包括:根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值;将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。5.根据权利要求1所述的方法,其特征在于,对所述多个目标分箱特征进行独热编码,得到目标编...

【专利技术属性】
技术研发人员:顾凌云谢旻旗段湾汪仁杰张涛潘峻
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1