基于L1-正则化逻辑回归和GBDT的dpi特征选择方法技术

技术编号:27203384 阅读:28 留言:0更新日期:2021-01-31 12:19
一种基于L1

【技术实现步骤摘要】
基于L1-正则化逻辑回归和GBDT的dpi特征选择方法


[0001]本专利技术涉及人工智能在互联网营销的
,更具体地,涉及一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法。

技术介绍

[0002]随着互联网行业市场竞争的日益激烈,应用大数据已经成为互联网营销的新方式,即互联网运营商大数据精准获客系统应运而生。大数据智能获客系统,以运营商大数据库为中心,直接抓取符合自定义条件用户的联系方式,直接与客户进行沟通,降低企业获客成本,提高企业利润。
[0003]具体地,从运行商角度看,其往往能够获取大量的用户dpi访问情况和访问频次数据,但是,并不是所有的dpi访问情况都对用户的广告点击行为有关联,更有甚者,这些没有关联的dpi访问情况不仅不会对用户广告点击概率模型的预测能力有提升,还会因为特征冗余从而造成模型的过拟合。
[0004]此外,这些没有关联dpi访问情况除了所包含的用户对其点击行为并没有提升外,这些多出来的用户无形之间会增加取数成本。因此,业界对运营商dpi特征重要性评价是急需解决的问题。
[0005]目前,对运营商dpi特征重要性评价存在以下两个难点:
[0006]第一:由于dpi特征通常分为dpi是否访问和dpi访问频次,因此,对于一个dpi_A来说,这两方面特征的重要性都要纳入考虑,如仅根据dpi_A的访问频次来确定重要性高低的话,即如果dpi_A的访问频次低,就认为该dpi不重要,这是不合理的;
[0007]第二:使用运营商数据进行大数据精准获客处理时,所构建的模型可以线性模型又可以构建非线性模型,然而,如何统一线性模型和非线性模型二者对dpi特征重要性评价的标准也是一个关键问题。
[0008]目前的解决方法通常采用L1-正则化和梯度提升决策树(Gradient Boosting Decision tree,GBDT)模型的方法,L1-正则化方法能够在参数更新的同时得到稀疏解,从而实现对无关特征进行剔除。但是L1-惩罚项也会使得非零参数也受到约束从而影响模型的性能。另一方面,由于用户营销广告点击模型不一定是线性模型,所以仅仅根据L1-正则化的稀疏解是不足以合理的定义权重为零的特征是否对用户点击有无意义。
[0009]GBDT模型根据特征分裂的梯度情况进行节点分裂,其分裂前后的增益以及特征被作为分裂节点的次数都能够反应特征的重要性,即特征分裂的平均增益越大、特征在所有子树中作为分裂依据的次数越多就代表该特征越重要。传统使用GBDT模型来判断dpi特征重要性仅仅是选择较为重要的dpi特征进行重新建模,然而该操作可能也会损失很多潜在的重要dpi特征。

技术实现思路

[0010]本专利技术的目的在于克服现有技术存在的上述缺陷,提供一种基于L1-正则化逻辑
回归和GBDT的dpi特征选择方法,该技术方案如下:
[0011]一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法,其特征在于,包括计算每个dpi的权重weight值步骤S1、计算每个dpi的n_split值步骤S2、计算每个dpi的平均增益gain
i
值步骤S3和有效特征集成步骤S4;
[0012]所述计算每个A
i
的dpi的权重weight
i
值步骤S1包括如下步骤:
[0013]步骤S11:将每个A
i
的dpi是否访问过的特征为dpi_A
i
,每一个每个A
i
对应的访问频次为dpi_Ai_freq;其中,i为大于等于1且小于等于P的正整数;
[0014]步骤S12:将每个所述访问频次dpi_Ai_freq划分为K个子区间,得到离散化处理后的每个A
i
的访问频率dpi_Ai_freq
j
(j=1,2,...,K);其中,所述j为大于等于1且小于等于K的正整数;所述用户dpi的权重weight值为L1-逻辑回归的回归系数绝对值;
[0015]步骤S13:将离散化后的每个A
i
的访问频率dpi_Ai_freq
j
(j=1,2,...,K)数据放入L1-正则化后的逻辑回归中进行模型训练,得到训练后的dpi_A
i
和所有dpi_A
i
_freqk的回归系数绝对值,将A
i
的weight
i
定义为dpi_A
i
和所有dpi_A
i
_freqk的回归系数的均值;
[0016]步骤S14:比较每个A
i
的回归系数的均值得到一个最大权重weight值,预设一个第一预设阈值a1,将最大权重weight值乘以第一预设阈值a1,得到第一结果阈值b1;其中,所述第一预设阈值a1为大于等于零与小于等于1之间的一个值;
[0017]步骤S15:将小于第一结果阈值b1的特征纳入一个第一集合SET_weight;
[0018]计算每个dpi的n_split值步骤S2包括如下步骤:
[0019]步骤S21:提供所需建立的GBDT模型,将所述训练集中的每个A
i
的dpi是否访问过的特征为dpi_A
i
,以及每个A
i
对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_A
i
和dpi_A
i
_freq的分裂次数值,将所述dpi_A
i
和dpi_A
i
_freq的分裂次数值的均值作为A
i
的n_split
i
值;
[0020]步骤S22:比较每个A
i
的n_split
i
值得到一个最大n_split值,预设一个第二预设阈值a2,将最大n_split值乘以第二预设阈值a2,得到第二结果阈值b2;其中,所述第二预设阈值a2为大于等于零与小于等于1之间的一个值;
[0021]步骤S23:将n_split小于第二结果阈值b2的dpi特征纳入一个第二集合SETn_split;
[0022]计算每个dpi的平均增益gain
i
值步骤S3包括如下步骤:
[0023]步骤S31:提供所需建立的GBDT模型,将所述训练集中的每个A
i
的dpi是否访问过的特征为dpi_A
i
,以及每个A
i
对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_A
i
和dpi_A
i
_freq的平均增益gain
i
值,将所述dpi_Ai和dpi_Ai_freq的平均增益gain
i
值的均值作为Ai的平均增益gain
i
值;
[0024]步骤S32:比较每个A本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法,其特征在于,包括计算计算每个A
i
的dpi的权重weight
i
值、计算每个dpi的n_split值步骤S2、计算每个dpi的平均增益gaini值步骤S3和有效特征集成步骤S4;所述计算每个A
i
的dpi的权重weight
i
值步骤S1包括如下步骤:步骤S11:将每个A
i
的dpi是否访问过的特征为dpi_A
i
,每一个每个A
i
对应的访问频次为dpi_Ai_freq;其中,i为大于等于1且小于等于P的正整数;步骤S12:将每个所述访问频次dpi_Ai_freq划分为K个子区间,得到离散化处理后的每个A
i
的访问频率dpi_Ai_freq
j
(j=1,2,...,K);其中,所述j为大于等于1且小于等于K的正整数;所述用户dpi的权重weight值为L1-逻辑回归的回归系数绝对值;步骤S13:将离散化后的每个A
i
的访问频率dpi_Ai_freq
j
(j=1,2,...,K)数据放入L1-正则化后的逻辑回归中进行模型训练,得到训练后的dpi_A
i
和所有dpi_A
i
_freqk的回归系数绝对值,将A
i
的weight
i
定义为dpi_A
i
和所有dpi_A
i
_freqk的回归系数的均值;步骤S14:比较每个A
i
的回归系数的均值得到一个最大权重weight值,预设一个第一预设阈值a1,将最大权重weight值乘以第一预设阈值a1,得到第一结果阈值b1;其中,所述第一预设阈值a1为大于等于零与小于等于1之间的一个值;步骤S15:将小于第一结果阈值b1的特征纳入一个第一集合SET_weight;计算每个dpi的n_split值步骤S2包括如下步骤:步骤S21:提供所需建立的GBDT模型,将所述训练集中的每个A
i
的dpi是否访问过的特征为dpi_A
i
,以及每个A
i
对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_A
i
和dpi_A
i
_freq的分裂次数值,将所述dpi_A
i
和dpi_A
i
_freq的分裂次数值的均值...

【专利技术属性】
技术研发人员:项亮潘信法
申请(专利权)人:上海数鸣人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1