【技术实现步骤摘要】
基于L1-正则化逻辑回归和GBDT的dpi特征选择方法
[0001]本专利技术涉及人工智能在互联网营销的
,更具体地,涉及一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法。
技术介绍
[0002]随着互联网行业市场竞争的日益激烈,应用大数据已经成为互联网营销的新方式,即互联网运营商大数据精准获客系统应运而生。大数据智能获客系统,以运营商大数据库为中心,直接抓取符合自定义条件用户的联系方式,直接与客户进行沟通,降低企业获客成本,提高企业利润。
[0003]具体地,从运行商角度看,其往往能够获取大量的用户dpi访问情况和访问频次数据,但是,并不是所有的dpi访问情况都对用户的广告点击行为有关联,更有甚者,这些没有关联的dpi访问情况不仅不会对用户广告点击概率模型的预测能力有提升,还会因为特征冗余从而造成模型的过拟合。
[0004]此外,这些没有关联dpi访问情况除了所包含的用户对其点击行为并没有提升外,这些多出来的用户无形之间会增加取数成本。因此,业界对运营商dpi特征重要性评价是急需解决的问题。
[0005]目前,对运营商dpi特征重要性评价存在以下两个难点:
[0006]第一:由于dpi特征通常分为dpi是否访问和dpi访问频次,因此,对于一个dpi_A来说,这两方面特征的重要性都要纳入考虑,如仅根据dpi_A的访问频次来确定重要性高低的话,即如果dpi_A的访问频次低,就认为该dpi不重要,这是不合理的;
[0007]第二:使用运营商数据进行大数据精准获客处理 ...
【技术保护点】
【技术特征摘要】
1.一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法,其特征在于,包括计算计算每个A
i
的dpi的权重weight
i
值、计算每个dpi的n_split值步骤S2、计算每个dpi的平均增益gaini值步骤S3和有效特征集成步骤S4;所述计算每个A
i
的dpi的权重weight
i
值步骤S1包括如下步骤:步骤S11:将每个A
i
的dpi是否访问过的特征为dpi_A
i
,每一个每个A
i
对应的访问频次为dpi_Ai_freq;其中,i为大于等于1且小于等于P的正整数;步骤S12:将每个所述访问频次dpi_Ai_freq划分为K个子区间,得到离散化处理后的每个A
i
的访问频率dpi_Ai_freq
j
(j=1,2,...,K);其中,所述j为大于等于1且小于等于K的正整数;所述用户dpi的权重weight值为L1-逻辑回归的回归系数绝对值;步骤S13:将离散化后的每个A
i
的访问频率dpi_Ai_freq
j
(j=1,2,...,K)数据放入L1-正则化后的逻辑回归中进行模型训练,得到训练后的dpi_A
i
和所有dpi_A
i
_freqk的回归系数绝对值,将A
i
的weight
i
定义为dpi_A
i
和所有dpi_A
i
_freqk的回归系数的均值;步骤S14:比较每个A
i
的回归系数的均值得到一个最大权重weight值,预设一个第一预设阈值a1,将最大权重weight值乘以第一预设阈值a1,得到第一结果阈值b1;其中,所述第一预设阈值a1为大于等于零与小于等于1之间的一个值;步骤S15:将小于第一结果阈值b1的特征纳入一个第一集合SET_weight;计算每个dpi的n_split值步骤S2包括如下步骤:步骤S21:提供所需建立的GBDT模型,将所述训练集中的每个A
i
的dpi是否访问过的特征为dpi_A
i
,以及每个A
i
对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_A
i
和dpi_A
i
_freq的分裂次数值,将所述dpi_A
i
和dpi_A
i
_freq的分裂次数值的均值...
【专利技术属性】
技术研发人员:项亮,潘信法,
申请(专利权)人:上海数鸣人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。