一种目标特征组合的构建方法和装置制造方法及图纸

技术编号:28736250 阅读:18 留言:0更新日期:2021-06-06 11:43
本申请提供了一种目标特征组合的构建方法和装置,属于CTR预估技术领域。所述方法包括:从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。本申请提高了CTR预估的准确性。估的准确性。估的准确性。

【技术实现步骤摘要】
一种目标特征组合的构建方法和装置


[0001]本申请涉及CTR预估
,尤其涉及一种目标特征组合的构建方法和装置。

技术介绍

[0002]网络广告是一种通过网络传递到互联网用户的高科技广告运作方式,目前投放广告一般是使用在网页上提供的广告位登载设定有URL(Uniform Resource Locator,统一资源定位符)链接的互联网广告,当用户点击该互联网广告时,会跳转到该互联网广告的广告网页,这样广告业主达成推送该广告的目的。对一组广告的CTR(Click Through Rate,网络广告的点击率)预估的准确性决定了DSP(Demand

Side Platform,需求方平台)投放该组广告时的出价,一般CTR预估值越高,则出价越高,反之出价越低。
[0003]目前业界针对CTR预估问题大量使用的是广义线性模型LR(Logistic Regression,逻辑回归)+人工特征工程。LR使用了Logit变换将函数值映射到0

1区间,映射后的函数值就是CTR的预估值。LR作为线性模型很容易并行化,可以轻松的处理上亿条训练样本,性能较高,而且预测结果可解释性强。但由于线性模型的学习能力有限,该技术只能对字段特征进行处理,所以表达能力有限,如果要增强表达能力,则需要引入大量的领域知识来人工设计特征以及特征之间的交叉组合,从而间接补充算法的非线性学习能力,消耗大量的人力和机器资源,且需要大量的经验积累,在不同领域迁移后难以保证预测的效果。
[0004]此外,基于超高维度的深度学习模型也别广泛用于CTR预估领域,例如超高维度的分解机模型以及宽度深度模型等,自动学习高阶属性的权值,不需要通过人工的方式选取特征来做交叉。但该技术严重缺乏对CTR预估结果的合理分析和解释,因而,这种CTR预估方法难以给出预测理由也难以进行优化调整。

技术实现思路

[0005]本申请实施例的目的在于提供一种目标特征组合的构建方法和装置,以解决CTR预估不准确问题。具体技术方案如下:
[0006]第一方面,提供了一种目标特征组合的构建方法,所述方法包括:
[0007]从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;
[0008]通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;
[0009]通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;
[0010]将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。
[0011]可选地,从数据集中获取多个字段特征之后,所述方法还包括:确定所述字段特征对应的独热码;
[0012]所述通过对多个所述字段特征进行组合得到多个组合特征包括:通过对多个独热码进行组合得到多个组合特征编码;
[0013]所述通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征包括:通过所述遗传方案确定所述组合特征编码对应的适应性函数值;选取适应性函数值大于第一预设阈值的第一组合特征值和适应性函数值大于第二预设阈值的第二组合特征值,其中,所述第一预设阈值与所述第二预设阈值不同。
[0014]可选地,所述将所述第一组合特征和所述第二组合特征进行交叉包括:
[0015]将所述第一组合特征中的字段特征和所述第二组合特征的字段特征进行交换,得到交换后的第三组合特征和第四组合特征,其中,所述第一组合特征和所述第二组合特征中没有重复的字段特征;
[0016]在所述第三组合特征或所述第四组合特征符合期望的情况下,保留所述第三组合特征或所述第四组合特征。
[0017]可选地,所述将所述第一组合特征进行变异包括:
[0018]将所述第一组合特征中的至少一个字段特征更换为目标字段特征,其中,更换后的第一组合特征并未出现过。
[0019]可选地,所述确定所述字段特征对应的独热码包括:
[0020]在所述字段特征为连续特征的情况下,确定所述字段特征所属的类别;
[0021]确定所述类别对应的多个连续的分区,其中,每个所述分区中包含多个连续的数值,每个所述分区具有对应的数字化编码;
[0022]根据所述字段特征的值确定所述字段特征所属的分区;
[0023]根据所述字段特征所属的分区确定所述字段特征对应的独热码。
[0024]可选地,从数据集中获取多个字段特征之前,所述方法还包括:
[0025]获取广告信息和用户属性信息,其中,所述广告信息包括广告的点击信息和浏览过所述广告的用户标识,所述用户属性信息包括所述用户标识和用户个人信息;
[0026]根据所述用户标识,将具有交集的广告信息和用户属性信息作为所述数据集。
[0027]可选地,所述通过对至少两个独热码进行组合得到一个组合特征编码包括:
[0028]将至少两个独热码进行与、或、非、拼接中的至少一个逻辑运算操作,得到所述组合特征编码。
[0029]第二方面,提供了一种目标特征组合的构建装置,所述装置包括:
[0030]获取模块,用于从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;
[0031]组合模块,用于通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;
[0032]选取模块,用于通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;
[0033]交叉变异模块,用于将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。
[0034]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0035]存储器,用于存放计算机程序;
[0036]处理器,用于执行存储器上所存放的程序时,实现任一所述的目标特征组合的构建方法步骤。
[0037]第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的目标特征组合的构建方法步骤。
[0038]本申请实施例有益效果:
[0039]本申请实施例提供了一种目标特征组合的构建方法,所述方法包括:服务器从数据集中获取多个字段特征,通过对多个所述字段特征进行组合,得到多个组合特征,然后通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,最后将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。本申请在CTR预估领域增加了组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标特征组合的构建方法,其特征在于,所述方法包括:从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。2.根据权利要求1所述的方法,其特征在于,从数据集中获取多个字段特征之后,所述方法还包括:确定所述字段特征对应的独热码;所述通过对多个所述字段特征进行组合得到多个组合特征包括:通过对多个独热码进行组合得到多个组合特征编码;所述通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征包括:通过所述遗传方案确定所述组合特征编码对应的适应性函数值;选取适应性函数值大于第一预设阈值的第一组合特征值和适应性函数值大于第二预设阈值的第二组合特征值,其中,所述第一预设阈值与所述第二预设阈值不同。3.根据权利要求1所述的方法,其特征在于,所述将所述第一组合特征和所述第二组合特征进行交叉包括:将所述第一组合特征中的字段特征和所述第二组合特征的字段特征进行交换,得到交换后的第三组合特征和第四组合特征,其中,所述第一组合特征和所述第二组合特征中没有重复的字段特征;在所述第三组合特征或所述第四组合特征符合期望的情况下,保留所述第三组合特征或所述第四组合特征。4.根据权利要求1所述的方法,其特征在于,所述将所述第一组合特征进行变异包括:将所述第一组合特征中的至少一个字段特征更换为目标字段特征,其中,更换后的第一组合特征并未出现过。5.根据权利要求2所述的方法,其特征在于,所述确定所述字段特征对应的独热码包括:在所述字段特征为连续特征的情况下,确定所述字段特征所属的类别;确定所述类别对应的多个连续...

【专利技术属性】
技术研发人员:付金伟
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1