【技术实现步骤摘要】
特征筛选方法、装置、电子设备和存储介质
[0001]本公开涉及人工智能
,具体为深度学习、金融风控
,尤其涉及特征筛选方法、装置、电子设备和存储介质。
技术介绍
[0002]随着机器学习技术的不断进步,机器模型在金融风控领域的应用也越来越广泛。从大量特征中筛选出对风控模型的表现影响较大的特征,以利用筛选出的特征对风控模型进行训练,对于提高风控模型的预测结果的准确性具有重要意义。
技术实现思路
[0003]本公开提供了一种用于特征筛选方法、装置、电子设备和存储介质。
[0004]根据本公开的一方面,提供了一种特征筛选方法,所述方法包括:获取多个第一样本,所述第一样本包括多个候选特征对应的特征值,且所述第一样本具有对应的真实标签;获取多个所述第一样本分别对应的至少一个第二样本,其中,所述第二样本与对应的所述第一样本具有相同的特征值;基于多个所述第一样本及所述真实标签,生成对应第二样本的伪标签;基于多个所述第二样本以及所述伪标签,确定对应的第一样本中多个所述候选特征的重要度;根据所述重要度对多个所述候选特征进行筛选,以得到目标特征。
[0005]根据本公开的另一方面,提供了一种特征筛选装置,所述装置包括:第一获取模块,用于获取多个第一样本,所述第一样本包括多个候选特征对应的特征值,且所述第一样本具有对应的真实标签;第二获取模块,用于获取多个所述第一样本分别对应的至少一个第二样本,其中,所述第二样本与对应的所述第一样本具有相同的特征值;生成模块,用于基于多个所述第一样本及所述真实标 ...
【技术保护点】
【技术特征摘要】
1.一种特征筛选方法,包括:获取多个第一样本,所述第一样本包括多个候选特征对应的特征值,且所述第一样本具有对应的真实标签;获取多个所述第一样本分别对应的至少一个第二样本,其中,所述第二样本与对应的所述第一样本具有相同的特征值;基于多个所述第一样本及所述真实标签,生成对应第二样本的伪标签;基于多个所述第二样本以及所述伪标签,确定对应的第一样本中多个所述候选特征的重要度;根据所述重要度对多个所述候选特征进行筛选,以得到目标特征。2.根据权利要求1所述的方法,其中,所述基于多个所述第一样本及所述真实标签,生成对应第二样本的伪标签,包括:基于多个所述第一样本及对应的所述真实标签,确定对应第一样本生成伪标签的概率;基于多个所述第一样本生成伪标签的概率,生成对应第二样本的伪标签。3.根据权利要求2所述的方法,其中,所述基于多个所述第一样本及所述真实标签,确定对应第一样本生成伪标签的概率,包括:将多个所述第一样本划分为训练集、验证集和测试集,并确定所述训练集、所述验证集和所述测试集中所述第一样本的数量比例;采用所述训练集中多个所述第一样本包括的至少一个第一特征对应的特征值,及多个所述第一样本对应的所述真实标签,在加密环境中对第一初始模型进行训练,以得到训练后的第一目标模型,其中,所述第一特征是从多个所述候选特征中筛选出的;将多个所述第一样本分别输入所述第一目标模型,以获取对应的第一样本所属类别的置信度;根据所述训练集、验证集和测试集中任一集合包括的至少一个所述第一样本所属类别的置信度及对应的所述真实标签,分别确定所述第一目标模型对对应集合的样本所属类别的预测准确率;根据多个所述第一样本所属类别的置信度、所述预测准确率及所述数量比例,确定对应第一样本生成伪标签的概率。4.根据权利要求3所述的方法,其中,所述根据多个所述第一样本所属类别的置信度、所述预测准确率及所述数量比例,确定对应第一样本生成伪标签的概率,包括:对于所述训练集、所述验证集或所述测试集中任一集合包括的至少一个所述第一样本,将所述第一目标模型对所述集合的样本所属类别的预测准确率,作为对应集合中至少一个所述第一样本所属类别的预测准确率;根据所述集合中至少一个所述第一样本所属类别的预测准确率、所述置信度及所述数量比例,确定对应第一样本生成伪标签的概率。5.根据权利要求3所述的方法,其中,所述根据多个所述第一样本所属类别的置信度、所述预测准确率及所述数量比例,确定对应第一样本生成伪标签的概率,包括:对于多个所述第一样本,将所述第一目标模型对所述训练集的预测准确率,作为所述训练集内对应第一样本的第一预测准确率;
将所述第一目标模型对所述验证集的预测准确率,作为所述验证集内对应第一样本的第二预测准确率;将所述第一目标模型对所述测试集的预测准确率,作为所述测试集内对应第一样本的第三预测准确率;根据多个所述第一样本的所述第一预测准确率、所述第二预测准确率、所述第三预测准确率、所述置信度及所述数量比例,确定对应第一样本生成伪标签的概率。6.根据权利要求2所述的方法,其中,多个所述第一样本中第一目标样本对应多个所述第二样本;所述基于多个所述第一样本生成伪标签的概率,生成对应第二样本的伪标签,包括:分别生成所述第一目标样本对应的多个所述第二样本的随机数;其中,与同一所述第一目标样本对应的多个所述第二样本的随机数符合均匀分布;将所述第一目标样本对应的多个所述第二样本中,第二目标样本的伪标签,确定为第一伪标签,其中,所述第二目标样本对应的随机数大于目标概率,所述目标概率为所述第一目标样本生成伪标签的概率;将所述第一目标样本对应的多个所述第二样本中,第三目标样本的伪标签,确定为第二伪标签,其中,所述第三目标样本对应的随机数不大于所述目标概率。7.根据权利要求1
‑
6任一项所述的方法,其中,所述基于多个所述第二样本以及所述伪标签,确定对应的第一样本中多个所述候选特征的重要度,包括:采用多个所述第二样本包括的多个所述候选特征对应的特征值,及多个所述第二样本的伪标签,对第二初始模型进行训练,以得到训练后的第二目标模型;其中,所述第二目标模型在训练过程中和/或训练后已学习到多个所述候选特征的重要度;将至少一个所述第二样本输入所述第二目标模型,以获取对应的第一样本中多个所述候选特征的重要度。8.一种特征筛选装置,包括:第一获取模块,用于获取多个第一样本,所述第一样本包括多个候选特征对应的特征值,且所述第一样本具有对应的真实标签;第二获取模块,用于获取多个所述第一样本分别对应的至少一个第二样本,其中,所述第二样本与对应的所述第一样本具有相同的特征值;生成模块,用于基于多个所述第一样本...
【专利技术属性】
技术研发人员:李硕,张巨岩,许韩晨玺,许海洋,岳洪达,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。