特征筛选方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33649340 阅读:71 留言:0更新日期:2022-06-02 20:26
本公开提供了一种特征筛选方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为深度学习、金融风控技术领域。具体实现方案为:获取多个第一样本,第一样本包括多个候选特征对应的特征值,且第一样本具有对应的真实标签;获取多个第一样本分别对应的至少一个第二样本,其中,第二样本与对应的第一样本具有相同的特征值;基于多个第一样本及真实标签,生成对应第二样本的伪标签;基于多个第二样本以及伪标签,确定对应的第一样本中多个候选特征的重要度;根据重要度对多个候选特征进行筛选,以得到目标特征。由此,实现了从多个候选特征中筛选出对风控模型表现影响较大的目标特征,并且,对于不同场景,能够筛选出适合场景的目标特征。景的目标特征。景的目标特征。

【技术实现步骤摘要】
特征筛选方法、装置、电子设备和存储介质


[0001]本公开涉及人工智能
,具体为深度学习、金融风控
,尤其涉及特征筛选方法、装置、电子设备和存储介质。

技术介绍

[0002]随着机器学习技术的不断进步,机器模型在金融风控领域的应用也越来越广泛。从大量特征中筛选出对风控模型的表现影响较大的特征,以利用筛选出的特征对风控模型进行训练,对于提高风控模型的预测结果的准确性具有重要意义。

技术实现思路

[0003]本公开提供了一种用于特征筛选方法、装置、电子设备和存储介质。
[0004]根据本公开的一方面,提供了一种特征筛选方法,所述方法包括:获取多个第一样本,所述第一样本包括多个候选特征对应的特征值,且所述第一样本具有对应的真实标签;获取多个所述第一样本分别对应的至少一个第二样本,其中,所述第二样本与对应的所述第一样本具有相同的特征值;基于多个所述第一样本及所述真实标签,生成对应第二样本的伪标签;基于多个所述第二样本以及所述伪标签,确定对应的第一样本中多个所述候选特征的重要度;根据所述重要度对多个所述候选特征进行筛选,以得到目标特征。
[0005]根据本公开的另一方面,提供了一种特征筛选装置,所述装置包括:第一获取模块,用于获取多个第一样本,所述第一样本包括多个候选特征对应的特征值,且所述第一样本具有对应的真实标签;第二获取模块,用于获取多个所述第一样本分别对应的至少一个第二样本,其中,所述第二样本与对应的所述第一样本具有相同的特征值;生成模块,用于基于多个所述第一样本及所述真实标签,生成对应第二样本的伪标签;确定模块,用于基于多个所述第二样本以及所述伪标签,确定对应的第一样本中多个所述候选特征的重要度;筛选模块,用于根据所述重要度对多个所述候选特征进行筛选,以得到目标特征。
[0006]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的特征筛选方法。
[0007]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的特征筛选方法。
[0008]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开的特征筛选方法的步骤。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开第一实施例的特征筛选方法的流程示意图;
[0012]图2是根据本公开第二实施例的特征筛选方法的流程示意图;
[0013]图3是根据本公开第三实施例的特征筛选装置的结构示意图
[0014]图4是根据本公开第四实施例的特征筛选装置的结构示意图;
[0015]图5是用来实现本公开实施例的特征筛选方法的电子设备的框图。
具体实施方式
[0016]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0017]需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0018]随着机器学习技术的不断进步,机器模型在金融风控领域的应用也越来越广泛。比如,金融风控领域中的风控模型,可以用于进行金融风险的风险评估。银行可以根据风控模型的打分结果制定相应的风控策略,实现对各种信贷产品的风控。风控模型的预测结果的准确性,对于制定合理的风控策略起到了至关重要的作用。
[0019]以对外联合建模场景为例,由于金融风控领域的数据隐私问题,导致了联合建模的双方都不能获取到对方的真实标签,因此为了实现对外联合建模,通常是一方提供特征,另一方提供标签,并在加密环境中,利用一方提供的特征和另一方提供的标签进行样本建模。而加密环境对数据大小是有限制的,由于加密环境的计算内存有限,因此只能允许利用小部分特征对模型进行训练。因此,需要从多个特征中筛选出小部分对于模型的表现影响较大的特征,以通过利用筛选出的特征对模型进行训练,提高模型的表现。其中,模型的表现,即模型在风险评估中的评估结果的准确性。
[0020]相关技术,通常使用无监督的方式,利用特征的某些特殊指标实现对特征的筛选。比如,相关技术中通常是确定各特征的覆盖率,并从各特征中筛选出覆盖率较高的特征用于进行风控模型的训练。这种方式,由于对于不同的场景,各特征的覆盖率是固定不变的,从而无法实现对于不同的场景,筛选出不同的特征。
[0021]本公开提供一种用于风险评估的、基于数据增强实现从多个候选特征中筛选出目标特征的特征筛选方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品,通过获取多个第一样本,第一样本包括多个候选特征对应的特征值,且第一样本具有对应的真实标签,获取多个第一样本分别对应的至少一个第二样本,其中,第二样本与对应的第一样本具有相同的特征值,基于多个第一样本及真实标签,生成对应第二样本的伪标签,基于多个第二样本以及伪标签,确定对应的第一样本中多个候选特征的重要度,根据重要度对多个候选特征进行筛选,以得到目标特征,实现了从多个候选特征中筛选出对风控模型表现影响较大的目标特征,从而通过利用目标特征对风控模型进行训练,能够提高风控模型的表现,并且,对于不同场景,能够筛选出适合场景的目标特征,从而通过利用更适合
场景的目标特征,对对应场景下的风控模型进行训练,能够进一步提高对应场景下的风控模型的表现。
[0022]本公开提供的特征筛选方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品,涉及人工智能
,具体为深度学习、金融风控

[0023]其中,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0024]其中,金融风控,是指金融风险管理者采用各自措施和方法,减少或消灭金融交易过程中产生的各种可能发生风险的事件,或减少风险事件造成的损失。金融风控是金融交易过程中的一个重要环节。
[0025]下面参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征筛选方法,包括:获取多个第一样本,所述第一样本包括多个候选特征对应的特征值,且所述第一样本具有对应的真实标签;获取多个所述第一样本分别对应的至少一个第二样本,其中,所述第二样本与对应的所述第一样本具有相同的特征值;基于多个所述第一样本及所述真实标签,生成对应第二样本的伪标签;基于多个所述第二样本以及所述伪标签,确定对应的第一样本中多个所述候选特征的重要度;根据所述重要度对多个所述候选特征进行筛选,以得到目标特征。2.根据权利要求1所述的方法,其中,所述基于多个所述第一样本及所述真实标签,生成对应第二样本的伪标签,包括:基于多个所述第一样本及对应的所述真实标签,确定对应第一样本生成伪标签的概率;基于多个所述第一样本生成伪标签的概率,生成对应第二样本的伪标签。3.根据权利要求2所述的方法,其中,所述基于多个所述第一样本及所述真实标签,确定对应第一样本生成伪标签的概率,包括:将多个所述第一样本划分为训练集、验证集和测试集,并确定所述训练集、所述验证集和所述测试集中所述第一样本的数量比例;采用所述训练集中多个所述第一样本包括的至少一个第一特征对应的特征值,及多个所述第一样本对应的所述真实标签,在加密环境中对第一初始模型进行训练,以得到训练后的第一目标模型,其中,所述第一特征是从多个所述候选特征中筛选出的;将多个所述第一样本分别输入所述第一目标模型,以获取对应的第一样本所属类别的置信度;根据所述训练集、验证集和测试集中任一集合包括的至少一个所述第一样本所属类别的置信度及对应的所述真实标签,分别确定所述第一目标模型对对应集合的样本所属类别的预测准确率;根据多个所述第一样本所属类别的置信度、所述预测准确率及所述数量比例,确定对应第一样本生成伪标签的概率。4.根据权利要求3所述的方法,其中,所述根据多个所述第一样本所属类别的置信度、所述预测准确率及所述数量比例,确定对应第一样本生成伪标签的概率,包括:对于所述训练集、所述验证集或所述测试集中任一集合包括的至少一个所述第一样本,将所述第一目标模型对所述集合的样本所属类别的预测准确率,作为对应集合中至少一个所述第一样本所属类别的预测准确率;根据所述集合中至少一个所述第一样本所属类别的预测准确率、所述置信度及所述数量比例,确定对应第一样本生成伪标签的概率。5.根据权利要求3所述的方法,其中,所述根据多个所述第一样本所属类别的置信度、所述预测准确率及所述数量比例,确定对应第一样本生成伪标签的概率,包括:对于多个所述第一样本,将所述第一目标模型对所述训练集的预测准确率,作为所述训练集内对应第一样本的第一预测准确率;
将所述第一目标模型对所述验证集的预测准确率,作为所述验证集内对应第一样本的第二预测准确率;将所述第一目标模型对所述测试集的预测准确率,作为所述测试集内对应第一样本的第三预测准确率;根据多个所述第一样本的所述第一预测准确率、所述第二预测准确率、所述第三预测准确率、所述置信度及所述数量比例,确定对应第一样本生成伪标签的概率。6.根据权利要求2所述的方法,其中,多个所述第一样本中第一目标样本对应多个所述第二样本;所述基于多个所述第一样本生成伪标签的概率,生成对应第二样本的伪标签,包括:分别生成所述第一目标样本对应的多个所述第二样本的随机数;其中,与同一所述第一目标样本对应的多个所述第二样本的随机数符合均匀分布;将所述第一目标样本对应的多个所述第二样本中,第二目标样本的伪标签,确定为第一伪标签,其中,所述第二目标样本对应的随机数大于目标概率,所述目标概率为所述第一目标样本生成伪标签的概率;将所述第一目标样本对应的多个所述第二样本中,第三目标样本的伪标签,确定为第二伪标签,其中,所述第三目标样本对应的随机数不大于所述目标概率。7.根据权利要求1

6任一项所述的方法,其中,所述基于多个所述第二样本以及所述伪标签,确定对应的第一样本中多个所述候选特征的重要度,包括:采用多个所述第二样本包括的多个所述候选特征对应的特征值,及多个所述第二样本的伪标签,对第二初始模型进行训练,以得到训练后的第二目标模型;其中,所述第二目标模型在训练过程中和/或训练后已学习到多个所述候选特征的重要度;将至少一个所述第二样本输入所述第二目标模型,以获取对应的第一样本中多个所述候选特征的重要度。8.一种特征筛选装置,包括:第一获取模块,用于获取多个第一样本,所述第一样本包括多个候选特征对应的特征值,且所述第一样本具有对应的真实标签;第二获取模块,用于获取多个所述第一样本分别对应的至少一个第二样本,其中,所述第二样本与对应的所述第一样本具有相同的特征值;生成模块,用于基于多个所述第一样本...

【专利技术属性】
技术研发人员:李硕张巨岩许韩晨玺许海洋岳洪达
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1