基于神经网络模型的分箱方法、装置及电子设备制造方法及图纸

技术编号：33418434 阅读：19 留言：0更新日期：2022-05-19 00:11

本申请提供了一种基于神经网络模型的分箱方法、装置、电子设备及计算机可读存储介质；所述方法包括：获取神经网络模型的样本集；对样本集中的多个特征样本进行样本分箱处理，得到包括至少两个样本分箱的分箱序列；分别确定各样本分箱的证据权重(WOE，weight of evidence)；基于各样本分箱的证据权重，从分箱序列中提取呈单调关系的最长单调序列，最长单调序列包括至少两个样本分箱；基于最长单调序列，对至少两个样本分箱中未处于最长单调序列的样本分箱进行合并，得到至少两个目标分箱。通过本申请，能够得到显著提升神经网络模型的鲁棒性和可解释性的分箱。鲁棒性和可解释性的分箱。鲁棒性和可解释性的分箱。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络模型的分箱方法、装置及电子设备

[0001]本申请涉及数据处理技术，尤其涉及一种基于神经网络模型的分箱方法、装置及电子设备。

技术介绍

[0002]分箱是一种对多个数据进行分组的技术，每个分组可以称之为一个分箱。在机器学习领域中，通过对连续型的特征进行分箱处理，可以将特征离散化，从而使得基于该离散化的特征进行模型训练时，能够加快模型的迭代，有效增强了模型的鲁棒性和可解释性。
[0003]相关技术中采用等距分箱、等频分箱等分箱方法进行数据的分箱处理，然而，采用这些分箱方式得到的分箱，无法有效提升训练得到的模型的鲁棒性和可解释性。

技术实现思路

[0004]本申请实施例提供一种基于神经网络模型的分箱方法、装置、电子设备及存储介质，能够得到显著提升神经网络模型的鲁棒性和可解释性的分箱。
[0005]本申请实施例的技术方案是这样实现的：
[0006]本申请实施例提供一种基于神经网络模型的分箱方法，包括：
[0007]获取神经网络模型的样本集；
[0008]对所述样本集中的多个特征样本进行样本分箱处理，得到包括至少两个样本分箱的分箱序列；
[0009]分别确定各所述样本分箱的证据权重；
[0010]基于各所述样本分箱的证据权重，从所述分箱序列中提取呈单调关系的最长单调序列，所述最长单调序列包括至少两个样本分箱；
[0011]基于所述最长单调序列，对所述至少两个样本分箱中未处于所述最长单调序列的样本分箱进行合并，得到至少两个目标分箱。r/>[0012]本申请实施例提供一种基于神经网络模型的分箱装置，包括：
[0013]获取模块，用于获取神经网络模型的样本集；
[0014]分箱处理模块，用于对所述样本集中的多个特征样本进行样本分箱处理，得到包括至少两个样本分箱的分箱序列；
[0015]证据权重确定模块，用于分别确定各所述样本分箱的证据权重；
[0016]提取模块，用于基于各所述样本分箱的证据权重，从所述分箱序列中提取呈单调关系的最长单调序列，所述最长单调序列包括至少两个样本分箱；
[0017]合并模块，用于基于所述最长单调序列，对所述至少两个样本分箱中未处于所述最长单调序列的样本分箱进行合并，得到至少两个目标分箱。
[0018]上述方案中，所述合并模块，还用于确定所述分箱序列中未处于所述最长单调序列中的至少一个子序列，所述子序列包括至少一个样本分箱；分别将所述至少一个子序列中的样本分箱进行合并，得到至少一个合并分箱；基于所述最长单调序列，对所述至少一个
合并分箱进行合并，得到至少两个目标分箱。
[0019]上述方案中，所述合并模块，还用于针对各所述合并分箱执行以下处理：获取所述最长单调序列中与所述合并分箱相邻且证据权重差值最小的样本分箱；将所述合并分箱与所述相邻且证据权重差值最小的样本分箱进行合并，以得到所述至少两个目标分箱。
[0020]上述方案中，所述基于神经网络模型的分箱装置，还包括：确定最长单调序列模块，用于分别确定所述至少一个合并分箱的证据权重；基于所述最长单调序列中各样本分箱的证据权重和各所述合并分箱的证据权重，重新确定最长单调序列；相应的，所述合并模块，还用于基于重新确定的最长单调序列，对所述至少一个合并分箱进行合并，得到至少两个目标分箱。
[0021]上述方案中，所述合并模块，还用于分别将所述至少一个合并分箱与所述最长单调序列中的样本分箱进行合并，得到合并分箱序列，所述合并分箱序列包括至少两个合并后的样本分箱；分别确定所述合并分箱序列中的样本分箱的证据权重；基于所述合并分箱序列中样本分箱的证据权重，确定所述合并分箱序列未呈单调关系时，重新确定最长单调序列；基于重新确定的最长单调序列，对未处于重新确定的最长单调序列中的样本分箱进行合并，得到所述至少两个目标分箱。
[0022]上述方案中，所述合并模块，还用于将未处于重新确定的最长单调序列中的样本分箱与处于重新确定的最长单调序列中的样本分箱进行合并，得到新的合并分箱序列；针对新的合并分箱序列，返回所述分别确定所述合并分箱序列中的样本分箱的证据权重的步骤，直至合并分箱序列呈单调关系，得到所述至少两个目标分箱。
[0023]上述方案中，所述合并模块，还用于基于所述合并分箱序列中样本分箱的证据权重，确定所述合并分箱序列呈单调关系时，将所述合并分箱序列中的样本分箱作为目标分箱，得到所述至少两个目标分箱。
[0024]上述方案中，所述样本集中的特征样本包括样本特征；所述基于神经网络模型的分箱装置，还包括：排序模块，用于基于所述样本集中各特征样本所包括的样本特征，对所述多个特征样本进行排序，得到特征样本序列；相应的，所述分箱处理模块，还用于对所述特征样本序列中的多个特征样本进行样本分箱处理。
[0025]本申请实施例提供一种电子设备，包括：
[0026]存储器，用于存储可执行指令；
[0027]处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于神经网络模型的分箱方法。
[0028]本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于神经网络模型的分箱方法。
[0029]本申请实施例具有以下有益效果：
[0030]与相关技术中采用等距分箱或等频分箱等分箱方法进行分箱处理的方式相比，本申请实施例通过从对样本集进行分箱处理得到的分箱序列中提取呈单调关系的最长单调序列，并对未处于最长单调序列中的样本分箱进行合并，以得到呈单调关系的多个目标分箱，使得合并分箱的操作围绕最长单调序列进行，能够更大程度的保留处于最长单调序列中的分箱，并减少了对分箱进行合并的操作，从而更大限度的保留了更多数量的呈单调关系的分箱，使得基于本申请实施例得到的目标分箱训练后的神经网络模型的鲁棒性和可解
释性等模型效果显著提升，克服了相关技术所采用的分箱处理方式得到的分箱对模型效果的提升有限的缺陷。
附图说明
[0031]图1是本申请实施例提供的基于神经网络模型的分箱系统的一个可选的结构示意图；
[0032]图2是本申请实施例提供的电子设备的一个可选的结构示意图；
[0033]图3是本申请实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图；
[0034]图4A是本申请实施例提供的分箱序列的一个可选的示意图；
[0035]图4B是本申请实施例提供的对子序列进行合并后的分箱序列的一个可选的示意图；
[0036]图4C是本申请实施例提供的对合并分箱进行合并后的分箱序列的一个可选的示意图；
[0037]图4D是本申请实施例提供的基于重新确定的最长单调序列对合并分箱进行合并后的分箱序列的一个可选的示意图；
[0038]图5是本申请实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图；
[0039]图6是本申请实施例提供的基于神经网络模型的分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络模型的分箱方法，其特征在于，包括：获取神经网络模型的样本集；对所述样本集中的多个特征样本进行样本分箱处理，得到包括至少两个样本分箱的分箱序列；分别确定各所述样本分箱的证据权重；基于各所述样本分箱的证据权重，从所述分箱序列中提取呈单调关系的最长单调序列，所述最长单调序列包括至少两个样本分箱；基于所述最长单调序列，对所述至少两个样本分箱中未处于所述最长单调序列的样本分箱进行合并，得到至少两个目标分箱。2.根据权利要求1所述的方法，其特征在于，所述基于所述最长单调序列，对所述至少两个样本分箱中未处于所述最长单调序列的样本分箱进行合并，得到至少两个目标分箱，包括：确定所述分箱序列中未处于所述最长单调序列中的至少一个子序列，所述子序列包括至少一个样本分箱；分别将所述至少一个子序列中的样本分箱进行合并，得到至少一个合并分箱；基于所述最长单调序列，对所述至少一个合并分箱进行合并，得到至少两个目标分箱。3.根据权利要求2所述的方法，其特征在于，所述基于所述最长单调序列，对所述至少一个合并分箱进行合并，得到至少两个目标分箱，包括：针对各所述合并分箱执行以下处理：获取所述最长单调序列中与所述合并分箱相邻且证据权重差值最小的样本分箱；将所述合并分箱与所述相邻且证据权重差值最小的样本分箱进行合并，以得到所述至少两个目标分箱。4.根据权利要求2所述的方法，其特征在于，所述基于所述最长单调序列，对所述至少一个合并分箱进行合并，得到至少两个目标分箱之前，所述方法还包括：分别确定所述至少一个合并分箱的证据权重；基于所述最长单调序列中各样本分箱的证据权重和各所述合并分箱的证据权重，重新确定最长单调序列；相应的，所述基于所述最长单调序列，对所述至少一个合并分箱进行合并，得到至少两个目标分箱，包括：基于重新确定的最长单调序列，对所述至少一个合并分箱进行合并，得到至少两个目标分箱。5.根据权利要求2所述的方法，其特征在于，所述基于所述最长单调序列，对所述至少一个合并分箱进行合并，得到至少两个目标分箱，包括：分别将所述至少一个合并分箱与所述最长单调序列中的样本分箱进行合并，得到合并分箱序列，所述合并分箱序列包括至少两个合并后的样本分箱；分别确定所述合并分箱序列中的样本分箱的证据权重；基于所述合并分箱序列中样本分箱的证据权重，确定所述合并分箱序列未呈单调关系时，重新确定最长单调序列；基于重新确定的最长单调序列，对未处于重新确定的最长单调序列中的样本分箱进行
合并，得到所述至少两个目标分箱。6.根据权利要求5所述的方法，其特征在于，所述基于重新确定的最长单调序列，对未处于重新确定的最长单调序列中的样本分箱进行合并，得到所述至少两个目标分箱，包括：将未处于重新确定的最长单调序列中的样本分箱与处于重新确定的最长单调序列中的样本分箱进行合并，得到新的合并分箱序列；针对新的合并分箱序列，返回所述分别确定所述合并分箱序列中的样本分...

【专利技术属性】
技术研发人员：陈瑞钦，黄启军，李诗琦，唐兴兴，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人