样本预测方法、装置、终端及存储介质制造方法及图纸

技术编号:36428295 阅读:14 留言:0更新日期:2023-01-20 22:39
本申请公开了一种样本预测方法、装置、终端及存储介质,方法包括:获取目标样本;基于目标样本和N个初始二分类模型,得到N个目标二分类模型;基于目标样本、N个目标二分类模型和预设的融合方法,得到融合结果;基于融合结果和预设的判断条件,确定目标样本是否为好样本。本发明专利技术引入了一种新的模型融合方法,在有放回的采样中训练多个基分类器,基分类器的打分不直接融合,而是转化为相对排序值,即打分值在全量训练样本中的正排序的均值除以全量训练样本量,多个基分类器的相对排序值取平均来作为融合模型的最终结果。在信贷风控场景中,保证融合模型不会过拟合的同时,不需要调整基分类器的权重,就能获得较好的融合效果。就能获得较好的融合效果。就能获得较好的融合效果。

【技术实现步骤摘要】
样本预测方法、装置、终端及存储介质


[0001]本申请涉及信贷风控
,具体而言,涉及一种样本预测方法、装置、终端及存储介质。

技术介绍

[0002]风控是信贷业务的核心,业务实践中经常会出现样本选择性偏差(sample bias),从而影响信贷业务。因此,在实际信贷风控场景中,好坏样本的分类尤为重要。
[0003]目前,主要采用信贷风控模型进行样本的分类,其中,信贷风控模型中的模型融合方法通常采用bagging和stacking的两种方式。其中,Stacking类方法训练较为复杂,通常使用5折交叉训练后的均值作为第二层模型训练的一个特征,而信贷建模通常为不平衡样本集,坏样本量通常远小于好样本,实际使用时最终结果容易过拟合,训练集效果和跨时间验证样本上效果差异较大。而Bagging类方法一般由于各个基分类器的输出结果的尺度可能不一样,比如基分类器1输出的最大值和最小值在0.1

0.3之间,基分类器2在0.2

0.6之间,直接平均可能导致融合效果一般,需要摸索调整权重才能有更好的融合效果。
[0004]但是,还没有不出现过拟合现象的同时,不需要调整基分类器的权重的信贷风控模型,就能获得较好的融合效果的样本分类方法。

技术实现思路

[0005]本申请的主要目的在于提供一种样本预测方法、装置、终端及存储介质,以解决相关技术中样本分类效果差的问题。
[0006]为了实现上述目的,第一方面,本申请提供了一种样本预测方法,包括:
[0007]获取目标样本,其中,目标样本用于表征信贷风控中的业务样本;
[0008]基于目标样本和N个初始二分类模型,得到N个目标二分类模型,其中,N个初始二分类模型与N个目标二分类模型一一对应;
[0009]基于目标样本、N个目标二分类模型和预设的融合方法,得到融合结果,其中,N为大于1的正整数;
[0010]基于融合结果和预设的判断条件,确定目标样本是否为好样本。
[0011]在一种可能的实现方式中,基于目标样本和N个初始二分类模型,得到N个目标二分类模型,包括:
[0012]采用有放回抽样对目标样本进行抽样,得到N个子样本集合,其中,N个子样本集合中的每个子样本集合的样本量相同;
[0013]利用N个子样本集合对N个初始二分类模型进行训练,得到N个目标二分类模型,其中,N个子样本集合与N个初始二分类模型一一对应。
[0014]在一种可能的实现方式中,目标样本包括S个样本,S为大于1的正整数;
[0015]基于目标样本、N个目标二分类模型和预设的融合方法,得到融合结果,包括:
[0016]将S个样本输入N个目标二分类模型中的每个目标二分类模型中,得到每个目标二
分类模型对应的S个样本分值;
[0017]基于每个目标二分类模型对应的S个样本分值,确定每个目标二分类模型对应的S个映射值;
[0018]将每个目标二分类模型对应的S个映射值进行汇总,得到N*S个映射值;
[0019]基于预设的融合方法和N*S个映射值,得到S个样本中的每个样本对应的融合结果。
[0020]在一种可能的实现方式中,基于每个目标二分类模型对应的S个样本分值,确定每个目标二分类模型对应的S个映射值,包括:
[0021]将每个目标二分类模型对应的S个样本分值按照正向排序进行排序,得到排序后的S个样本分值,并为排序后的S个样本分值中的每个样本分值配置对应的排序序号;
[0022]将每个样本分值对应的排序序号与S作商,得到每个样本分值对应的映射值;
[0023]将每个样本分值对应的映射值进行汇总,得到每个目标二分类模型对应的S个映射值。
[0024]在一种可能的实现方式中,基于预设的融合方法和N*S个映射值,得到S个子样本中的每个样本对应的融合结果,包括:
[0025]针对每个样本,从N*S个映射值中选取与每个样本对应的N个映射值;
[0026]计算N个映射值的均值,得到S个样本中的每个样本对应的融合结果。
[0027]在一种可能的实现方式中,计算N个映射值的均值,得到S个样本中的每个样本对应的融合结果,包括:
[0028]对N个映射值进行和处理,得到总映射值;
[0029]将总映射值与N作商,得到S个样本中的每个样本对应的融合结果。
[0030]在一种可能的实现方式中,基于融合结果和预设的判断条件,确定目标样本是否为好样本,包括:
[0031]获取预设的标准值;
[0032]若融合结果与预设的标准值的差值小于或等于预设阈值,目标样本为好样本。
[0033]第二方面,本专利技术实施例提供了一种样本预测装置,包括:
[0034]样本获取模块,用于获取目标样本,其中,目标样本用于表征信贷风控中的业务样本;
[0035]模型训练模型,用于基于目标样本和N个初始二分类模型,得到N个目标二分类模型,其中,N个初始二分类模型与N个目标二分类模型一一对应;
[0036]融合模块,用于基于目标样本、N个目标二分类模型和预设的融合方法,得到融合结果,其中,N为大于1的正整数;
[0037]判断模块,用于基于融合结果和预设的判断条件,确定目标样本是否为好样本。
[0038]第三方面,本专利技术实施例提供了一种终端,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上任一种样本预测方法的步骤。
[0039]第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上任一种样本预测方法的步骤。
[0040]本专利技术实施例提供了一种样本预测方法、装置、终端及存储介质,包括:获取目标
样本,先基于目标样本和N个初始二分类模型,得到N个目标二分类模型,然后基于目标样本、N个目标二分类模型和预设的融合方法,得到融合结果,再基于融合结果和预设的判断条件,确定目标样本是否为好样本。本专利技术引入了一种新的模型融合方法,在有放回的采样中训练多个基分类器,基分类器的打分不直接融合,而是转化为相对排序值,即打分值在全量训练样本中的正排序的均值除以全量训练样本量,多个基分类器的相对排序值取平均来作为融合模型的最终结果。在信贷风控场景中,保证融合模型不会过拟合的同时,不需要调整基分类器的权重,就能获得较好的融合效果。
附图说明
[0041]构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0042]图1是本专利技术实施例提供的一种样本预测方法的实现流程图;
[0043]图2是本专利技术实施例提供的另一种样本预测方法的实现流程图;
[0044]图3是本专利技术实施例提供的一种样本预测装置的结构示意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本预测方法,其特征在于,包括:获取目标样本,其中,所述目标样本用于表征信贷风控中的业务样本;基于所述目标样本和N个初始二分类模型,得到N个目标二分类模型,其中,所述N个初始二分类模型与所述N个目标二分类模型一一对应;基于所述目标样本、所述N个目标二分类模型和预设的融合方法,得到融合结果,其中,N为大于1的正整数;基于所述融合结果和预设的判断条件,确定所述目标样本是否为好样本。2.如权利要求1所述样本预测方法,其特征在于,所述基于所述目标样本和N个初始二分类模型,得到N个目标二分类模型,包括:采用有放回抽样对所述目标样本进行抽样,得到N个子样本集合,其中,所述N个子样本集合中的每个子样本集合的样本量相同;利用所述N个子样本集合对所述N个初始二分类模型进行训练,得到所述N个目标二分类模型,其中,所述N个子样本集合与所述N个初始二分类模型一一对应。3.如权利要求1所述样本预测方法,其特征在于,所述目标样本包括S个样本,S为大于1的正整数;所述基于所述目标样本、所述N个目标二分类模型和预设的融合方法,得到融合结果,包括:将所述S个样本输入所述N个目标二分类模型中的每个目标二分类模型中,得到所述每个目标二分类模型对应的S个样本分值;基于所述每个目标二分类模型对应的S个样本分值,确定所述每个目标二分类模型对应的S个映射值;将所述每个目标二分类模型对应的S个映射值进行汇总,得到N*S个映射值;基于所述预设的融合方法和所述N*S个映射值,得到所述S个样本中的每个子样本对应的融合结果。4.如权利要求3所述样本预测方法,其特征在于,所述基于所述每个目标二分类模型对应的S个样本分值,确定所述每个目标二分类模型对应的S个映射值,包括:将所述每个目标二分类模型对应的S个样本分值按照正向排序进行排序,得到排序后的S个样本分值,并为所述排序后的S个样本分值中的每个样本分值配置对应的排序序号;将所述每个样本分值对应的排序序号与S作商,得到每个样本分值对应的映...

【专利技术属性】
技术研发人员:曾开新许贤铭
申请(专利权)人:度小满科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1