样本预测方法、装置、终端及存储介质制造方法及图纸

技术编号：36428295 阅读：14 留言：0更新日期：2023-01-20 22:39

本申请公开了一种样本预测方法、装置、终端及存储介质，方法包括：获取目标样本；基于目标样本和N个初始二分类模型，得到N个目标二分类模型；基于目标样本、N个目标二分类模型和预设的融合方法，得到融合结果；基于融合结果和预设的判断条件，确定目标样本是否为好样本。本发明专利技术引入了一种新的模型融合方法，在有放回的采样中训练多个基分类器，基分类器的打分不直接融合，而是转化为相对排序值，即打分值在全量训练样本中的正排序的均值除以全量训练样本量，多个基分类器的相对排序值取平均来作为融合模型的最终结果。在信贷风控场景中，保证融合模型不会过拟合的同时，不需要调整基分类器的权重，就能获得较好的融合效果。就能获得较好的融合效果。就能获得较好的融合效果。

全部详细技术资料下载

【技术实现步骤摘要】
样本预测方法、装置、终端及存储介质

[0001]本申请涉及信贷风控
，具体而言，涉及一种样本预测方法、装置、终端及存储介质。

技术介绍

[0002]风控是信贷业务的核心，业务实践中经常会出现样本选择性偏差(sample bias)，从而影响信贷业务。因此，在实际信贷风控场景中，好坏样本的分类尤为重要。
[0003]目前，主要采用信贷风控模型进行样本的分类，其中，信贷风控模型中的模型融合方法通常采用bagging和stacking的两种方式。其中，Stacking类方法训练较为复杂，通常使用5折交叉训练后的均值作为第二层模型训练的一个特征，而信贷建模通常为不平衡样本集，坏样本量通常远小于好样本，实际使用时最终结果容易过拟合，训练集效果和跨时间验证样本上效果差异较大。而Bagging类方法一般由于各个基分类器的输出结果的尺度可能不一样，比如基分类器1输出的最大值和最小值在0.1
‑
0.3之间，基分类器2在0.2
‑
0.6之间，直接平均可能导致融合效果一般，需要摸索调整权重才能有更好的融合效果。
[0004]但是，还没有不出现过拟合现象的同时，不需要调整基分类器的权重的信贷风控模型，就能获得较好的融合效果的样本分类方法。

技术实现思路

[0005]本申请的主要目的在于提供一种样本预测方法、装置、终端及存储介质，以解决相关技术中样本分类效果差的问题。
[0006]为了实现上述目的，第一方面，本申请提供了一种样本预测方法，包括：
[000...

【技术保护点】

【技术特征摘要】
1.一种样本预测方法，其特征在于，包括：获取目标样本，其中，所述目标样本用于表征信贷风控中的业务样本；基于所述目标样本和N个初始二分类模型，得到N个目标二分类模型，其中，所述N个初始二分类模型与所述N个目标二分类模型一一对应；基于所述目标样本、所述N个目标二分类模型和预设的融合方法，得到融合结果，其中，N为大于1的正整数；基于所述融合结果和预设的判断条件，确定所述目标样本是否为好样本。2.如权利要求1所述样本预测方法，其特征在于，所述基于所述目标样本和N个初始二分类模型，得到N个目标二分类模型，包括：采用有放回抽样对所述目标样本进行抽样，得到N个子样本集合，其中，所述N个子样本集合中的每个子样本集合的样本量相同；利用所述N个子样本集合对所述N个初始二分类模型进行训练，得到所述N个目标二分类模型，其中，所述N个子样本集合与所述N个初始二分类模型一一对应。3.如权利要求1所述样本预测方法，其特征在于，所述目标样本包括S个样本，S为大于1的正整数；所述基于所述目标样本、所述N个目标二分类模型和预设的融合方法，得到融合结果，包括：将所述S个样本输入所述N个目标二分类模型中的每个目标二分类模型中，得到所述每个目标二分类模型对应的S个样本分值；基于所述每个目标二分类模型对应的S个样本分值，确定所述每个目标二分类模型对应的S个映射值；将所述每个目标二分类模型对应的S个映射值进行汇总，得到N*S个映射值；基于所述预设的融合方法和所述N*S个映射值，得到所述S个样本中的每个子样本对应的融合结果。4.如权利要求3所述样本预测方法，其特征在于，所述基于所述每个目标二分类模型对应的S个样本分值，确定所述每个目标二分类模型对应的S个映射值，包括：将所述每个目标二分类模型对应的S个样本分值按照正向排序进行排序，得到排序后的S个样本分值，并为所述排序后的S个样本分值中的每个样本分值配置对应的排序序号；将所述每个样本分值对应的排序序号与S作商，得到每个样本分值对应的映...

【专利技术属性】
技术研发人员：曾开新，许贤铭，
申请(专利权)人：度小满科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人