基于生存分析模型扩展坏样本的拒绝推断方法及相关设备技术

技术编号:24800862 阅读:23 留言:0更新日期:2020-07-07 21:15
本发明专利技术提供一种基于生存分析模型扩展坏样本的拒绝推断方法及相关设备,基于生存分析模型扩展坏样本的拒绝推断方法包括:利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率;根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;以及利用根据已标注的好坏样本、推断坏样本建立评分卡模型。本发明专利技术提供的基于生存分析模型扩展坏样本的拒绝推断方法及装置充分利用样本信息,且缓解预测模型偏差问题,提高模型效果及稳定性。

【技术实现步骤摘要】
基于生存分析模型扩展坏样本的拒绝推断方法及相关设备
本专利技术涉及计算机应用
,尤其涉及一种基于生存分析模型扩展坏样本的拒绝推断方法及相关设备。
技术介绍
近年来,得益于移动互联网和大数据技术的飞速发展,诸如云计算等云端设备服务提供或者实体设备服务提供业务也日益发展。然而设备服务使用者使用设备时的使用风险是设备服务提供方在提供设备服务前需要预测的。评分卡技术自20世纪七八十年代开始广泛使用,迄今为止已成为最广泛,发展最完善的大数据风控技术。利用评分卡技术构建评分模型能够帮助预测单个用户的风险水平,是管控风险的重要技术手段。其中,申请评分卡用于用户审批阶段,但是常见的申请评分卡仅利用审批通过的样本训练模型,而实际场景下需要对所有用户包括被拒绝用户进行风险水平评估,这就导致了模型训练和实际使用时的人群不一致,这样训练出来的模型是有偏的。拒绝推断技术研究如何有效利用被拒绝的样本数据,能够在一定程度上解决模型有偏问题。开发申请评分卡时需要利用拒绝推断技术,在审批策略增加新规则的同时,也优化了历史准确率不高的弱规则,保证业务能够稳健快速发展。目前,开发评分卡模型,目标变量通常为二分类变量,即将一定时期内逾期超过一定天数的人作为坏样本,完全无逾期或轻度逾期的人作为好样本,剩余的定义为灰色,不作为样本参与建模。事实上,样本的逾期时长具有重要的建模意义,简单地凭借经验将样本进行二分损失了大量的信息。但是现有的拒绝推断技术依旧没能跳出“二分”的框架,样本信息利用不够充分。通常情况下,开发申请评分卡的时候定义接近真实坏样本的目标变量,比如MOB6(用户授信成功后6个月)内是否出现30天以上的逾期。现有的拒绝推断技术完全利用二分类算法,基于二分类的算法推断样本的权重,推断拒绝样本为坏样本等然后再构建接近全样本的评分卡模型。另外二分类算法会排除灰色样本的干扰,在限定MOB6下,会存在一定量样本表现时间不够长,逾期1至30天的样本,一定比例的样本回迁移到M2(逾期31至60天的样本)。由此可见,现有技术中,对于设备服务使用者使用设备时的使用风险的预测中,并未充分利用样本信息,且预测模型存在偏差,模型效果及稳定性难以提高。
技术实现思路
本专利技术为了克服上述现有技术存在的缺陷,提供一种基于生存分析模型扩展坏样本的拒绝推断方法及相关设备,以解决或缓解上述现有技术存在的缺陷。根据本专利技术的一个方面,提供一种基于生存分析模型扩展坏样本的拒绝推断方法,包括:利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率;根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;以及利用根据已标注的好坏样本、推断坏样本建立评分卡模型。在本专利技术的一些实施例中,根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本之后还包括:计算推断坏样本的权重;对应地,所述评分卡模型还依据所述推断坏样本的权重建立。在本专利技术的一些实施例中,所述推断坏样本的权重w根据如下公式计算:其中,p为推断坏样本的数量与拒绝样本的数量之比,D0为已标注的坏样本的数量,x为推断坏样本的数量。在本专利技术的一些实施例中,所述根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本包括:判断预定比例的拒绝样本的数量是否大于已标注的坏样本的数量;若否,则选取预定比例的拒绝样本作为推断坏样本;若是,则按已标注的坏样本的数量自拒绝样本中选取推断坏样本。在本专利技术的一些实施例中,所述预定比例为10%至60%。在本专利技术的一些实施例中,所述评分卡模型采用二分类算法建立,所述二分类算法包括XGBoost算法和/或逻辑回归算法。在本专利技术的一些实施例中,所述生存分析方法为比例风险回归模型。在本专利技术的一些实施例中,所述评分卡模型用于预测设备服务使用方的风险评分,所述好坏样本基于设备服务使用方使用设备服务的设备参数标注,所述拒绝样本为被拒绝提供设备服务的用户样本。根据本专利技术的又一方面,还提供一种基于生存分析模型扩展坏样本的拒绝推断装置,包括:训练模块,用于利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;概率预测模块,用于利用所述坏样本推断模型预测各拒绝样本的于预定时间段后的生成概率;选取模块,用于根据各拒绝样本的逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;建立模块,用于利用根据已标注的好坏样本、推断坏样本建立评分卡模型。根据本专利技术的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述基于生存分析模型扩展坏样本的拒绝推断方法的步骤。根据本专利技术的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述基于生存分析模型扩展坏样本的拒绝推断方法的步骤。相比现有技术,本专利技术的优势在于:在设备服务使用者使用设备时的使用风险的预测中,充分利用样本信息,且缓解预测模型偏差问题,提高模型效果及稳定性。附图说明通过参照附图详细描述其示例实施方式,本专利技术的上述和其它特征及优点将变得更加明显。图1示出了根据本专利技术实施例的基于生存分析模型扩展坏样本的拒绝推断方法的流程图。图2示出了根据本专利技术具体实施例的推断坏样本选取的流程图。图3示出了根据本专利技术实施例的基于生存分析模型扩展坏样本的拒绝推断装置的示意图。图4示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。图5示意性示出本公开示例性实施例中一种电子设备示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。为了解决现有技术的缺陷,为了在设备服务使用者使用设备时的使用风险的预测中,充分利用样本信息,且缓解预测模型偏差问题,提高模型效果及稳定性,本专利技术提供一种基于生存分析模型扩展坏样本的拒绝推断方法、装置、电子设备、存储介质。首先参见图1,图1示出了根据本专利技术实施例的基于生存分析模型扩展坏样本的拒绝推断方法的示意图。基于生存分析本文档来自技高网
...

【技术保护点】
1.一种基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,包括:/n利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;/n利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率;/n根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;以及/n利用根据已标注的好坏样本、推断坏样本建立评分卡模型。/n

【技术特征摘要】
1.一种基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,包括:
利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;
利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率;
根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;以及
利用根据已标注的好坏样本、推断坏样本建立评分卡模型。


2.如权利要求1所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本之后还包括:
计算推断坏样本的权重;
对应地,所述评分卡模型还依据所述推断坏样本的权重建立。


3.如权利要求2所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,所述推断坏样本的权重w根据如下公式计算:



其中,p为推断坏样本的数量与拒绝样本的数量之比,D0为已标注的坏样本的数量,x为推断坏样本的数量。


4.如权利要求1所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,所述根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本包括:
判断预定比例的拒绝样本的数量是否大于已标注的坏样本的数量;
若否,则选取预定比例的拒绝样本作为推断坏样本;
若是,则按已标注的坏样本的数量自拒绝样本中选取推断坏样本。


5.如权利要求3所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,所述预定比例为10%至60%。


6.如...

【专利技术属性】
技术研发人员:王云清付宇
申请(专利权)人:上海携程商务有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1