基于生存分析模型扩展坏样本的拒绝推断方法及相关设备技术

技术编号：24800862 阅读：23 留言：0更新日期：2020-07-07 21:15

本发明专利技术提供一种基于生存分析模型扩展坏样本的拒绝推断方法及相关设备，基于生存分析模型扩展坏样本的拒绝推断方法包括：利用已标注的好坏样本的逾期标签，采用生存分析方法训练坏样本推断模型；利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率；根据各拒绝样本逾期超过预定天数的概率，选取部分拒绝样本作为推断坏样本；以及利用根据已标注的好坏样本、推断坏样本建立评分卡模型。本发明专利技术提供的基于生存分析模型扩展坏样本的拒绝推断方法及装置充分利用样本信息，且缓解预测模型偏差问题，提高模型效果及稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
基于生存分析模型扩展坏样本的拒绝推断方法及相关设备
本专利技术涉及计算机应用
，尤其涉及一种基于生存分析模型扩展坏样本的拒绝推断方法及相关设备。
技术介绍
近年来，得益于移动互联网和大数据技术的飞速发展，诸如云计算等云端设备服务提供或者实体设备服务提供业务也日益发展。然而设备服务使用者使用设备时的使用风险是设备服务提供方在提供设备服务前需要预测的。评分卡技术自20世纪七八十年代开始广泛使用，迄今为止已成为最广泛，发展最完善的大数据风控技术。利用评分卡技术构建评分模型能够帮助预测单个用户的风险水平，是管控风险的重要技术手段。其中，申请评分卡用于用户审批阶段，但是常见的申请评分卡仅利用审批通过的样本训练模型，而实际场景下需要对所有用户包括被拒绝用户进行风险水平评估，这就导致了模型训练和实际使用时的人群不一致，这样训练出来的模型是有偏的。拒绝推断技术研究如何有效利用被拒绝的样本数据，能够在一定程度上解决模型有偏问题。开发申请评分卡时需要利用拒绝推断技术，在审批策略增加新规则的同时，也优化了历史准确率不高的弱规则，保证业务能够稳健快速发展。目前，开发评分卡模型，目标变量通常为二分类变量，即将一定时期内逾期超过一定天数的人作为坏样本，完全无逾期或轻度逾期的人作为好样本，剩余的定义为灰色，不作为样本参与建模。事实上，样本的逾期时长具有重要的建模意义，简单地凭借经验将样本进行二分损失了大量的信息。但是现有的拒绝推断技术依旧没能跳出“二分”的框架，样本信息利用不够充分。通常情况下，开发申请评分卡的时候定义接近真...

【技术保护点】
1.一种基于生存分析模型扩展坏样本的拒绝推断方法，其特征在于，包括：/n利用已标注的好坏样本的逾期标签，采用生存分析方法训练坏样本推断模型；/n利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率；/n根据各拒绝样本逾期超过预定天数的概率，选取部分拒绝样本作为推断坏样本；以及/n利用根据已标注的好坏样本、推断坏样本建立评分卡模型。/n

【技术特征摘要】
1.一种基于生存分析模型扩展坏样本的拒绝推断方法，其特征在于，包括：
利用已标注的好坏样本的逾期标签，采用生存分析方法训练坏样本推断模型；
利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率；
根据各拒绝样本逾期超过预定天数的概率，选取部分拒绝样本作为推断坏样本；以及
利用根据已标注的好坏样本、推断坏样本建立评分卡模型。

2.如权利要求1所述的基于生存分析模型扩展坏样本的拒绝推断方法，其特征在于，根据各拒绝样本逾期超过预定天数的概率，选取部分拒绝样本作为推断坏样本之后还包括：
计算推断坏样本的权重；
对应地，所述评分卡模型还依据所述推断坏样本的权重建立。

3.如权利要求2所述的基于生存分析模型扩展坏样本的拒绝推断方法，其特征在于，所述推断坏样本的权重w根据如下公式计算：

其中，p为推断坏样本的数量与拒绝样本的数量之比，D0为已标注的坏样本的数量，x为推断坏样本的数量。

4.如权利要求1所述的基于生存分析模型扩展坏样本的拒绝推断方法，其特征在于，所述根据各拒绝样本逾期超过预定天数的概率，选取部分拒绝样本作为推断坏样本包括：
判断预定比例的拒绝样本的数量是否大于已标注的坏样本的数量；
若否，则选取预定比例的拒绝样本作为推断坏样本；
若是，则按已标注的坏样本的数量自拒绝样本中选取推断坏样本。

5.如权利要求3所述的基于生存分析模型扩展坏样本的拒绝推断方法，其特征在于，所述预定比例为10％至60％。

6.如...

【专利技术属性】
技术研发人员：王云清，付宇，
申请(专利权)人：上海携程商务有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人