基于增强隔离森林的信用数据异常检测方法技术

技术编号:34031782 阅读:24 留言:0更新日期:2022-07-06 11:18
本发明专利技术公开了基于增强隔离森林的信用数据异常检测方法,采用EIF模型对信用评估模型做出优化,EIF模型使用EasyEnsemble算法的思想构建平衡数据集,利用平衡数据集训练隔离森林模型进行异常点检测,将检测中得到的异常点作为异常数据处理,在UCI的German数据集上根据相关系数进行伪造,构建含伪造数据的测试集,使用EIF模型与其他异常点检测方法进行对比,在常见的信用评估模型上实验测试,结果表明EIF模型优化后的信用评估在F1分数与代价敏感错误率上均有较好表现。感错误率上均有较好表现。感错误率上均有较好表现。

Credit data anomaly detection method based on enhanced isolated forest

【技术实现步骤摘要】
基于增强隔离森林的信用数据异常检测方法


[0001]本专利技术涉及数据处理
,特别涉及基于增强隔离森林的信用数据异常检测方法。

技术介绍

[0002]经济高速发展推动了社会大众的消费观念不断改变,提前消费、预付消费等消费形式也因此催动了信贷行业的快速发展。信贷业务的核心,就是使用信用评价技术对客户的信用进行可靠地评估,对业务中产生的风险进行控制。在信用评估的过程中,虽然各机构根据收集到的数据能够对客户信用进行准确的评价,但是信用的评估仍然基于大量可信数据。如果存在虚假、错误异常数据会对信用评估产生巨大影响。因此检测处理异常数据,成为信用评估技术中关注的重点。
[0003]信用评估的原理是根据被评价个体的各项信息数据建立信用评估模型,找到信用良好与不良的个体特征,根据该模型对未来客户的信用进行评估。最初的信用评估工作大量基于从业人员的自身经验对客户信用进行评估,成本高,不利于大规模使用。于是伴随大数据技术的发展,机器学习方法更多被应用于信用评估工作,但因为信用评估工作的严肃性,多数采用有较强可解释性的模型。使用线型判别分析(linear discriminant analysis,LDA)和逻辑回归(logistic regression,LR)模型进行信用评估工作,并解释了由于简单易用且具有较强的可解释性,这两种模型在银行信用评估工作中得到广泛应用;研究针对小微企业的信用风险,使用了随机森林(Random Forest,RF) 模型进行信用评估,对有数据缺失的样本进行了多维度分析。此类模型还有决策树(decision tree,DT)、朴素贝叶斯(naive Bayes,NB)、支持向量机 (support vector machine,SVM)等。神经网络(neural network)也在信用评估方面取得较好的结果,但是因为神经网络模型可解释性较差,并没有广泛实际应用。
[0004]异常点检测(Anomaly Detection),也有文献称为离群点检测(OutlierDetection)。异常点检测方法假设异常点的某种特征与正常点不同,作为判断指标检测异常点。基于距离的异常点检测算法假设正常点分布密集,异常点分布稀疏,通过样本与近邻点之间的距离计算各种指标作为判断指标来检测样本是否异常点,使用KNN方法对网络行为进行异常检测预处理,得到高质量的数据集供给传统模型训练。基于密度的算法是基于距离的算法的变种,计算样本与近邻点的密度差别判断是否属于异常点,对具有代表性的基于距离与密度的异常点检测方法性能进行综合比较,基于局部密度的LOF(LocalOutlier Factor)算法在此类算法中具有最好的性能。基于分类的算法则使用传统分类模型,正常数据训练一个单分类模型,将不属于正常类的判断为异常点。隔离森林(isolation forest,iForest)算法随机选取属性与数值递归划分数据集构建树结构,异常点更有可能被隔离在靠近树根部的地方,正常点则在隔离树的更深处。隔离森林具有线性时间复杂度,计算不受样本维数的影响,在中高维度的表现优秀。
[0005]信用数据在具体使用中存在两种问题:一方面,由于信贷行业在业务过程中会进
行人工筛选,明显信用评价低、信用不良的样本会被拒绝,导致不良样本相对较少,同时也导致对信用不良的特征描述不够全面,产生了标签不均衡问题。另一方面,实际工作中将信用不良样本误判为信用良好样本产生的损失远大于将信用良好样本判断为信用不良样本,产生了代价不均衡问题。样本标签不均衡问题通常使用采样方法解决:欠采样方法对多数样本随机丢弃,可能存在重要特征丢失的情况;过采样方法对少数类样本多次复制采样,会导致过拟合。

技术实现思路

[0006]本专利技术的目的在于提供基于增强隔离森林的信用数据异常检测方法,利用各属性与信用的相关性,生成能够欺骗信用评估模型的异常样本点,使用这些异常样本点模拟现实工作中存在的虚假、错误样本。在异常点检测中,使用EasyEnsemble思想,构造了平衡数据集;使用平衡数据集通过训练样本扰动与输入属性扰动方法训练得到更优秀的iForest模型,称为EIF模型,对新产生的伪造的信用数据进行检测,提高了传统信用评估模型的性能,可以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:
[0008]基于增强隔离森林的信用数据异常检测方法,包括如下步骤:
[0009]步骤1、构建EIF模型:
[0010]A.输入样本扰动:将整个训练集分为多数类集N与少数类集P,从N 中随机抽取与P中样本数相同数量的样本,与P一起构成平衡训练集D,独立重复进行k次,就得到了k个平衡训练集用于训练。这样既避免了对多数类欠采样导致的特征缺失,也能保证样本标签平衡,基分类器能够更好学习到少数类样本的特征;
[0011]B.输入属性扰动:在每棵隔离树训练过程中,不使用全部属性的训练集,只使用随机抽取的部分属性完成一次训练,输入属性扰动在保证每棵隔离树性能下,尽量构建分类依据不同的隔离树,增强集成后隔离森林的性能;
[0012]步骤2、异常样本生成:
[0013]使用属性与信用间相关性模拟针对信用评估时的刻意造假,对测试数据集进行伪造,筛选对信用评价影响大的属性,根据属性与信用的线性关系调整样本的值,用简单模型确认会发生误判情况;
[0014]步骤3、EIF模型异常检测
[0015]含有EIF模型的信用评估将含数据集首先通过EIF模型判断是否存在异常,判断为正常的样本进入下一步信用评估模型,检测结果为异常的样本的被标记为信用不良。
[0016]进一步地,步骤2中异常样本生成的过程如下:
[0017]测试集伪造后产生信用不良样本和信用良好样本,信用不良样本产生后修改特征,并进行简单判别模型,得到伪造样本,最后得到伪造数据集。
[0018]进一步地,步骤2中计算数据集的各属性{A1,A2,

,A
n
}与信用C之间的皮尔逊相关系数,如下式:
[0019][0020]根据各属性相关系数生成伪造方式字典作为伪造规则,C=0代表信用良好, C=1
代表信用不良时,伪造字典F={f1,f2,

,f
n
}生成规则如下式:
[0021][0022]随机抽取一定量的信用不良样本,对抽取得到的每一个样本随机选择k 个属性,根据伪造方式字典对这k个属性的值进行更新,最后使用以全体训练集预先训练好的判别模型对伪造后的样本进行预测,预测结果信用良好的样本视为伪造成功,对测试集中伪造成功的样本进行修改,得到含伪造样本的数据集。
[0023]进一步地,步骤2的数据集为UCI公开数据库中的German数据集,描述了1000条贷款申请记录,700条为“信用良好”样本,300条为“信用不良”样本。
[0024]进一步地,数据集的原始数据由19条不同属性表示,使用独热编码给出数值化后的german...

【技术保护点】

【技术特征摘要】
1.基于增强隔离森林的信用数据异常检测方法,其特征在于,包括如下步骤:步骤1、构建EIF模型:A.输入样本扰动:将整个训练集分为多数类集N与少数类集P,从N中随机抽取与P中样本数相同数量的样本,与P一起构成平衡训练集D,独立重复进行k次,得到k个平衡训练集用于训练;B.输入属性扰动:在每棵隔离树训练过程中,不使用全部属性的训练集,只使用随机抽取的部分属性完成一次训练,输入属性扰动在保证每棵隔离树性能下,构建分类依据不同的隔离树;步骤2、异常样本生成:使用属性与信用间相关性模拟针对信用评估时的刻意造假,对测试数据集进行伪造,筛选对信用评价影响大的属性,根据属性与信用的线性关系调整样本的值,用简单模型确认会发生误判情况;步骤3、EIF模型异常检测含有EIF模型的信用评估将含数据集首先通过EIF模型判断是否存在异常,判断为正常的样本进入下一步信用评估模型,检测结果为异常的样本的被标记为信用不良。2.如权利要求1所述的基于增强隔离森林的信用数据异常检测方法,其特征在于,步骤2中异常样本生成的过程如下:测试集伪造后产生信用不良样本和信用良好样本,信用不良样本产生后修改特征,并进行简单判别模型,得到伪造样本,最后得到伪造数据集。3.如权利要求1所述的基于增强隔离森林的信用数据异常检测方法,其特征在于,步骤2中计算数据集的各属性{A1,A2,

,A
n
}与信用C之间的皮尔逊相关系数,如下式:根据各属性相关系数生成伪造方式字典作为伪造规则,C=0代表信用良好,C=1代表信用不良时,伪造字典F={f1,f2,

,f
n
}生成规则如下式:随机抽取一定量的信用不良样本,对抽取得到的每一个样本随机选择k个属性,根据伪造方式字典对这k个属性的值进行更新,最后使用以全体训练集预先训练好的判别模型对伪造后的样本进行预测,预测结果信用良好的样本视为伪造成功,对测试集中伪造成功的样本进行修改,得到含伪造样本的数据集。4.如权利要求1所述的基于增强隔离森林的信用数据异常检测方法,其特征在于,步骤2的数据集为UCI公开数据库中的G...

【专利技术属性】
技术研发人员:张晓东姚远吕从东孙周宝
申请(专利权)人:南京审计大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1