一种自动化数据质量评估方法和可读存储介质技术

技术编号:27745624 阅读:17 留言:0更新日期:2021-03-19 13:40
本发明专利技术公开了一种自动化数据质量评估方法,所述数据质量评估方法包括:S1:数据整理步骤,整理金融机构本地抽取的样本好坏标签和数据供应商返回的数据;S2:数据质量评估步骤,对计算数据供应商提供的各个指标的进行数据描述性分析、覆盖率分析、区分能力分析和相关性分析,并且生成报表和数据质量评估报告,展示各项分析结果。通过本发明专利技术公开的自动化数据质量评估方法,实现了数据质量评估过程完全自动化,并可以自动生成数据质量评估报告,节约了大量时间和人力成本,至少节约90%的时间。

【技术实现步骤摘要】
一种自动化数据质量评估方法和可读存储介质
本专利技术属于金融科技的信用风险领域,尤其涉及一种自动化数据质量评估方法和可读存储介质。
技术介绍
随着大数据技术的不断发展,越来越多的数据被应用到信用风险领域。金融机构在应用各类数据前,往往需要大量地评估各个数据供应商提供的数据在信用风险方面的效果,从而选择最佳的三方数据源。在面对众多的数据供应商提供的数据时,金融机构相关工作人员需要逐个对数据质量进行手动评估,查看各数据源的覆盖率、区分能力等,工作量较大,花费时间较多。
技术实现思路
本专利技术的目的在于,为克服现有技术缺陷,提供了一种自动化数据质量评估方法和可读存储介质,通过本专利技术方法实现了数据质量评估过程的完全自动化,并可以自动生成数据质量评估报告,节约了大量时间和人力成本。本专利技术目的通过下述技术方案来实现:一种自动化数据质量评估方法,所述数据质量评估方法包括:S1:数据整理步骤,整理金融机构本地抽取的样本好坏标签和数据供应商返回的数据;S2:数据质量评估步骤,对计算数据供应商提供的各个指标的进行数据描述性分析、覆盖率分析、区分能力分析和相关性分析,并且生成报表和数据质量评估报告,展示各项分析结果。根据一个优选的实施方式,所述数据质量评估步骤中的数据描述性分析包括:对各个指标的取值范围、平均数、中位数和分布直方图计算。根据一个优选的实施方式,所述数据描述性分析通过计算获得参数指标,完成各个指标的分布情况是否异常、是否存在极端值的检查。根据一个优选的实施方式,所述数据质量评估步骤中的覆盖率分析包括对各个指标在不同客群、不同时间段上的覆盖率的分析。根据一个优选的实施方式,所述数据质量评估步骤中的区分能力分析包括计算各个指标在不同客群、不同时间段上的IV,评估各数据源各个字段对好坏客户的区分能力。根据一个优选的实施方式,所述数据质量评估步骤中的相关性分析包括计算数据源各个指标之间的相关性和自有数据的相关性,评估该数据源对本机构已有数据的增益情况。根据一个优选的实施方式,所述数据质量评估步骤还包括自动建立LightGBM模型,并进行变量筛选和模型参数调整,建立最优模型,计算模型分在不同客群、不同时间段上的AUC、KS,评估利用该数据源建模的效果。根据一个优选的实施方式,在LightGBM模型中,利用BayesianOptimization和/或EarlyStopping方法进行变量筛选和模型参数调整。根据一个优选的实施方式,所述步骤S2中,利用Rmarkdown工具,结合R和Python两种编程语言,编写自动化数据测试代码,自动实现数据质量评估步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的自动化数据质量评估方法。前述本专利技术主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本专利技术可采用并要求保护的方案;且本专利技术,(各非冲突选择)选择之间以及和其他选择之间也可以自由组合。本领域技术人员在了解本专利技术方案后根据现有技术和公知常识可明了有多种组合,均为本专利技术所要保护的技术方案,在此不做穷举。本专利技术的有益效果:通过本专利技术公开的自动化数据质量评估方法,实现了数据质量评估过程完全自动化,并可以自动生成数据质量评估报告,节约了大量时间和人力成本,至少节约90%的时间;利用Rmarkdown工具,结合了R和Python两种编程语言,可以灵活应用两种语言的优势。附图说明图1是本专利技术自动化数据质量评估方法的流程示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,为使本专利技术实施例的目的、技术方案和优点更加清楚,下面对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。因此,以下对本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。另外,本专利技术要指出的是,本专利技术中,如未特别写出具体涉及的结构、连接关系、位置关系、动力来源关系等,则本专利技术涉及的结构、连接关系、位置关系、动力来源关系等均为本领域技术人员在现有技术的基础上,可以不经过创造性劳动可以得知的。实施例1:参考图1所示,本专利技术公开了一种用于信用风险领域的自动化数据质量评估方法,包括以下步骤:S1:数据整理步骤,整理金融机构本地抽取的样本好坏标签和数据供应商返回的数据。S2:数据质量评估步骤,对计算数据供应商提供的各个指标的进行数据描述性分析、覆盖率分析、区分能力分析和相关性分析,并且生成报表和数据质量评估报告,展示各项分析结果。优选地,自动化数据质量评估包括以下内容:1)数据描述性分析,包括各个指标的取值范围、平均数、中位数、分布直方图。优选地,通过计算每个指标的最大最小值等,检查各个指标的分布情况是否异常、是否存在极端值。2)覆盖率分析,包括各个指标在不同客群、不同时间段上的覆盖率。例如,从多个维度检查该数据源能匹配到多少本机构提供的样本,比如本机构提供了10万个样本供测试,若数据供应商能返回8万个样本的数据,则覆盖率为80%。3)区分能力分析,计算各个指标在不同客群、不同时间段上的IV(InformationValue),评估各数据源各个字段对好坏客户的区分能力。比如,若某个指标在各个客群上计算的IV大于0.2,那么这个指标的区分能力良好。4)自动建立LightGBM模型,并利用BayesianOptimization、EarlyStopping等方法自动进行变量筛选和模型参数调整,建立最优模型,计算模型分在不同客群、不同时间段上的AUC(AreaUnderCurve)、KS(Kolmogorov-Smirnov)等,评估利用该数据源建模的大致效果。比如,若某个指标在各个客群上计算的AUC大于0.7、KS大于0.3,那么这个指标的区分能力良好。5)相关性分析,计算该数据源各个指标之间的相关性和自有数据的相关性,评估该数据源对本机构已有数据的增益情况。比如,该数据源的某个指标与本机构已有数据的相关系数小于0.5,那么这个指标与本机构已有数据的相关性较弱,则该数据源与本机构已有数据的信息重复度较低,可能是对本机构已有数据的一个较好补充。依据上面的分析结果,自动生成该数据源的评估总结,给出主要结论。比如结论为:1.该数据源的总体分布正常,本文档来自技高网...

【技术保护点】
1.一种自动化数据质量评估方法,其特征在于,所述数据质量评估方法包括:/nS1:数据整理步骤,整理金融机构本地抽取的样本好坏标签和数据供应商返回的数据;/nS2:数据质量评估步骤,对计算数据供应商提供的各个指标的进行数据描述性分析、覆盖率分析、区分能力分析和相关性分析,并且生成报表和数据质量评估报告,展示各项分析结果。/n

【技术特征摘要】
1.一种自动化数据质量评估方法,其特征在于,所述数据质量评估方法包括:
S1:数据整理步骤,整理金融机构本地抽取的样本好坏标签和数据供应商返回的数据;
S2:数据质量评估步骤,对计算数据供应商提供的各个指标的进行数据描述性分析、覆盖率分析、区分能力分析和相关性分析,并且生成报表和数据质量评估报告,展示各项分析结果。


2.如权利要求1所述的自动化数据质量评估方法,其特征在于,所述数据质量评估步骤中的数据描述性分析包括:对各个指标的取值范围、平均数、中位数和分布直方图计算。


3.如权利要求2所述的自动化数据质量评估方法,其特征在于,所述数据描述性分析通过计算获得参数指标,完成各个指标的分布情况是否异常、是否存在极端值的检查。


4.如权利要求1所述的自动化数据质量评估方法,其特征在于,所述数据质量评估步骤中的覆盖率分析包括对各个指标在不同客群、不同时间段上的覆盖率的分析。


5.如权利要求1所述的自动化数据质量评估方法,其特征在于,所述数据质量评估步骤中的区分能力分析包括计算各个指标在不同客群、不同时间段上的IV,评估各数据源各个字段对好坏客户的区分能力...

【专利技术属性】
技术研发人员:徐顺
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1