一种自动化数据质量评估方法和可读存储介质技术

技术编号：27745624 阅读：17 留言：0更新日期：2021-03-19 13:40

本发明专利技术公开了一种自动化数据质量评估方法，所述数据质量评估方法包括：S1：数据整理步骤，整理金融机构本地抽取的样本好坏标签和数据供应商返回的数据；S2：数据质量评估步骤，对计算数据供应商提供的各个指标的进行数据描述性分析、覆盖率分析、区分能力分析和相关性分析，并且生成报表和数据质量评估报告，展示各项分析结果。通过本发明专利技术公开的自动化数据质量评估方法，实现了数据质量评估过程完全自动化，并可以自动生成数据质量评估报告，节约了大量时间和人力成本，至少节约90％的时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动化数据质量评估方法和可读存储介质
本专利技术属于金融科技的信用风险领域，尤其涉及一种自动化数据质量评估方法和可读存储介质。
技术介绍
随着大数据技术的不断发展，越来越多的数据被应用到信用风险领域。金融机构在应用各类数据前，往往需要大量地评估各个数据供应商提供的数据在信用风险方面的效果，从而选择最佳的三方数据源。在面对众多的数据供应商提供的数据时，金融机构相关工作人员需要逐个对数据质量进行手动评估，查看各数据源的覆盖率、区分能力等，工作量较大，花费时间较多。
技术实现思路
本专利技术的目的在于，为克服现有技术缺陷，提供了一种自动化数据质量评估方法和可读存储介质，通过本专利技术方法实现了数据质量评估过程的完全自动化，并可以自动生成数据质量评估报告，节约了大量时间和人力成本。本专利技术目的通过下述技术方案来实现：一种自动化数据质量评估方法，所述数据质量评估方法包括：S1：数据整理步骤，整理金融机构本地抽取的样本好坏标签和数据供应商返回的数据；S2：数据质量评估步骤，对计算数据供应商提供的各个指标的进行数据描述性分析、覆盖率分析、区分能力分析和相关性分析，并且生成报表和数据质量评估报告，展示各项分析结果。根据一个优选的实施方式，所述数据质量评估步骤中的数据描述性分析包括：对各个指标的取值范围、平均数、中位数和分布直方图计算。根据一个优选的实施方式，所述数据描述性分析通过计算获得参数指标，完成各个指标的分布情况是否异常、是否存在极端值的检查。根据一个优...

【技术保护点】
1.一种自动化数据质量评估方法，其特征在于，所述数据质量评估方法包括：/nS1：数据整理步骤，整理金融机构本地抽取的样本好坏标签和数据供应商返回的数据；/nS2：数据质量评估步骤，对计算数据供应商提供的各个指标的进行数据描述性分析、覆盖率分析、区分能力分析和相关性分析，并且生成报表和数据质量评估报告，展示各项分析结果。/n

【技术特征摘要】
1.一种自动化数据质量评估方法，其特征在于，所述数据质量评估方法包括：
S1：数据整理步骤，整理金融机构本地抽取的样本好坏标签和数据供应商返回的数据；
S2：数据质量评估步骤，对计算数据供应商提供的各个指标的进行数据描述性分析、覆盖率分析、区分能力分析和相关性分析，并且生成报表和数据质量评估报告，展示各项分析结果。

2.如权利要求1所述的自动化数据质量评估方法，其特征在于，所述数据质量评估步骤中的数据描述性分析包括：对各个指标的取值范围、平均数、中位数和分布直方图计算。

3.如权利要求2所述的自动化数据质量评估方法，其特征在于，所述数据描述性分析通过计算获得参数指标，完成各个指标的分布情况是否异常、是否存在极端值的检查。

4.如权利要求1所述的自动化数据质量评估方法，其特征在于，所述数据质量评估步骤中的覆盖率分析包括对各个指标在不同客群、不同时间段上的覆盖率的分析。

5.如权利要求1所述的自动化数据质量评估方法，其特征在于，所述数据质量评估步骤中的区分能力分析包括计算各个指标在不同客群、不同时间段上的IV，评估各数据源各个字段对好坏客户的区分能力...

【专利技术属性】
技术研发人员：徐顺，
申请(专利权)人：四川新网银行股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人