一种基于交叉校验置信度计算的数据可信评估方法和系统技术方案

技术编号:35183917 阅读:16 留言:0更新日期:2022-10-12 17:54
本发明专利技术提供了一种基于交叉校验置信度计算的数据可信评估方法和系统,评估方法包括:先对对照数据进行清洗和预处理,然后选择/标定基准数据,将各对照数据表与基准数据表的字段排序对齐,接着按照匹配计算规则将各对照数据表的字段值分别与基准数据表的字段值进行匹配,为各对照数据表建立匹配结果矩阵,再根据匹配结果对应的置信度,计算所有对照数据表的匹配结果矩阵对应的置信度;最后根据数据清洗、基准标定、基准维度对齐和匹配计算过程中产生的过程数据生成数据可信评估报告。本发明专利技术简化了由人工参与数据质量分析和可信评估的过程,显著提高了数据评估工作的效率和准确率。率。率。

【技术实现步骤摘要】
一种基于交叉校验置信度计算的数据可信评估方法和系统


[0001]本专利技术属于数据分析处理
,具体涉及一种基于交叉校验置信度计算的数据可信评估方法和系统。

技术介绍

[0002][0003]央行征信业务管理办法要求将数据源统一规范至征信机构管理。作为征信机构,在实际的数据归集过程中,其数据源除了来自工商、社保、公安、司法、海关、税务、电力、交运等具有行政管理权限的部门外,还可能来自公开互联网、第三方数据公司、上下游合作伙伴等。如何结合政府部门“权威”来源的数据,对其他渠道的数据进行真实性校验和甄别,甚至在数据全部来源于公开互联网、第三方数据公司和合作伙伴的情况下,判断数据的可信度,并且以通过评估后真实可靠的数据为支撑,帮助金融机构开展风控、营销等多种业务场景下的建模工作,是摆在征信机构面前的重要问题。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种基于交叉校验置信度计算的数据可信评估方法和系统,用于对数据的真实性做出分析评估,并给出数据可信评估报告。
[0005]本专利技术是通过以下技术手段实现上述技术目的的。
[0006]一种基于交叉校验置信度计算的数据可信评估方法,包括:
[0007]对对照数据进行清洗和预处理;
[0008]选择/标定基准数据,将各对照数据表与基准数据表的字段排序对齐;
[0009]按照匹配计算规则将各对照数据表的字段值分别与基准数据表的字段值进行匹配,为各对照数据表建立匹配结果矩阵;
[0010]根据匹配结果对应的置信度,计算所有对照数据表的匹配结果矩阵对应的置信度。
[0011]进一步的技术方案,所述对照数据是来自非权威渠道、待评估的真实数据,其标定基准数据的过程为:直接选择来自权威数据作为基准数据。
[0012]进一步的技术方案,所述对照数据是来自非权威渠道的数据,其标定基准数据的过程为:
[0013]对各对照数据表进行排列和关联,再依次遍历各对照数据表,计算每个关联键rid在所有对照数据表中出现的次数Times(rid),若Times(rid)=N,将关联键rid对应的数据记录加入待评估数据集中,生成临时数据集1,在临时数据集1中,依次遍历所有关联键rid,将临时数据集1中的所有字段值填充完毕,生成临时数据集2,删除临时数据集2中不可用的基准字段值,生成基准数据集;
[0014]所述在临时数据集1中,依次遍历所有关联键rid,并计算临时数据集1中每个字段值在所有表中出现的次数Times(valuei_j),若:
[0015]Times(valuei_j)>=floor(N*Tp),将valuei_j作为对应基准字段值;
[0016]同时存在多个字段值valuei_j,均满足Times(valuei_j)>=floor(N*Tp),先按照次数由大到小排序,然后按照对照数据表排列顺序对valuei_j进一步排序,最终选择第一顺位对应的valuei_j作为基准字段值;
[0017]不存在valuei_j满足Times(valuei_j)>=floor(N*Tp),则将基准字段值标记为不可用;
[0018]其中:N表示对照数据表的数量,floor表示向下取整,Tp表示F在N份对照数据表中出现概率的阈值。
[0019]进一步的技术方案,所述匹配计算规则包括:
[0020]空值:空白值与其他值进行匹配,对应的置信度参考值为50%;
[0021]精确匹配:相同类型值是否相等匹配,对应的置信度参考值为100%;
[0022]范围匹配:大小范围、集合范围、时间范围的匹配,对应的置信度参考值为90%;
[0023]模糊匹配:分词包含、文本相似度的匹配关系,对应的置信度参考值为70%;
[0024]无匹配,对应的置信度参考值为0%。
[0025]进一步的技术方案,所述置信度包括记录级/行级置信度和字段级/列级置信度;
[0026]所述记录级/行级置信度的计算公式为:
[0027][0028]所述字段级/列级置信度的计算公式为:
[0029][0030]其中:Vm,n为对照数据表字段的置信度,m表示关联键,n表示字段,Num()表示数量。
[0031]进一步的技术方案,还包括生成数据可信评估报告,所述数据可信评估报告根据中间过程数据生成,所述中间过程数据是在数据清洗、基准标定、基准维度对齐和匹配计算过程中产生的。
[0032]更进一步的技术方案,所述清洗和预处理包括但不限于如下方式:字典/枚举转换、字段类型转换、异常值处理、关联键生成、去除或忽略部分无业务含义或价值的字段。
[0033]一种基于交叉校验置信度计算的数据可信评估系统,包括:
[0034]数据导入模块,用于将对照数据导入;
[0035]数据清洗模块,对对照数据进行清洗和预处理;
[0036]基准标定模块,标定基准数据;
[0037]基准维度对齐模块,将各对照数据表与基准数据表的字段排序进行对齐;
[0038]计算模块,将各对照数据表的字段值分别与基准数据表的字段值进行匹配,计算匹配结果对应的置信度;
[0039]报告输出与清理模块,利用中间过程数据生成和输出数据可信评估报告,并对中间过程数据进行清除。
[0040]一种电子设备,包括存储器和处理器;
[0041]所述存储器用于存储计算机程序;
[0042]所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现上述数据可信评估方法。
[0043]一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行上述数据可信评估方法。
[0044]本专利技术的有益效果为:本专利技术以金融机构/征信机构的视角,结合现实工作中典型的两类数据归集和评估场景,设计了一种针对多源数据开展交叉比对校验的算法,并充分利用概率统计学原理,基于数据置信度概念对数据的真实性、可信度建立了一套可行的评估方法和系统,简化了由人工参与数据质量分析和可信评估的整个过程,通过输出可信评估报告,给出了精简的数据评估结论,极大提高了数据评估工作的效率和准确率。
附图说明
[0045]图1为本专利技术所述基于交叉校验置信度计算的数据可信评估方法流程图;
[0046]图2为本专利技术所述临时数据集1生成示意图;
[0047]图3为本专利技术所述临时数据集2生成示意图;
[0048]图4为本专利技术所述场景2标定后的基准数据示意图;
[0049]图5为本专利技术所述基准维度对齐示意图;
[0050]图6为本专利技术所述对照数据表对应的匹配结果矩阵示意图;
[0051]图7为本专利技术所述记录级置信度分析结果以及字段级置信度分析结果示意图。
具体实施方式
[0052]下面结合附图以及具体实施例对本专利技术作进一步的说明,但本专利技术的保护范围并不限于此。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于交叉校验置信度计算的数据可信评估方法,其特征在于:对对照数据进行清洗和预处理;选择/标定基准数据,将各对照数据表与基准数据表的字段排序对齐;按照匹配计算规则将各对照数据表的字段值分别与基准数据表的字段值进行匹配,为各对照数据表建立匹配结果矩阵;根据匹配结果对应的置信度,计算所有对照数据表的匹配结果矩阵对应的置信度。2.根据权利要求1所述的数据可信评估方法,其特征在于,所述对照数据是来自非权威渠道、待评估的真实数据,其标定基准数据的过程为:直接选择来自权威数据作为基准数据。3.根据权利要求1所述的数据可信评估方法,其特征在于,所述对照数据是来自非权威渠道的数据,其标定基准数据的过程为:对各对照数据表进行排列和关联,再依次遍历各对照数据表,计算每个关联键rid在所有对照数据表中出现的次数Times(rid),若Times(rid)=N,将关联键rid对应的数据记录加入待评估数据集中,生成临时数据集1,在临时数据集1中,依次遍历所有关联键rid,将临时数据集1中的所有字段值填充完毕,生成临时数据集2,删除临时数据集2中不可用的基准字段值,生成基准数据集;所述在临时数据集1中,依次遍历所有关联键rid,并计算临时数据集1中每个字段值在所有表中出现的次数Times(valuei_j),若:Times(valuei_j)>=floor(N*Tp),将valuei_j作为对应基准字段值;同时存在多个字段值valuei_j,均满足Times(valuei_j)>=floor(N*Tp),先按照次数由大到小排序,然后按照对照数据表排列顺序对valuei_j进一步排序,最终选择第一顺位对应的valuei_j作为基准字段值;不存在valuei_j满足Times(valuei_j)>=floor(N*Tp),则将基准字段值标记为不可用;其中:N表示对照数据表的数量,floor表示向下取整,Tp表示F在N份对照数据表中出现概率的阈值。4.根据权利要求1所述的数据可信评估方法,其特征在于,所述匹配计算规则包括:空值:空白值与其他值进行匹配,对...

【专利技术属性】
技术研发人员:齐宁周云松王治平朱巍李育于航
申请(专利权)人:江苏省联合征信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1