一种公共信用信息归集质量考核方法技术

技术编号:30169657 阅读:23 留言:0更新日期:2021-09-25 15:27
本发明专利技术公开了一种公共信用信息归集质量考核方法,步骤如下:定义公共信用信息数据质量考核指标参数集;通过收集所述质量考核指标参数集涉及到的相关数据,形成考核指标所需要的原始数据;对所述考核指标所需要的原始数据进行质量诊断,并给出评判的结论。本发明专利技术提高了数据质量问题的诊断效率和准确性,适应了信用数据业务类型多、应用范围广的特点,提高了信用数据质量校核的自动化与智能化水平。信用数据质量校核的自动化与智能化水平。信用数据质量校核的自动化与智能化水平。

【技术实现步骤摘要】
一种公共信用信息归集质量考核方法


[0001]本专利技术属于公共信用信息
,尤其涉及一种公共信用信息归集质量考核方法。

技术介绍

[0002]近年来,社会信用体系建设工作受到高度重视,信用体系建设的力度明显加大,对信用建设工作提出了一系列新要求、新任务,对平台建设提出高目标、高定位。目前推进信用信息的应用将是社会信用体系建设下一阶段的工作重点,数据质量的可靠性和应用服务的实用性、便捷性,直接影响到应用效果。
[0003]公共信用信息归集和报送是各地有关部门信用体系建设工作基本考核内容。因此,信息归集和处理考核报表是准确、高效地开展该项考核工作,及时反应各地有关部门数据归集和处理的准确情况的基础性工作。
[0004]目前,各地通过政务数据交换、信用信息共享平台等归集上来的信用信息,没有统一的质量考核标准、各个考核指标的定义也各不相同,无法全面反应公共信用信息数据归集质量情况,数据质量参差不齐,直接影响到后续公共信用信息面向社会开展相关应用服务。

技术实现思路

[0005]针对于上述现有技术的不足,本专利技术的目的在于提供一种公共信用信息归集质量考核方法,以解决现有技术中对归集上来的公共信用信息没有统一的质量考核标准、各个考核指标的定义也各不相同,无法全面反应公共信用信息数据归集质量情况,数据质量参差不齐的问题。
[0006]为达到上述目的,本专利技术采用的技术方案如下:
[0007]本专利技术的一种公共信用信息归集质量考核方法,步骤如下:
[0008]1)定义公共信用信息数据质量考核指标参数集;
[0009]2)通过收集所述质量考核指标参数集涉及到的相关数据,形成考核指标所需要的原始数据;
[0010]3)对所述考核指标所需要的原始数据进行质量诊断,并给出评判的结论。
[0011]进一步地,所述步骤1)具体为:将公共信用信息数据质量考核指标参数进行分类并通过公式化描述的方式,对质量问题属性、业务类型进行标记,并记录各个考核指标各项参数信息,为后续考核结果反向追踪提供数据支撑。
[0012]公共信用信息数据质量考核涉及的业务类型包括:数源单位、公共信用信息目录、考核时间段及具体的考核指标;其中,数源单位指数据的来源单位,即通过网络向主管单位提供信用信息的单位;公共信用信息目录是指根据行政机关、司法机关、法律法规授权具有公共事务管理职能的组织以及公用企事业单位(信息提供单位)在履行职责过程中产生的、可用于识别企业主体、事业单位、社会组织和公民个人(信息主体)基本信用状况的数据和
资料编制而成的信息目录;考核时间段指考核所基于的公共信用信息数据提供的时间范围;具体的考核指标包括:信息提供方式、信息准确性、信息完整性及信息时效性。
[0013]进一步地,所述信息提供方式指数源单位向主管单位提供公共信用信息的方式,用于考核数源单位是否按照要求的报送方式报送;信息提供方式可结合考核业务需要进行扩充和细化,同时为各种提供方式设置不同的权重,通过加权求和得出信息提供方式指标得分P;具体计算公式如下:
[0014][0015]其中,X
i
为数据源单位的单个信息目录提供方式分值,W
i
为数源单位的单个信息目录提供方式权重,n为考核时间段内单个数源单位需提供的信用信息目录个数。
[0016]公共信用信息来自于数十类、上万个数源单位的异构业务系统,格式复杂、维度丰富;通过适配转换方法,对主流数据库、文本文件、Excel文件、API接口等信用信息进行格式化处理,使之能自动适配异构数据,屏蔽各系统之间数据类型差异(即多源数据采集动态适配技术),解决提供方式复杂、繁多,提供方式、提供时间标注不准确问题。
[0017]进一步地,所述信息准确性指数源单位的数据经过重复性检查和规则校验处理后的有效记录占比;用于考核数据源单位报送数据的入库成功率。
[0018]进一步地,所述重复性检查指对数据源单位报送的信用信息目录数据进行重复性检查;重复性检查的结果通过增量率或重复率来衡量;具体如下:
[0019]信用信息目录增量率=(增量数据条数/目录报送的原始数据条数)*100%;
[0020]信用信息目录重复率=(重复数据条数/目录报送的原始数据条数)*100%;
[0021]若从数源单位的角度统计增量率,采用如下公示计算:
[0022][0023]其中,I
i
表示某个信息目录的增量数据条数,D
i
表示某个信息目录的原始数据条数。
[0024]信用数据来自于多个数源单位的异构业务系统,多格式、多维度、多来源、多渠道、多重管理,进而造成“多源重复”的局面,传统的重复性判别都是通过公共信用信息目录包含的全部数据项数据进行相同判别,判别效率和准确性很难满足要求;通过输入多个信用关键业务指标参数,对多维度大数据量进行相似度聚类分析;采用Hash算法对数据进行重新组织压缩,将原始信息量大难以存储和计算问题转化为映射空间的可存储计算问题,实现数据快速去重处理,重复计算效率相比传统处理方式提升了3倍,完全重复率100%、相似去重率到达98%;具体步骤包括:
[0025](1)重复特征定义及标准化;
[0026]对字符型、枚举型、日期型三种常用属性类型,定义其重复特征,并标准化降噪处理,提升准确率;比如:企业名称含有括号、冒号等特殊字符,日期型数据格式不一致等,如下2021年12月12日、2021

12

12、12/12/2021,可将标准化为yyyy

MM

dd统一格式等;同时建立相应的重复数据特征库,对语义重复等特征进行标注积累;
[0027](2)重复性度量;
[0028](21)完全重复性:
[0029]完全重复性通过对公共信用信息目录数据项的数据标准化后,同时增加一些业务数据特征排列组合方式,对数据进行hash计算方式提前重复特征码,防止因为hash碰撞导致判断失误,通过此方法可以实现完全一样重复的数据的快速判断,重复判别准确率可以实现100%。具体方法如下:
[0030]重复特征码(HC)=Hash({(Col
i
||Data
i
)^(Col
i+1
||Data
i+1
)}
n
)
[0031]其中:Col
i
表示信用信息目录数据特征项,Data
i
表示指标项对应的经过标准化降噪处理的内容,通过连接符号“||”拼接,多个特征项之间通过“^”拼接,拼接完成后通过Hash函数进行计算,得出相应的重复性特征码;
[0032](22)关键重复性:
[0033]结合业务对业务上一些关键特征重复性进行判断,如果关键性特征重复即可判断为重复性,判断逻辑与完全重复性类似,仅是判别范围不同;
[0034]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种公共信用信息归集质量考核方法,其特征在于,步骤如下:1)定义公共信用信息数据质量考核指标参数集;2)通过收集所述质量考核指标参数集涉及到的相关数据,形成考核指标所需要的原始数据;3)对所述考核指标所需要的原始数据进行质量诊断,并给出评判的结论。2.根据权利要求1所述的公共信用信息归集质量考核方法,其特征在于,所述步骤1)具体为:将公共信用信息数据质量考核指标参数进行分类并通过公式化描述的方式,对质量问题属性、业务类型进行标记,并记录各个考核指标各项参数信息。3.根据权利要求1所述的公共信用信息归集质量考核方法,其特征在于,所述公共信用信息数据质量考核涉及的业务类型包括:数源单位、公共信用信息目录、考核时间段及具体的考核指标;其中,数源单位指数据的来源单位,即通过网络向主管单位提供信用信息的单位;公共信用信息目录是指根据行政机关、司法机关、具有公共事务管理职能的组织以及公用企事业单位在履行职责过程中产生的、可用于识别企业主体、事业单位、社会组织和公民个人基本信用状况的数据和资料编制而成的信息目录;考核时间段指考核所基于的公共信用信息数据提供的时间范围;具体的考核指标包括:信息提供方式、信息准确性、信息完整性及信息时效性。4.根据权利要求3所述的公共信用信息归集质量考核方法,其特征在于,所述信息提供方式指数源单位向主管单位提供公共信用信息的方式,用于考核数源单位是否按照要求的报送方式报送;信息提供方式可结合考核业务需要进行扩充和细化,同时为各种提供方式设置不同的权重,通过加权求和得出信息提供方式指标得分P;具体计算公式如下:其中,X
i
为数据源单位的单个信息目录提供方式分值,W
i
为数源单位的单个信息目录提供方式权重,n为考核时间段内单个数源单位需提供的信用信息目录个数。5.根据权利要求3所述的公共信用信息归集质量考核方法,其特征在于,所述信息准确性指数源单位的数据经过重复性检查和规则校验处理后的有效记录占比;用于考核数据源单位报送数据的入库成功率。6.根据权利要求5所述的公共信用信息归集质量考核方法,其特征在于,所述重复性检查指对数据源单位报送的信用信息目录数据进行重复性检查;重复性检查的结果通过增量率或重复率来衡量;具体如下:信用信息目录增量率=(增量数据条数/目录报送的原始数据条数)*100%;信用信息目录重复率=(重复数据条数/目录报送的原始数据条数)*100%;若从数源单位的角度统计...

【专利技术属性】
技术研发人员:陈华毛锋高强陈力行陈飞吕徊黄芬晁俊杰
申请(专利权)人:南京莱斯信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1