【技术实现步骤摘要】
一种面向政府数据的数据质量检测方法
本专利技术涉及数据质量管理
,特别涉及一种面向政府数据的数据质量检测方法。
技术介绍
近年来,数据质量问题引起了人们的高度重视.数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障。数据质量的好坏决定了数据价值的高低,除此之外政府各部门到底掌握了多少数据、数据的类型有几种、哪些是“死”数据、哪些是“活”数据、动态更新的频率如何等也是政府各个部门首先需要搞清楚的问题,即摸清自己的“数据家底”。唯有高质量的数据,能够融合互通的数据网,才是各类丰富的辅助决策手段的基石,才能体现数据的高价值。为了依据清晰规范的数据质量检测维度,实现对政府数据的质量评估,辅助决策者“摸清家底”,为数据治理奠定基础、指明方向,更大程度的挖掘出政府数据的价值。本专利技术提出了一种面向政府数据的数据质量检测方法。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的面向政府数据的数据质量检测方法。本专利技术是通过如下技术方案实现的:一种面向政府数据的数据质量检测方法,其特征在于,包括以下步骤:(S1)基于政府发布的政策法规,提取出数据质量检测维度,包括目录层面分析维度,数据资源层面分析维度以及关键数据集层面分析维度;(S2)基于提取出的数据质量检测维度,对政府的开放数据,共享数据,基础库数据,主题库数据,专题库数据,单部门数据和单数据集进行检测,根据数据场景的不同,业务情况的不同,灵活选用工具检测方法或人工检测方法,分析问题产生的原因和造成的影响,划分问题等级,为数据清洗治理提供依据。(S3)汇总整理检测结果,根据数据质 ...
【技术保护点】
1.一种面向政府数据的数据质量检测方法,其特征在于,包括以下步骤:(S1)基于政府发布的政策法规,提取出数据质量检测维度,包括目录层面分析维度,数据资源层面分析维度以及关键数据集层面分析维度;(S2)基于提取出的数据质量检测维度,对政府的开放数据,共享数据,基础库数据,主题库数据,专题库数据,单部门数据和单数据集进行检测,根据数据场景的不同,业务情况的不同,灵活选用工具检测方法或人工检测方法,分析问题产生的原因和造成的影响,划分问题等级,为数据清洗治理提供依据;(S3)汇总整理检测结果,根据数据质量问题的不同序列图,地图,流程图,矩阵,网状关系图或信息图的展现方式对检测结果进行可视化展示,提供检测报告。
【技术特征摘要】
1.一种面向政府数据的数据质量检测方法,其特征在于,包括以下步骤:(S1)基于政府发布的政策法规,提取出数据质量检测维度,包括目录层面分析维度,数据资源层面分析维度以及关键数据集层面分析维度;(S2)基于提取出的数据质量检测维度,对政府的开放数据,共享数据,基础库数据,主题库数据,专题库数据,单部门数据和单数据集进行检测,根据数据场景的不同,业务情况的不同,灵活选用工具检测方法或人工检测方法,分析问题产生的原因和造成的影响,划分问题等级,为数据清洗治理提供依据;(S3)汇总整理检测结果,根据数据质量问题的不同序列图,地图,流程图,矩阵,网状关系图或信息图的展现方式对检测结果进行可视化展示,提供检测报告。2.根据权利要求1所述的面向政府数据的数据质量检测方法,其特征在于:所述步骤(S1)具体方法为研读政府发布的关于数据的政策法规,以及标准规范和相关文档,提取出数据质量检测维度;所述目录层面分析维度包括对目录名规范性,目录名重复性,目录名含义,目录名长度和核心元数据信息完整性的分析。3.根据权利要求2所述的面向政府数据的数据质量检测方法,其特征在于:(1)所述对目录名规范性的分析是指通过分析目录名是否含有特殊字符,是否出现中英文混搭,是否含地名或固定时间来判定;若目录名含有特殊字符,或者出现中英文混搭,含有地名或者固定时间,则认为目录名不规范;(2)所述对目录重复性的分析是将目录名依据不同的属性进行拆分,分析是否含有相同字段;若含有相同字段,则该类目录可合并,属于重复问题;(3)所述对目录名含义的分析是指分析目录名含义是否模糊,或者有歧义,当1个以上部门有相同的目录名称时,则判定目录名含义模糊,难以理解;(4)所述对目录名长度的分析是指分析目录名长度是否过长或者过短,当长度超过20个字符或者低于3个字符均属于目录名长度不规范;(5)所述对核心元数据信息完整性的分析是指政务数据核心元数据信息缺少任何一个信息项视为不完整;所述政务数据核心元数据信息包括信息资源分类,信息资源名称,信息资源代码,信息资源提供方,信息资源提供方代码,信息资源摘要,信息资源格式,信息项信息,开放与共享属性,更新周期,发布日期和关联资源代码。4.根据权利要求2所述的面向政府数据的数据质量检测方法,其特征在于:所述数据资源层面质量检测维度包括对字段,目录和数据的分析,具体规则如下:(1)若字段名中出现中英文混搭,有特殊字符或者含固定的时间或地点,则认为字段名不规范;(2)字段应选用与数据属性相当的类型定义,数字应采用数值型,日期应选用时间型,否则则认为字段类型定义不规范;(3)字段长度应设置为保证正常使用需求下的最小长度,过长或者过短则认为字段长度定义不规范;(4)若有字典表对应的未转义成对应的中文,机关代码或行政区划代码未转义成对应的中文则认为字典表未转义;(5)数据加密方式不恰当,通过关联可复原,或者是数据加密之后完全无任何分析意义则认为是无价值的数据加密;(6)对没有涉及国家安全,公共安全或个人隐私的数据进行加密,则属于无价值数据的加密;(7)以对照表做参考,若发现记录不全,则属于记录缺失;(8)依据目录的意义以及业务知识,识别字段不全,则认为字段缺失;(9)数据值填写不完整,则认为数据值缺失;(10)字段内容为空,则认为是空值;(11)目录仅有1个字段的,则属于低字段目录,信息不全,不易理解和利用;(12)记录中所有字段的内容相同,则属于记录重复;(13)目录中关键字段或者关联字段重复,则认为关键字段重复;(14)字段内容与字段名不匹配,移位后可匹配,则认为字段内容移位;(15)字段有明确的标准,数据不符合标准,则认为关键字段错误;(16)当字段对数值或者时间有范围要求时,实际值不在要求的范围内,则认为不符合值域要求;(17)通过数据字段之间的逻辑关系判断数据错误,则认为相关性错误;(18)目录的含义与字段不对应,则认为目录与字段不一致;(19)目录与内容不对应,则认为目录与内容不一致;(20)字段意义与所填内容不一致,则认为字段与内容不一致;(21)依据数据更新频率分析数据时效性;(22)依据字段敏感度,分析数据...
【专利技术属性】
技术研发人员:齐光鹏,张兆勇,闫晓娜,张政昌,田震,
申请(专利权)人:山东浪潮云信息技术有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。