结构化数据集质量评价模型生成方法、评价方法及装置制造方法及图纸

技术编号:24683679 阅读:35 留言:0更新日期:2020-06-27 08:02
本发明专利技术提供一种结构化数据集质量评价模型生成方法、评价方法及装置,通过对结构化数据集样本在准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度分别提取约束规则,检验符合各约束规则的数据条数量并加权运算得到相应的评估维度指标;将多个结构化数据集样本的各评估维度指标作为输入,相应的质量评估结果作为输出,采用深度置信网络训练得到质量评估模型,以及计算对待评估结构化数据集对应的评估维度指标后输入质量评估模型,获得质量评估结果。本发明专利技术能够减少人为主观判断对数据质量评估的影响,能够对待评估结构化数据集进行更客观的、全面的质量评估。

Method, method and device of quality evaluation model for structured data set

【技术实现步骤摘要】
结构化数据集质量评价模型生成方法、评价方法及装置
本专利技术涉及数据评估
,尤其涉及一种结构化数据集质量评价模型生成方法、评价方法及装置。
技术介绍
随着信息技术的发展,数据逐渐成为企业的重要资产,对生产经营、科学研究以及管理和决策等起着重要的作用。然而在产生和管理数据的过程中,即使有良好设计和规划的信息系统也不能保证产生和存放数据的质量都能满足用户的要求。用户录入错误、企业合并以及企业环境随着时间的推移而改变,这些都会影响所存放数据的质量。数据质量对于企业战略决策至关重要,因此数据质量的检测与数据质量的评估显得越来越重要,对数据质量评估的要求也更加迫切。部分企业结合其所处的行业特点开发了数据质量检测系统来解决自身数据质量问题,这些系统的质量评估模型各有特点,但大多采用加权的形式完成评价,评价参数与质量评估结果之间的权重系数多由人为确定,受主观因素影响较大,准确性不能保障。
技术实现思路
鉴于此,本专利技术实施例提供了一种结构化数据集质量评价模型生成方法、评价方法及装置,通过训练深度置信网络生成质量评估模型,利用多个中间层连接评估维度指标与质量评估结果,减少了人为主观因素的影响,提高评价的精确度。本专利技术的技术方案如下:一方面,本专利技术提供一种结构化数据集质量评价模型生成方法,包括:获取结构化数据集样本中各数据项和数据项之间的多个约束规则,所述约束规则的评估维度包括:准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度;根据所述约束规则检验所述结构化数据集样本的多个数据条,获取各约束规则对应的满足条数;依次获取单一评估维度中各约束规则对应的满足条数并加权求和,将所得和除以所述结构化数据集样本中数据的总条数,得到相应的评估维度指标;所述评估维度指标包括:准确性指标、一致性指标、完整性指标、冗余性指标和时效性指标;获取多个结构化数据集样本对应的一种或多种评估维度指标作为输入,并获取各结构化数据集样本对应的质量评估结果作为输出,生成样本训练集;采用所述样本训练集对深度置信网络进行训练得到质量评估模型。在一些实施例中,获取结构化数据集样本中各数据项和数据项之间的多个约束规则,包括:获取准确性维度的约束规则,包括:用于评价各数据项和数据项之间逻辑关系的一条或多条逻辑依赖约束规则,用于限定数据项值域范围的一条或多条值域约束规则,以及用于评价同一数据集内数据项之间函数关系的一条或多条等值函数依赖约束规则;获取一致性维度的约束规则,包括:用于评价数据集内部数据和外部数据之间函数关系的一条或多条等值一致性约束规则,用于评价数据集内部数据和外部数据逻辑对应关系的一条或多条逻辑一致性约束规则,以及用于评价数据集内部数据和外部数据取值对应关系的一条或多条存在一致性规则;获取完整性维度的约束规则,包括:用于评价数据项连续性关系的一条或多条连续性约束规则,以及用于评价数据项取值不能为空的一条或多条非空约束规则;获取冗余性维度的约束规则,包括:用于限制数据集内不能出现重复数据项或数据条的一条或多条重复性约束规则,用于评价数据集内数据项之间词汇特征相似度的一条或多条相似性约束规则,以及用于评价同一数据项出现次数的稀缺性约束规则;获取时效性维度的约束规则,包括:用于评价数据项产生时间是否在指定时间段的一条或多条及时性约束规则。在一些实施例中,获取单一评估维度中各约束规则对应的满足条数并加权求和之前,还包括:获取多组同类型的结构化数据集样本;分别获取每个约束规则在各结构化数据集样本对应的多条数据中的满足条数;获取单一评估维度中的每个约束规则在各结构化数据集样本中的满足条数,并采用熵值法计算所述准确性规则中各约束规则对应的权重数值。在一些实施例中,所述深度置信网络为BP神经网络。在一些实施例中,获取结构化数据集样本中各数据项和数据项之间的多个约束规则之前,还包括:获取数据质量评价需求,并根据所述数据质量评价需求获取对应的约束规则,所述数据质量评价需求包括:准确性评价需求、一致性评价需求、完整性评价需求、冗余性评价需求以及时效性评价需求。另一方面,本专利技术还提供一种结构化数据集质量评价方法,包括:获取待评估结构化数据集,并获取待评估结构化数据集中各数据项和数据项之间的多个约束规则,所述约束规则的评估维度包括:准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度;根据所述约束规则检验所述待评估结构化数据集的多个数据条,获取各约束规则对应的满足条数;依次获取单一评估维度中各约束规则对应的满足条数并加权求和,将所得和除以所述待评估结构化数据集中数据的总条数,得到相应的评估维度指标;所述评估维度指标包括:准确性指标、一致性指标、完整性指标、冗余性指标和时效性指标;从待评估结构化数据集对应的各评估维度指标中选择相应的评估维度指标输入至如上述的方法得到的质量评估模型,得到所述待评估结构化数据集的质量评估结果。在一些实施例中,从待评估结构化数据集对应的各评估维度指标中选择相应的评估维度指标输入至如上述的方法得到的质量评估模型,得到所述待评估结构化数据集的质量评估结果之后,还包括:生成并输出质量评价报告,所述质量评价报告包括所述待评估结构化数据集、所述待评估结构化数据集对应的质量评估结果,以及所述待评估结构化数据集对应的各评估维度指标。另一方面,本专利技术还提供一种结构化数据集质量评价模型生成装置,包括:样本约束规则获取模块,用于获取结构化数据集样本中各数据项和数据项之间的多个约束规则,所述约束规则的评估维度包括:准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度;样本执行核检模块,用于根据所述约束规则检验所述结构化数据集样本的多个数据条,获取各约束规则对应的满足条数;评估维度指标生成模块,用于依次获取单一评估维度中各约束规则对应的满足条数并加权求和,将所得和除以所述结构化数据集样本中数据的总条数,得到相应的评估维度指标;所述评估维度指标包括:准确性指标、一致性指标、完整性指标、冗余性指标和时效性指标;训练样本生成模块,用于获取多个结构化数据集样本对应的一种或多种评估维度指标作为输入,并获取各结构化数据集样本对应的质量评估结果作为输出,生成样本训练集;评估模型生成模块,用于通过所述样本训练集对深度置信网络进行训练得到质量评估模型。另一方面,本专利技术还提供一种结构化数据集质量评价装置,包括:约束规则获取模块,用于获取待评估结构数据集的中各数据项和数据项之间的多个约束规则,所述约束规则的评估维度包括:准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度;执行检核模块,用于检核每个约束规则在所述待评估结构化数据集的多条数据中的满足条数;分析报告模块,用于依次获取单一评估维度中各约束规则的满足条数并加权求和,将所得和除以所述结构化数据集样本中数据的总条数,得到相应的评估维度指标;所述评估维度指标包本文档来自技高网...

【技术保护点】
1.一种结构化数据集质量评价模型生成方法,其特征在于,包括:/n获取结构化数据集样本中各数据项和数据项之间的多个约束规则,所述约束规则的评估维度包括:准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度;/n根据所述约束规则检验所述结构化数据集样本的多个数据条,获取各约束规则对应的满足条数;/n依次获取单一评估维度中各约束规则对应的满足条数并加权求和,将所得和除以所述结构化数据集样本中数据的总条数,得到相应的评估维度指标;所述评估维度指标包括:准确性指标、一致性指标、完整性指标、冗余性指标和时效性指标;/n获取多个结构化数据集样本对应的一种或多种评估维度指标作为输入,并获取各结构化数据集样本对应的质量评估结果作为输出,生成样本训练集;/n采用所述样本训练集对深度置信网络进行训练得到质量评估模型。/n

【技术特征摘要】
20190531 CN 20191046811031.一种结构化数据集质量评价模型生成方法,其特征在于,包括:
获取结构化数据集样本中各数据项和数据项之间的多个约束规则,所述约束规则的评估维度包括:准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度;
根据所述约束规则检验所述结构化数据集样本的多个数据条,获取各约束规则对应的满足条数;
依次获取单一评估维度中各约束规则对应的满足条数并加权求和,将所得和除以所述结构化数据集样本中数据的总条数,得到相应的评估维度指标;所述评估维度指标包括:准确性指标、一致性指标、完整性指标、冗余性指标和时效性指标;
获取多个结构化数据集样本对应的一种或多种评估维度指标作为输入,并获取各结构化数据集样本对应的质量评估结果作为输出,生成样本训练集;
采用所述样本训练集对深度置信网络进行训练得到质量评估模型。


2.根据权利要求1所述的结构化数据集质量评价模型生成方法,其特征在于,获取结构化数据集样本中各数据项和数据项之间的多个约束规则,包括:
获取准确性维度的约束规则,包括:用于评价各数据项和数据项之间逻辑关系的一条或多条逻辑依赖约束规则,用于限定数据项值域范围的一条或多条值域约束规则,以及用于评价同一数据集内数据项之间函数关系的一条或多条等值函数依赖约束规则;
获取一致性维度的约束规则,包括:用于评价数据集内部数据和外部数据之间函数关系的一条或多条等值一致性约束规则,用于评价数据集内部数据和外部数据逻辑对应关系的一条或多条逻辑一致性约束规则,以及用于评价数据集内部数据和外部数据取值对应关系的一条或多条存在一致性规则;
获取完整性维度的约束规则,包括:用于评价数据项连续性关系的一条或多条连续性约束规则,以及用于评价数据项取值不能为空的一条或多条非空约束规则;
获取冗余性维度的约束规则,包括:用于限制数据集内不能出现重复数据项或数据条的一条或多条重复性约束规则,用于评价数据集内数据项之间词汇特征相似度的一条或多条相似性约束规则,以及用于评价同一数据项出现次数的稀缺性约束规则;
获取时效性维度的约束规则,包括:用于评价数据项产生时间是否在指定时间段的一条或多条及时性约束规则。


3.根据权利要求1所述的结构化数据集质量评价模型生成方法,其特征在于,获取单一评估维度中各约束规则对应的满足条数并加权求和之前,还包括:
获取多组同类型的结构化数据集样本;
分别获取每个约束规则在各结构化数据集样本对应的多条数据中的满足条数;
获取单一评估维度中的每个约束规则在各结构化数据集样本中的满足条数,并采用熵值法计算所述准确性规则中各约束规则对应的权重数值。


4.根据权利要求1所述的结构化数据集质量评价模型生成方法,其特征在于,所述深度置信网络为BP神经网络。


5.根据权利要求1所述的结构化数据集质量评价模型生成方法,其特征在于,获取结构化数据集样本中各数据项和数据项之间的多个约束规则之前,还包括:
获取数据质量评价需求,并根据所述数据质量评价需求获取对应的约束规则,所述数据质量评价需求包括:准确性评价需求、一致性评价需求、完整性评价需求、冗余性评价需求以及时效性评价需求。


6.一种结构化数据集质量评价方法,其特征在于,包括:<...

【专利技术属性】
技术研发人员:田海斌郭淼中王志成
申请(专利权)人:北京东方融信达软件技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1