【技术实现步骤摘要】
结构化数据集质量评价模型生成方法、评价方法及装置
本专利技术涉及数据评估
,尤其涉及一种结构化数据集质量评价模型生成方法、评价方法及装置。
技术介绍
随着信息技术的发展,数据逐渐成为企业的重要资产,对生产经营、科学研究以及管理和决策等起着重要的作用。然而在产生和管理数据的过程中,即使有良好设计和规划的信息系统也不能保证产生和存放数据的质量都能满足用户的要求。用户录入错误、企业合并以及企业环境随着时间的推移而改变,这些都会影响所存放数据的质量。数据质量对于企业战略决策至关重要,因此数据质量的检测与数据质量的评估显得越来越重要,对数据质量评估的要求也更加迫切。部分企业结合其所处的行业特点开发了数据质量检测系统来解决自身数据质量问题,这些系统的质量评估模型各有特点,但大多采用加权的形式完成评价,评价参数与质量评估结果之间的权重系数多由人为确定,受主观因素影响较大,准确性不能保障。
技术实现思路
鉴于此,本专利技术实施例提供了一种结构化数据集质量评价模型生成方法、评价方法及装置,通过训练深度置信网络生成质量评估模型,利用多个中间层连接评估维度指标与质量评估结果,减少了人为主观因素的影响,提高评价的精确度。本专利技术的技术方案如下:一方面,本专利技术提供一种结构化数据集质量评价模型生成方法,包括:获取结构化数据集样本中各数据项和数据项之间的多个约束规则,所述约束规则的评估维度包括:准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度;根据所述约束规则检验所述结构化数据集样 ...
【技术保护点】
1.一种结构化数据集质量评价模型生成方法,其特征在于,包括:/n获取结构化数据集样本中各数据项和数据项之间的多个约束规则,所述约束规则的评估维度包括:准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度;/n根据所述约束规则检验所述结构化数据集样本的多个数据条,获取各约束规则对应的满足条数;/n依次获取单一评估维度中各约束规则对应的满足条数并加权求和,将所得和除以所述结构化数据集样本中数据的总条数,得到相应的评估维度指标;所述评估维度指标包括:准确性指标、一致性指标、完整性指标、冗余性指标和时效性指标;/n获取多个结构化数据集样本对应的一种或多种评估维度指标作为输入,并获取各结构化数据集样本对应的质量评估结果作为输出,生成样本训练集;/n采用所述样本训练集对深度置信网络进行训练得到质量评估模型。/n
【技术特征摘要】
20190531 CN 20191046811031.一种结构化数据集质量评价模型生成方法,其特征在于,包括:
获取结构化数据集样本中各数据项和数据项之间的多个约束规则,所述约束规则的评估维度包括:准确性维度、一致性维度、完整性维度、冗余性维度和时效性维度;
根据所述约束规则检验所述结构化数据集样本的多个数据条,获取各约束规则对应的满足条数;
依次获取单一评估维度中各约束规则对应的满足条数并加权求和,将所得和除以所述结构化数据集样本中数据的总条数,得到相应的评估维度指标;所述评估维度指标包括:准确性指标、一致性指标、完整性指标、冗余性指标和时效性指标;
获取多个结构化数据集样本对应的一种或多种评估维度指标作为输入,并获取各结构化数据集样本对应的质量评估结果作为输出,生成样本训练集;
采用所述样本训练集对深度置信网络进行训练得到质量评估模型。
2.根据权利要求1所述的结构化数据集质量评价模型生成方法,其特征在于,获取结构化数据集样本中各数据项和数据项之间的多个约束规则,包括:
获取准确性维度的约束规则,包括:用于评价各数据项和数据项之间逻辑关系的一条或多条逻辑依赖约束规则,用于限定数据项值域范围的一条或多条值域约束规则,以及用于评价同一数据集内数据项之间函数关系的一条或多条等值函数依赖约束规则;
获取一致性维度的约束规则,包括:用于评价数据集内部数据和外部数据之间函数关系的一条或多条等值一致性约束规则,用于评价数据集内部数据和外部数据逻辑对应关系的一条或多条逻辑一致性约束规则,以及用于评价数据集内部数据和外部数据取值对应关系的一条或多条存在一致性规则;
获取完整性维度的约束规则,包括:用于评价数据项连续性关系的一条或多条连续性约束规则,以及用于评价数据项取值不能为空的一条或多条非空约束规则;
获取冗余性维度的约束规则,包括:用于限制数据集内不能出现重复数据项或数据条的一条或多条重复性约束规则,用于评价数据集内数据项之间词汇特征相似度的一条或多条相似性约束规则,以及用于评价同一数据项出现次数的稀缺性约束规则;
获取时效性维度的约束规则,包括:用于评价数据项产生时间是否在指定时间段的一条或多条及时性约束规则。
3.根据权利要求1所述的结构化数据集质量评价模型生成方法,其特征在于,获取单一评估维度中各约束规则对应的满足条数并加权求和之前,还包括:
获取多组同类型的结构化数据集样本;
分别获取每个约束规则在各结构化数据集样本对应的多条数据中的满足条数;
获取单一评估维度中的每个约束规则在各结构化数据集样本中的满足条数,并采用熵值法计算所述准确性规则中各约束规则对应的权重数值。
4.根据权利要求1所述的结构化数据集质量评价模型生成方法,其特征在于,所述深度置信网络为BP神经网络。
5.根据权利要求1所述的结构化数据集质量评价模型生成方法,其特征在于,获取结构化数据集样本中各数据项和数据项之间的多个约束规则之前,还包括:
获取数据质量评价需求,并根据所述数据质量评价需求获取对应的约束规则,所述数据质量评价需求包括:准确性评价需求、一致性评价需求、完整性评价需求、冗余性评价需求以及时效性评价需求。
6.一种结构化数据集质量评价方法,其特征在于,包括:<...
【专利技术属性】
技术研发人员:田海斌,郭淼中,王志成,
申请(专利权)人:北京东方融信达软件技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。