数据质量评估方法及系统技术方案

技术编号:28498149 阅读:23 留言:0更新日期:2021-05-19 22:35
本申请公开了一种数据质量评估方法及系统,数据质量评估方法包括:数据类型评估步骤:对启动服务初始的数据进行质量评估输出第一评估结果:数据关联关系评估步骤:根据启动服务初始的所述数据之间的关联关系进行质量评估输出第二评估结果;检测步骤:根据第一评估结果及第二评估结果对所述数据的质量进行检测;所述数据包括被推荐的主体数据、物料数据及行为数据。本发明专利技术可以精确全面的了解初始数据量级、条数、字段分布情况,判断是否出现数量过少可能不满足训练要求、数量过多导致训练消耗资源过多时间过长、字段分布存在偏差与实际情况不一致导致模型效果。情况不一致导致模型效果。情况不一致导致模型效果。

【技术实现步骤摘要】
数据质量评估方法及系统


[0001]本专利技术属于数据质量评估的方法领域,具体涉及一种数据质量评估方法、系统、计算机设备及存储介质。

技术介绍

[0002]随着信息不断的迅速膨胀,用户兴趣的多变,新内容的迅速迭代,越来越需求能快速获取用户直接需求或者潜在需求的信息,在这种需求下推荐系统的应用越来越广泛。
[0003]当对于一个新的位置或者场景需求进行推荐服务的时候,需求对应的数据结合算法得出最适合的推荐结果,在初始情况下,先需要提供可供启动服务的数据,得到初始的推荐结果,后续再不断补充物料信息、行为数据等进行更新迭代。为了保证初始推荐结果的获取以及准确性,对于提供的启动服务的数据需要有一定的质量保证,否则会出现推荐结果不准确或者无可推荐内容的情况。
[0004]与本专利技术相关的现有技术一;
[0005]现有技术一的技术方案:
[0006]一般来说,启动数据的提供多以全部离线提供或者部分离线提供为主,包括被推荐的主体,推荐的物料,以及行为数据。通常情况下会对这三份数据进行总数量的统计及去重后数量的统计,例如被推荐主体数据的条数、被推荐主体主ID去重后的数量、推荐物料的条数、被推荐物料主ID去重后的条数、行为数据条数、根据标识唯一行为ID去重后的条数。提示当数量比较少的时候,可能会导致推荐结果不准确或者筛选后无可推荐的结果的情况。
[0007]现有技术一的缺点:
[0008]此方式多以提示为主,并且割裂的统计启动数据的数量,并没有将所有数据关联查看或者结合模型进行质量评估
[0009]现有技术二的技术方案:
[0010]对于启动数据本身的数据并不进行统计,直接进行模型训练,提供模型训练结果反映训练数据本身的质量情况。
[0011]现有技术二的缺点:
[0012]1.模型训练需要时间,当训练结果不理想的情况下再进行数据修复,需要重新进行数据上传、数据训练的流程,会浪费大量的时间。
[0013]2.模型的训练结果无法反应具体数据哪个方面可能存在质量问题,有可能再次提供的训练数据仍然存在同样的问题。

技术实现思路

[0014]本申请实施例提供了一种数据质量评估方法、系统、计算机设备及存储介质,以至少解决相关技术中主观因素影响的问题。
[0015]本专利技术提供了一种数据质量评估方法,其中,包括:
[0016]数据类型评估步骤:对启动服务初始的数据进行质量评估输出第一评估结果:
[0017]数据关联关系评估步骤:根据启动服务初始的所述数据之间的关联关系进行质量评估输出第二评估结果;
[0018]检测步骤:根据第一评估结果及第二评估结果对所述数据的质量进行检测。
[0019]上述数据质量评估方法,其中,所述数据包括被推荐的主体数据、物料数据及行为数据。
[0020]上述数据质量评估方法,其中,所述被推荐的主体数据和所述物料数据的评估标准包括:
[0021]总条数、按照主ID去重后的被推荐主体的数量、每个字段空值的数量、可枚举字段的各个值的分布、非可枚举字段的值的分布情况、数据量大小、存在枚举值大小和数据范围的字段中符合数据范围/格式的数量的数据类别进行评估。
[0022]上述数据质量评估方法,其中,所述行为数据的评估标准包括:
[0023]总条数、按照标识唯一行为的ID进行去重后的数量、按照行为类别进行分类、数据量大小、存在枚举值及数据范围的字段中符合数据范围/格式的数量的数据类别进行评估。
[0024]上述数据质量评估方法,其中,所述数据关联关系评估步骤包括:
[0025]整合步骤:将所述被推荐的主体数据、所述物料数据及所述行为数据中反应关联关系的数据进行整合获得关联关系数据;
[0026]关联关系数据评估步骤:对所述关联关系数据进行质量评估输出第二评估结果。
[0027]上述数据质量评估方法,其中,所述关联关系数据的评估标准包括:
[0028]被推荐主体的按照主体,ID去重后的条数,整合数据中物料按照主体ID去重后的条数,整合数据总条数,分被推荐主体类别的数据,分物料类别、标签及特征值。
[0029]本专利技术还提供一种数据质量评估系统,其中,包括:
[0030]数据类型评估单元,对启动服务初始的数据进行质量评估输出第一评估结果:
[0031]数据关联关系评估单元,根据启动服务初始的所述数据之间的关联关系进行质量评估输出第二评估结果;
[0032]检测单元,根据第一评估结果及第二评估结果对所述数据的质量进行检测。
[0033]上述数据质量评估系统,其中,所述数据包括被推荐的主体数据、物料数据及行为数据。
[0034]上述数据质量评估系统,其中,所述数据关联关系评估单元包括:
[0035]整合模块,将所述被推荐的主体数据、所述物料数据及所述行为数据中反应关联关系的数据进行整合获得关联关系数据;
[0036]关联关系数据评估模块,对所述关联关系数据进行质量评估输出第二评估结果。
[0037]上述数据质量评估系统,其中,所述被推荐的主体数据和所述物料数据的评估标准包括:
[0038]总条数、按照主ID去重后的被推荐主体的数量、每个字段空值的数量、可枚举字段的各个值的分布、非可枚举字段的值的分布情况、数据量大小、存在枚举值大小和数据范围的字段中符合数据范围/格式的数量的数据类别进行评估;
[0039]所述行为数据的评估标准包括:
[0040]总条数、按照标识唯一行为的ID进行去重后的数量、按照行为类别进行分类、数据
量大小、存在枚举值及数据范围的字段中符合数据范围/格式的数量的数据类别进行评估;
[0041]所述关联关系数据的评估标准包括:
[0042]被推荐主体的按照主体,ID去重后的条数,整合数据中物料按照主体ID去重后的条数,整合数据总条数,分被推荐主体类别的数据,分物料类别、标签及特征值。
[0043]本专利技术的有益效果在于:
[0044](1)可以精确全面的了解初始数据量级、条数、字段分布情况,判断是否出现数量过少可能不满足训练要求、数量过多导致训练消耗资源过多时间过长、字段分布存在偏差与实际情况不一致导致模型效果不好;
[0045](2)通过数据汇总,再准确的计算可用的被推荐主体的数量情况、物料情况。例如,当提供的被推荐主体和物料在行为数据中不存在时,即使提供的被推荐主体和物料的数据比较大,也无法使用。
[0046]此种方式可以在模型开始训练之前了解此次提供的初始数据的情况,预先评估是否能进行下一步的模型训练。并且使用者看到这些数据可以很清晰的了解当数据存在问题时下一步应该如何解决。
附图说明
[0047]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
[0048]在附图中:
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量评估方法,其特征在于,包括:数据类型评估步骤:对启动服务初始的数据进行质量评估输出第一评估结果:数据关联关系评估步骤:根据启动服务初始的所述数据之间的关联关系进行质量评估输出第二评估结果;检测步骤:根据第一评估结果及第二评估结果对所述数据的质量进行检测。2.如权利要求1所述的一种数据质量评估方法,其特征在于,所述数据包括被推荐的主体数据、物料数据及行为数据。3.如权利要求2所述的一种数据质量评估方法,其特征在于,所述被推荐的主体数据和所述物料数据的评估标准包括:总条数、按照主ID去重后的被推荐主体的数量、每个字段空值的数量、可枚举字段的各个值的分布、非可枚举字段的值的分布情况、数据量大小、存在枚举值大小和数据范围的字段中符合数据范围/格式的数量的数据类别进行评估。4.如权利要求2所述的一种数据质量评估方法,其特征在于,所述行为数据的评估标准包括:总条数、按照标识唯一行为的ID进行去重后的数量、按照行为类别进行分类、数据量大小、存在枚举值及数据范围的字段中符合数据范围/格式的数量的数据类别进行评估。5.如权利要求2所述的一种数据质量评估方法,其特征在于,所述数据关联关系评估步骤包括:整合步骤:将所述被推荐的主体数据、所述物料数据及所述行为数据中反应关联关系的数据进行整合获得关联关系数据;关联关系数据评估步骤:对所述关联关系数据进行质量评估输出第二评估结果。6.如权利要求5所述的一种数据质量评估方法,其特征在于,所述关联关系数据的评估标准包括:被推荐主体的按照主体,ID去重后的条数,整合数据中物料按照主体ID去重后的条数,整合数据总条数,分被推荐...

【专利技术属性】
技术研发人员:黄山姗
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1