一种数据资源质量评估方法及装置制造方法及图纸

技术编号：44585355 阅读：6 留言：0更新日期：2025-03-14 12:46

本发明专利技术公开了一种数据资源质量评估方法及装置，包括采集不同来源的数据资源和提取数据，对所述数据资源和所述提取数据进行预处理；所述数据资源包括标准数据和非标准数据；对所述非标准数据进行差异匹配获得差异度数据，对所述差异度数据和所述标准数据进行对比分析获取异常系数；对所述提取数据进行满意度综合分析获得满意度综合得分，根据所述异常系数和所述满意度综合得分构建数据资源质量评估模型；根据评估误差优化所述数据资源质量评估模型，将待评估数据输入所述数据资源质量评估模型，输出评估结果。该方法不仅可以提高数据资源质量评估的精度，同时具有较好的可解释性，可以直接应用于数据资源质量评估系统中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及质量评估领域，尤其涉及一种数据资源质量评估方法及装置。

技术介绍

1、随着信息技术的飞速发展和大数据时代的到来，数据已成为企业决策、科学研究和社会治理的重要依据。然而，数据资源的来源广泛且复杂，包括各种标准数据和非标准数据。标准数据通常遵循特定的格式、规范和标准，易于处理和分析；而非标准数据则可能来源于不同的系统、平台或设备，其格式、结构和质量各异，给数据应用带来了极大的挑战。

2、在数据资源的应用过程中，数据质量的好坏直接影响到数据分析和决策的准确性。因此，对数据资源的质量进行评估显得尤为重要。现有的数据质量评估方法大多侧重于数据的完整性、准确性、一致性和时效性等单一维度的评估，缺乏一个全面、系统的评估体系。特别是对于包含大量非标准数据的数据资源，如何有效地识别和处理非标准数据与标准数据之间的差异，进而准确评估数据资源的质量，成为当前亟待解决的问题。

3、因此，寇待专利技术一种新的数据资源质量评估方法，提高数据资源质量评估的全面性和准确性。

技术实现思路

1、本专利技术的目的是要提供一种数据资源质量评估方法。

2、为达到上述目的，本专利技术是按照以下技术方案实施的：

3、本专利技术包括以下步骤：

4、采集不同来源的数据资源和提取数据，对所述数据资源和所述提取数据进行预处理；所述数据资源包括标准数据和非标准数据；

5、对所述非标准数据进行差异匹配获得差异度数据，对所述差异度数据和所述标准数据进行对比分析获取异常系数；包括：

6、将非标准数据输入匹配模型，对非标准数据进行随机分段，并计算非标准数据间的相似度：

7、

8、其中非标准数据w和非标准数据y的相似度为γ(w,y)，第i段非标准数据向量为wi，非标准数据向量wi的邻域为q(wi)，第i处非标准数据向量为yi，非标准数据向量yi的邻域为q(yi)，第i个影响乘子为ζi，调控常数为x，非标准数据的分段数量为

9、将相似度最大的非标准数据分为一组获得常规组，将相似度小于0.352的非标准数据作为特殊组，获得分组；

10、根据常规组计算非标准数据之间的匹配度：

11、

12、其中常规组z的非标准数据w为zw，常规组z的非标准数据y为zy，非标准数据zw和非标准数据zy的匹配度为常规组z内非标准数据的数量为nw，非标准数据zw的真实概率分布为p(zw)，非标准数据zw的估计概率分布为s(zw)；

13、根据常规组计算非标准数据之间的差异度：

14、

15、其中非标准数据zw和非标准数据zy的差异度为β(zw,zy)，关联差异度将常规组非标准数据的差异部分作为第一差异度数据；

16、将特殊组与标准数据进行匹配，计算标准数据和非标准数据的差异度，关联差异度将特殊组非标准数据的差异部分作为第二差异度数据；

17、将第一差异度数据和第二差异度数据合并输出为差异度数据；

18、对所述提取数据进行满意度综合分析获得满意度综合得分，根据所述异常系数和所述满意度综合得分构建数据资源质量评估模型；

19、根据评估误差优化所述数据资源质量评估模型，将待评估数据输入所述数据资源质量评估模型，输出评估结果。

20、进一步的，，对所述差异度数据和所述标准数据进行对比分析获取异常系数的方法，包括：

21、将差异度数据和标准数据输入对比分析模型，标准数据作为对比库，计算第一差异度数据和标准数据的相似度：

22、

23、其中核宽为φ，调控因子为σ，第j个第一差异度数据为fj，第j个标准数据为aj，第一差异度数据fj和标准数据aj的欧氏距离为d(aj,fj)，第一差异度数据fj和标准数据aj的相似度为

24、将相似度最大的标准数据作为第一差异度数据的第一对照组，筛选相似度小于0.312的作为歧义数据；

25、计算歧义数据和标准数据的匹配度：

26、

27、其中第一差异度数据fj和歧义数据qj的匹配度为欧氏距离的权重系数χ，相似度的权重系数为χo，余弦函数为cos(·)，优化参数为υ；

28、将匹配度最高的标准数据作为歧义数据的第二对照数据，

29、对第一对照组和第二对照数据进行分段，按照异常位数对分段后的第一对照组和第二对照数据进行排序获得排序数据，并计算排序数据的异常系数：

30、

31、其中排序数据的分段数量为n1，排序数据的异常位数为nam，第j个排序数据的质量关联度为εj，比例权重为异常量权重为排序数据的重要性为θj，排序数据f的异常系数为

32、进一步的，，对所述提取数据进行满意度综合分析获得满意度综合得分的方法，包括：

33、计算提取数据的满意度综合得分：

34、

35、其中提取数据u的满意度综合得分为du，第j个提取数据为uj，第j个标准数据为aj，提取数据uj和标准数据aj的相似度为标准数据的上传时间为to，提取数据的上传时间为tu，提取数据u的获取难度为ψu，提取数据uj的完整性为第一权重为η1，第二权重为η2，第三权重为η3；

36、将满意度综合得分作为分析目的，采用决策树算法进行综合分析获得预测满意度综合得分，根据预测满意度综合得分和实际满意度综合得分的误差调整第一权重、第一权重和第三权重；

37、根据调整后的第一权重、第一权重和第三权重重新计算提取数据的满意度综合得分。

38、进一步的，，根据所述异常系数和所述满意度综合得分构建数据资源质量评估模型的方法，包括：

39、根据异常系数和满意度综合得分构造质量评估函数，表达式为：

40、

41、其中第s个数据的重要性为μs，排序数据f的异常系数为第s个提取数据为us，提取数据us的满意度综合得分为研究数据的数量为n，质量评估函数为

42、将质量评估函数的实际值和预测值的损失函数最小值作为数据资源质量评估模型的目标函数，数据资源质量评估模型包括局部离群因子检测算法、哈希算法、机器学习算法；

43、局部离群因子检测算法评估输入数据与邻近数据的密度差异，根据密度差异识别异常值，根据异常值获取异常数据；

44、哈希算法计算异常数据的模式串和文本串子串哈希值，通过比较哈希值进行潜在匹配，对潜在匹配进行比较获得匹配组；

45、机器学习算法通过学习匹配组的数据模式，自动识别并标记出潜在的数据质量问题，按照质量评估函数对数据质量问题进行自动化评估，直到目标函数达到最小值，则输出评估结果。

46、进一步的，根据评估误差优化所述数据资源质量评估模型的方法，包括：

47、引入粒子种群，将评估误差最小化作为搜索策略，对粒子种群进行混沌映射，表达式为：

48、

49、其中本文档来自技高网...

【技术保护点】

1.一种数据资源质量评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种数据资源质量评估方法，其特征在于，对所述差异度数据和所述标准数据进行对比分析获取异常系数的方法，包括：

3.根据权利要求1所述一种数据资源质量评估方法，其特征在于，对所述提取数据进行满意度综合分析获得满意度综合得分的方法，包括：

4.根据权利要求1所述一种数据资源质量评估方法，其特征在于，根据所述异常系数和所述满意度综合得分构建数据资源质量评估模型的方法，包括：

5.根据权利要求1所述一种数据资源质量评估方法，其特征在于，根据评估误差优化所述数据资源质量评估模型的方法，包括：

6.一种电子设备，包括：处理器；以及

7.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行所述权利要求1～5任一项所述方法。

【技术特征摘要】

1.一种数据资源质量评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种数据资源质量评估方法，其特征在于，对所述差异度数据和所述标准数据进行对比分析获取异常系数的方法，包括：

3.根据权利要求1所述一种数据资源质量评估方法，其特征在于，对所述提取数据进行满意度综合分析获得满意度综合得分的方法，包括：

4.根据权利要求1所述一种数据资源质量评估方法，其特征在于，根据所述异常系数和...

【专利技术属性】
技术研发人员：张欣亮，张雪飞，张敬娟，郑鹰，侯韩芳，苏宏宇，王春艳，李晶，
申请(专利权)人：中国标准化研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人