System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据质量探测及自处理方法技术_技高网

一种数据质量探测及自处理方法技术

技术编号:41797791 阅读:5 留言:0更新日期:2024-06-24 20:21
本发明专利技术特别涉及一种数据质量探测及自处理方法。该数据质量探测及自处理方法,基于人工智能算法构建数据质量评估模型和数据自处理模型;根据业务需求和数据使用场景,自定义设定数据质量指标和阈值;数据质量评估模型对数据进行深度学习和量化评估,找出存在问题的数据;利用数据自处理模型自动或半自动地对存在问题的低质量数据进行清洗和预处理;在数据使用过程中,持续监控数据质量,如果发现新的数据质量问题,则再次进行数据自处理,形成一个闭环的反馈机制。该数据质量探测及自处理方法,实现了数据的自动化分析与治理,不仅提高了数据质量,还节省了数据治理的时间,提高了数据治理效率,降低了数据治理成本,保障了数据安全。

【技术实现步骤摘要】

本专利技术涉及数据管理,特别涉及一种数据质量探测及自处理方法


技术介绍

1、随着数据要素市场的逐步发展和规范,对各行各业的数据质量要求越来越高。但在实际应用中,由于缺乏固定格式或模型,对数据质量的评价对象多种多样。目前对数据质量评价主要依赖于专家或用户打分。同时统计数据质量的现状也存在一些问题,如数据失真、数据缺失较为突出。

2、随着大数据人工智能技术的发展,依据数据发展趋势,多源数据比对校验结果,提前验证数据的真实性,自动化处理相关问题,这些看似普通的技术,串联起来后将会发挥巨大的作用,对降低数据运维成本,提升数据质量将有重要意义。

3、基于上述情况,本专利技术提出了一种数据质量探测及自处理方法。


技术实现思路

1、本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的数据质量探测及自处理方法。

2、本专利技术是通过如下技术方案实现的:

3、一种数据质量探测及自处理方法,其特征在于:包括以下步骤:

4、步骤s1、基于人工智能算法构建数据质量评估模型和数据自处理模型;

5、步骤s2、根据业务需求和数据使用场景,自定义设定数据质量指标和阈值;

6、步骤s3、数据质量评估模型采用统计方法、规则引擎和机器学习算法对数据进行深度学习和量化评估,以实现对大数据集的质量检测,找出存在问题的数据;

7、步骤s4、利用数据自处理模型自动或半自动地对存在问题的低质量数据进行清洗和预处理;

8、步骤s5、在数据使用过程中,采用数据质量评估模型和数据自处理模型持续监控数据质量,以确保数据满足业务和应用的需求;如果发现新的数据质量问题,则再次进行数据自处理,形成一个闭环的反馈机制。

9、所述步骤s1中,使用logistic机器学习算法构建数据质量评估模型,基于数据血缘技术构建数据自处理模型;并根据实际应用情况和数据质量探测结果,不断优化和更新数据质量评估模型与数据自处理模型,提高数据质量探测和自处理的准确性和效率。

10、所述步骤s3中,数据质量评估模型根据用户自定义设定的数据质量指标将数据分为正常数据和异常数据两类,同时又将异常数据分为不一致数据、冗余数据和缺失数据;

11、若异常数据在数据总量中所占的比值超过用户自定义设定的阈值,则将对应的数据判定为低质量数据。

12、所述步骤s4中,对于数据质量评估模型分析查找出的异常数据,数据自处理模型基于数据血缘技术,采用插值或预测算法对缺失数据进行填充,对不一致数据进行清洗或转换,并标记为异常,对冗余数据进行去重或降维处理。

13、一种数据质量探测及自处理系统,其特征在于:包括指标与阈值设定模块,数据质量评估模块和数据自处理模块;

14、用户根据业务需求和数据使用场景,通过所述指标与阈值设定模块自定义设定数据质量指标和阈值;

15、所述数据质量评估模块负责采用统计方法、规则引擎和机器学习算法对数据进行深度学习和量化评估,以实现对大数据集的质量检测,找出存在问题的数据;

16、所述数据自处理模块负责自动或半自动地对存在问题的低质量数据进行清洗和预处理;

17、在数据使用过程中,所述数据质量评估模块与数据自处理模块持续监控数据质量,以确保数据满足业务和应用的需求;如果发现新的数据质量问题,则再次进行数据自处理,形成一个闭环的反馈机制。

18、所述数据质量评估模块使用logistic机器学习算法构建数据质量评估模型,根据用户自定义设定的数据质量指标将数据分为正常数据和异常数据两类,同时又将异常数据分为不一致数据、冗余数据和缺失数据;

19、若异常数据在数据总量中所占的比值超过用户自定义设定的阈值,则将对应的数据判定为低质量数据。

20、所述数据自处理模块基于数据血缘技术构建数据自处理模型;对于数据质量评估模块分析查找出的异常数据进行自处理;

21、并根据实际应用情况和数据质量探测结果,对数据质量评估模型与数据自处理模型不断进行优化与更新,以提高数据质量探测和自处理的准确性和效率。

22、所述数据自处理模块采用插值或预测算法对缺失数据进行填充,对不一致数据进行清洗或转换,并标记为异常,对冗余数据进行去重或降维处理。

23、一种数据质量探测及自处理设备,其特征在于:包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现上述的方法步骤。

24、一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法步骤。

25、本专利技术的有益效果是:该数据质量探测及自处理方法,实现了数据的自动化分析与治理,不仅提高了数据质量,还节省了数据治理的时间,提高了数据治理效率,降低了数据治理成本,保障了数据安全。

本文档来自技高网...

【技术保护点】

1.一种数据质量探测及自处理方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的数据质量探测及自处理方法,其特征在于:所述步骤S1中,使用logistic机器学习算法构建数据质量评估模型,基于数据血缘技术构建数据自处理模型;并根据实际应用情况和数据质量探测结果,不断优化和更新数据质量评估模型与数据自处理模型,提高数据质量探测和自处理的准确性和效率。

3.根据权利要求2所述的数据质量探测及自处理方法,其特征在于:所述步骤S3中,数据质量评估模型根据用户自定义设定的数据质量指标将数据分为正常数据和异常数据两类,同时又将异常数据分为不一致数据、冗余数据和缺失数据;

4.根据权利要求3所述的数据质量探测及自处理方法,其特征在于:所述步骤S4中,对于数据质量评估模型分析查找出的异常数据,数据自处理模型基于数据血缘技术,采用插值或预测算法对缺失数据进行填充,对不一致数据进行清洗或转换,并标记为异常,对冗余数据进行去重或降维处理。

5.一种数据质量探测及自处理系统,其特征在于:包括指标与阈值设定模块,数据质量评估模块和数据自处理模块;>

6.根据权利要求5所述的数据质量探测及自处理系统,其特征在于:所述数据质量评估模块使用logistic机器学习算法构建数据质量评估模型,根据用户自定义设定的数据质量指标将数据分为正常数据和异常数据两类,同时又将异常数据分为不一致数据、冗余数据和缺失数据;

7.根据权利要求6所述的数据质量探测及自处理系统,其特征在于:所述数据自处理模块采用插值或预测算法对缺失数据进行填充,对不一致数据进行清洗或转换,并标记为异常,对冗余数据进行去重或降维处理。

8.一种数据质量探测及自处理设备,其特征在于:包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现如权利要求1至4任意一项所述的方法。

9.一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任意一项所述的方法。

...

【技术特征摘要】

1.一种数据质量探测及自处理方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的数据质量探测及自处理方法,其特征在于:所述步骤s1中,使用logistic机器学习算法构建数据质量评估模型,基于数据血缘技术构建数据自处理模型;并根据实际应用情况和数据质量探测结果,不断优化和更新数据质量评估模型与数据自处理模型,提高数据质量探测和自处理的准确性和效率。

3.根据权利要求2所述的数据质量探测及自处理方法,其特征在于:所述步骤s3中,数据质量评估模型根据用户自定义设定的数据质量指标将数据分为正常数据和异常数据两类,同时又将异常数据分为不一致数据、冗余数据和缺失数据;

4.根据权利要求3所述的数据质量探测及自处理方法,其特征在于:所述步骤s4中,对于数据质量评估模型分析查找出的异常数据,数据自处理模型基于数据血缘技术,采用插值或预测算法对缺失数据进行填充,对不一致数据进行清洗或转换,并标记为异常,对冗余数据进行去重或降维处理。

5.一种数据质...

【专利技术属性】
技术研发人员:王国超韩成轩吴玉雁石兴磊李倩倩王秀竹
申请(专利权)人:山东浪潮智慧医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1