System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理领域,尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。
技术介绍
1、随着大数据时代的到来,企业和组织处理的数据量越来越大,数据质量的保证成为了一个关键问题。特别是在数仓的etl加工任务中,对目标表数据进行质量检测和异常处理尤为重要。这些数据可能来自于不同的来源,经过多次处理和转换,因此可能存在各种质量问题,如数据缺失、错误数据、重复数据等。
2、目前的异常数据处理方法主要依靠简单的统计分析进行检测,然后针对检测到的不同异常值类型的数据采用预先配置的处理策略,对于复杂的数据质量问题,统计分析难以快速覆盖所有数据异常情况,异常数据处理效率低。
技术实现思路
1、本申请实施例提供一种数据处理方法、装置、设备、存储介质及程序产品,通过在异常值类型为多种类型时根据异常值类型,不同异常值类型的数据量以及预设的数量阈值确定采用的异常值处理策略,有利于提高复杂数据场景下的异常数据处理效率。
2、第一方面,本申请实施例提供了一种数据处理方法,包括:
3、根据第一数据检测模型对预处理后的第一目标表数据进行质量检测;检测到所述第一目标表数据存在异常数据,确定所述第一目标表数据中异常数据的异常值类型;检测到所述第一目标表数据中多个异常数据的异常值类型不同,且所述第一目标表数据中不同异常值类型的数据对应的异常值处理策略不同,根据所述异常值类型、第一数量阈值以及第二数量阈值确定目标异常值处理策略;根据所述目标异常值处理策略对所述第一目标表数据中
4、第二方面,本申请实施例提供了一种数据处理装置,包括:
5、检测模块,用于根据第一数据检测模型对预处理后的第一目标表数据进行质量检测;
6、确定模块,用于检测到所述第一目标表数据存在异常数据,确定所述第一目标表数据中异常数据的异常值类型;以及用于检测到所述第一目标表数据中多个异常数据的异常值类型不同,且所述第一目标表数据中不同异常值类型的数据对应的异常值处理策略不同,根据所述异常值类型、第一数量阈值以及第二数量阈值确定目标异常值处理策略;
7、处理模块,用于根据所述目标异常值处理策略对所述第一目标表数据中的异常数据进行处理。
8、第三方面,本申请实施例提供了一种数据处理设备,设备包括:
9、存储器、处理器及存储在存储器上并可在处理器上运行的数据处理程序,数据处理程序配置为实现如第一方面中任一方法中所描述的部分或全部步骤。
10、第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有数据处理程序,数据处理程序被处理器执行时实现如第一方面中任一方法中所描述的部分或全部步骤。
11、第五方面,本申请实施例提供了一种计算机程序产品,其中,计算机程序产品包括计算机程序,计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
12、通过实施本申请实施例,服务器先根据第一数据检测模型对预处理后的第一目标表数据进行质量检测;然后检测到第一目标表数据存在异常数据,确定第一目标表数据中异常数据的异常值类型;然后检测到第一目标表数据中多个异常数据的异常值类型不同,且第一目标表数据中不同异常值类型的数据对应的异常值处理策略不同,根据异常值类型、第一数量阈值以及第二数量阈值确定目标异常值处理策略;最后根据目标异常值处理策略对第一目标表数据中的异常数据进行处理。通过在异常值类型不同时根据异常值类型,不同异常值类型的数据量以及预设的数量阈值确定异常值处理策略,有利于提高复杂数据场景下的异常数据处理效率。
本文档来自技高网...【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,在所述检测到所述第一目标表数据中多个异常数据的异常值类型不同,且所述第一目标表数据中不同异常值类型的数据对应的异常值处理策略不同,根据所述异常值类型、第一数量阈值以及第二数量阈值确定目标异常值处理策略之前,所述方法还包括:
3.如权利要求2所述的方法,其特征在于,所述根据所述异常值类型、第一数量阈值以及第二数量阈值确定目标异常值处理策略,包括:
4.如权利要求1所述的方法,其特征在于,在所述根据第一数据检测模型对预处理后的第一目标表数据进行质量检测之前,所述方法还包括:
5.如权利要求4所述的方法,其特征在于,所述预处理包括去除重复数据、处理缺失值以及格式转换,所述特征提取为基于统计分析的特征提取。
6.如权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
7.一种数据处理装置,其特征在于,所述装置包括:
8.一种数据处理设备,其特征在于,所述设备包括:
9.一种计算机可读存储介质,其特
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序用于使计算机执行如权利要求1-6任一项所述数据处理方法的步骤。
...【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,在所述检测到所述第一目标表数据中多个异常数据的异常值类型不同,且所述第一目标表数据中不同异常值类型的数据对应的异常值处理策略不同,根据所述异常值类型、第一数量阈值以及第二数量阈值确定目标异常值处理策略之前,所述方法还包括:
3.如权利要求2所述的方法,其特征在于,所述根据所述异常值类型、第一数量阈值以及第二数量阈值确定目标异常值处理策略,包括:
4.如权利要求1所述的方法,其特征在于,在所述根据第一数据检测模型对预处理后的第一目标表数据进行质量检测之前,所述方法还包括:
5.如权利要求4所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:蒋朝新,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。