System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,尤其是涉及一种数据清洗质量的评测方法及评测系统。
技术介绍
1、数据清洗是数据处理过程中最要的环节,数据清洗是对数据进行初步处理,包括去重、缺失值填充、异常值处理等。数据清洗的质量对后续数据的使用具有重要的影响,例如在训练神经网络模型时,数据清洗的质量直接影响模型的准确性。
2、现有技术中通常采用二次验证对海量清洗后的数据进行评测,其评测耗时费力,数据清洗的质量缺乏有效的评测。
技术实现思路
1、本专利技术提供了一种数据清洗质量的评测方法及评测系统,以解决现有技术中二次验证对海量清洗后的数据进行评测耗时费力的技术问题。
2、本专利技术的一个方面在于提供一种数据清洗质量的评测方法,所述评测方法包括如下方法步骤:
3、s1、获取经过数据清洗的不同类型的待评测数据;其中,待评测数据为多条;
4、s2、从不同类型的待评测数据中,收集影响数据清洗质量的异常数据样例,并将异常数据样例按照待评测数据的不同类型,划分为与待评测数据类型一一对应的不同类型的异常数据样例;
5、s3、根据不同类型的异常数据样例,创建与待评测数据类型一一对应的不同类型的评测规则;
6、s4、利用创建的不同类型的评测规则,对每一类型待评测数据的每一条待评测数据进行评测;
7、s5、记录每一条待评测数据的评测结果,并统计每一类型待评测数据中异常数据的占比;
8、当任一类型待评测数据中异常数据的占比大于0,则判
9、在一个优选的实施例中,在步骤s1中,通过从hive数据仓库中提取经过数据清洗的不同类型的待评测数据,或者基于文本提取经过数据清洗的不同类型的待评测数据。
10、在一个优选的实施例中,在步骤s1中,不同类型的待评测数据至少包括:中文类型的待评测数据和英文类型的待评测数据。
11、在一个优选的实施例中,在步骤s2中,不同类型的异常数据样例至少包括:中文类型的异常数据样例和英文类型的异常数据样例。
12、在一个优选的实施例中,在步骤s3中,不同类型的评测规则至少包括:中文类型的评测规则和英文类型的评测规则。
13、在一个优选的实施例中,在步骤s3中,创建的每一类型的评测规则包括,组装的多个规则。
14、在一个优选的实施例中,在步骤s4中,对每一类型待评测数据配置对应类型的评测规则,对每一类型待评测数据的每一条待评测数据进行评测。
15、本专利技术的另一个方面在于提供一种数据清洗质量的评测系统,所述评测系统包括待评测数据获取模块,用于获取经过数据清洗的不同类型的待评测数据;其中,待评测数据为多条;
16、异常数据样例收集模块,用于从不同类型的待评测数据中,收集影响数据清洗质量的异常数据样例,并将异常数据样例按照待评测数据的不同类型,划分为与待评测数据类型一一对应的不同类型的异常数据样例;
17、评测规则创建模块,用于根据不同类型的异常数据样例,创建与待评测数据类型一一对应的不同类型的评测规则;
18、评测模块,用于利用创建的不同类型的评测规则,对每一类型待评测数据的每一条待评测数据进行评测;
19、数据清洗质量判定模块,用于记录每一条待评测数据的评测结果,并统计每一类型待评测数据中异常数据的占比;
20、当任一类型待评测数据中异常数据的占比大于0,则判定数据清洗质量不通过。
21、在一个优选的实施例中,不同类型的待评测数据至少包括:中文类型的待评测数据和英文类型的待评测数据;
22、不同类型的异常数据样例至少包括:中文类型的异常数据样例和英文类型的异常数据样例;
23、不同类型的评测规则至少包括:中文类型的评测规则和英文类型的评测规则;
24、创建的每一类型的评测规则包括,组装的多个规则。
25、在一个优选的实施例中,对每一类型待评测数据配置对应类型的评测规则,对每一类型待评测数据的每一条待评测数据进行评测。
26、与现有技术相比,本专利技术具有以下有益效果:
27、本专利技术提供的一种数据清洗质量的评测方法及评测系统,通过建立评测规则,针对每一类型待评测数据配置对应的评测规则,分析出异常数据并对该类数据的影响,对清洗后的大模型海量待处理数据进行质量评测,并对整体数据清洗质量进行判定,为判断数据是否已达到可使用程度提供依据,有效解决二次验证对海量清洗后的数据进行评测耗时费力的问题。
28、本专利技术提供的一种数据清洗质量的评测方法及评测系统,既能快速为海量数据质量作为参考又能持续补充清洗规则使数据清洗更加完善高效。
本文档来自技高网...【技术保护点】
1.一种数据清洗质量的评测方法,其特征在于,所述评测方法包括如下方法步骤:
2.根据权利要求1所述的评测方法,其特征在于,在步骤S1中,通过从hive数据仓库中提取经过数据清洗的不同类型的待评测数据,或者基于文本提取经过数据清洗的不同类型的待评测数据。
3.根据权利要求1所述的评测方法,其特征在于,在步骤S1中,不同类型的待评测数据至少包括:中文类型的待评测数据和英文类型的待评测数据。
4.根据权利要求1所述的评测方法,其特征在于,在步骤S2中,不同类型的异常数据样例至少包括:中文类型的异常数据样例和英文类型的异常数据样例。
5.根据权利要求1所述的评测方法,其特征在于,在步骤S3中,不同类型的评测规则至少包括:中文类型的评测规则和英文类型的评测规则。
6.根据权利要求1或5所述的评测方法,其特征在于,在步骤S3中,创建的每一类型的评测规则包括,组装的多个规则。
7.根据权利要求1所述的评测方法,其特征在于,在步骤S4中,对每一类型待评测数据配置对应类型的评测规则,对每一类型待评测数据的每一条待评测数据进行评
8.一种数据清洗质量的评测系统,其特征在于,所述评测系统包括待评测数据获取模块,用于获取经过数据清洗的不同类型的待评测数据;其中,待评测数据为多条;
9.根据权利要求8所述的评测系统,其特征在于,不同类型的待评测数据至少包括:中文类型的待评测数据和英文类型的待评测数据;
10.根据权利要求8所述的评测系统,其特征在于,对每一类型待评测数据配置对应类型的评测规则,对每一类型待评测数据的每一条待评测数据进行评测。
...【技术特征摘要】
1.一种数据清洗质量的评测方法,其特征在于,所述评测方法包括如下方法步骤:
2.根据权利要求1所述的评测方法,其特征在于,在步骤s1中,通过从hive数据仓库中提取经过数据清洗的不同类型的待评测数据,或者基于文本提取经过数据清洗的不同类型的待评测数据。
3.根据权利要求1所述的评测方法,其特征在于,在步骤s1中,不同类型的待评测数据至少包括:中文类型的待评测数据和英文类型的待评测数据。
4.根据权利要求1所述的评测方法,其特征在于,在步骤s2中,不同类型的异常数据样例至少包括:中文类型的异常数据样例和英文类型的异常数据样例。
5.根据权利要求1所述的评测方法,其特征在于,在步骤s3中,不同类型的评测规则至少包括:中文类型的评测规则和英文类型的评测规则。
6...
【专利技术属性】
技术研发人员:周永星,
申请(专利权)人:上海岩芯数智人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。