System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于管道过滤模式的司法数据清洗和重建方法技术_技高网

基于管道过滤模式的司法数据清洗和重建方法技术

技术编号:43781572 阅读:3 留言:0更新日期:2024-12-24 16:17
本发明专利技术提供基于管道过滤模式的司法数据清洗和重建方法,涉及数据清洗和重建技术领域。包括过滤器接口、执行数据查询系统、数据流处理模块UpdateFilter;管道模块;管道构建器;异步请求和业务执行开关:数据处理计时器,本发明专利技术通过管道设计结合异步线程池,提供一种开发更直观,维护更方便,逻辑更清晰,数据处理稳定高效且不会对主干业务造成较大影响的司法千万级数据处理简单高效方法,本发明专利技术在数据处理效率、灵活性、稳定性和资源消耗方面均优于现有技术,为司法数据清洗和重建提供了更为高效、可靠和可扩展的解决方案。

【技术实现步骤摘要】

本专利技术属于数据清洗和重建,具体涉及基于管道过滤模式的司法数据清洗和重建方法


技术介绍

1、随着技术的发展,业务不断壮大,数据也成倍增长,当数据达到千万以上时,数据的处理便不再简单,再加上很多表结构设计初期无法预计到业务发展到一个很大量级时存在的问题,这时就需要对千万级数据做处理,如数据清洗(去除非必要、无用数据,保留有效数据)、表拆分(将大表大量数据合理分配,水平或者垂直拆分)、表重建(创建新表用于保存有效数据并提高查询效率),方式有很多种,需要根据实际业务情况和数据有效性选择一个最佳方法来处理。这几种方式的实现方式也很多,比如依赖其他第三方服务maxcompute或者其他大数据处理软件;另外就是基于业务逻辑自己实现,大致逻辑为循环分批捞取待处理数据,循环处理捞到的数据,需要重建时批量重建到新表中。

2、目前,通过第三方大数据处理软件:局限性太大,如果数据比较敏感或者安全要求较高时,不应暴露,并且第三方大数据处理软件功能基本是固定的,不够灵活;通过循环定制开发实现:实现难度大,需要根据业务实际运行情况、数据产出情况,制定好具体落实方案,数据量,控制好循环条件,消除数据处理对业务的影响,根据综合方案完成开发,期间耗时比较长,性能却不高,因此本领域技术人员提供了基于管道过滤模式的司法数据清洗和重建方法,以解决上述中存在的技术问题。


技术实现思路

1、为解决技术问题,本专利技术采用以下技术方案:包括过滤器接口、执行数据查询系统、数据流处理模块updatefilter;管道模块;管道构建器;异步请求和业务执行开关:数据处理计时器,所述过滤器接口采用filter<t>提供了process方法,实现不同过滤策略下的数据清洗处理,所述执行数据查询系统包括提供queryfilter:实现根据数据实体映射、查询条件参数查询目标数据记录结果集;basefilter:实现通过配置文件配置的基本过滤筛选条件后剩余结果集;updatefilter:实现数据清洗后,新表重建时需要进行的过滤策略;提供的过滤器实现,通过简单配置即可使用,针对比较灵活的业务场景自行实现filter接口。

2、优选地,所述管道模块包括:

3、pipelinedata:管道通信对象,用于建立默认的管道间通信数据实体;

4、pipelineprocessor<t>管道处理器,提供process默认流程编排,集成过滤器具体实现集合,集成线程池加快处理效率。

5、优选地,所述管道构建器采用pipelinebuilder,提供管道初始化,build方法,用于快速配置后初始化具体业务管道,提供管道初始化,build方法,用于快速配置后初始化具体业务管道。

6、优选地,所述异步请求和业务执行开关包括:

7、异步请求:提供业务逻辑兼容开关异步接口,确保线上数据处理过程中出现故障时能快速动态修改兼容开关;

8、业务执行开关:提供管道过滤器任务执行开关异步接口,根据业务实际情况,灵活开启或关闭业务处理

9、业务分页及步长控制:灵活根据业务情况设置分页大小和处理步长,提高处理效率和稳定性。

10、优选地,所述数据处理计时器用于开启每次异步数据处理的整体耗时,更直观地观察数据处理过程和速率,通过记录处理时间,可以识别出哪些数据处理步骤或操作消耗了最多的资源(cpu、内存),从而帮助优化系统配置和资源分配。

11、优选地,包括有以下处理步骤:

12、s1.数据采集模块:开始阶段,从不同的数据源采集原始司法数据;

13、s2.数据预处理模块:对采集到的原始数据进行初步清洗,如去除重复记录、填补缺失值、格式统一;

14、s3.管道模块:预处理后的数据通过管道模块传输,这个模块作为数据流的中转站,确保数据能够连续地流向下一个处理模块;

15、s4.过滤器模块序列:数据依次通过多个过滤器模块。每个过滤器模块负责特定的数据处理任务;

16、s5.数据校验:检查数据是否符合特定的规则或格式;

17、s6.数据转换:将数据转换为统一的数据格式或类型;

18、s7.异常值处理:识别并处理异常数据值;

19、s8.数据标准化:将数据标准化,如日期格式统一、数值范围规范化;

20、s9.数据重建模块:经过多个过滤器模块处理后的数据进入数据重建模块,按照一定的规则进行重建,如时间序列重建、关系数据库重建;

21、s10.数据存储模块:重建后的数据存储到数据存储模块,可以是数据库、文件系统或其他存储介质;

22、s11.结束:数据清洗和重建过程完成。

23、优选地,所述数据预处理步骤进一步包括:识别并去除重复的数据记录;对缺失的数据进行合理填补;将数据格式统一为标准格式。

24、优选地,所述方法通过模块化设计,使得每个处理模块可以独立开发、测试和升级,提高了系统的可维护性和可扩展性,所述方法通过自动化处理,提高了数据清洗和重建的效率,减少了人工干预,从而提高了数据处理的质量和准确性。

25、优选地,过滤器接口:实现多种清洗策略,如数据去重、缺失值处理,管道模块:采用消息队列机制,确保数据处理的高效性和可靠性,数据重建模块:根据档案数字化标准,设计数据结构化模型,实现数据的高效存储和检索。

26、优选地,本专利技术在数据处理效率、灵活性、稳定性和资源消耗方面均优于现有技术,为司法数据清洗和重建提供了更为高效、可靠和可扩展的解决方案。

27、优选地,通过异步请求和业务执行开关,系统稳定性比现有技术提高至少25%。

28、优选地,本专利技术在同数据处理量下,资源消耗比现有技术降低至少15%。

29、优选地,异步请求和业务执行开关允许动态修改兼容开关和业务处理,提高了系统的稳定性和适应性。

30、优选地,数据处理计时器记录处理时间,帮助识别资源消耗高的步骤,优化系统配置。

31、优选地,pipelinebuilder提供快速配置和初始化业务管道,简化系统开发过程。

32、有益效果:

33、与现有技术相比,该有益效果表现在:

34、本专利技术通过管道设计结合异步线程池,提供一种开发更直观,维护更方便,逻辑更清晰,数据处理稳定高效且不会对主干业务造成较大影响的司法千万级数据处理简单高效方法,本专利技术在数据处理效率、灵活性、稳定性和资源消耗方面均优于现有技术,为司法数据清洗和重建提供了更为高效、可靠和可扩展的解决方案,自动化处理流程,大幅提高档案数字化效率,保证质量:通过严格的清洗和校验流程,确保数据质量,易于管理:数字化后的档案易于管理和检索,提高了司法工作效率,通过本实施例,可以看出本专利技术在司法档案数字化中的应用具有显著的实际效果,为司法档案管理现代化提供了有力支持。

本文档来自技高网...

【技术保护点】

1.基于管道过滤模式的司法数据清洗和重建方法,其特征在于,包括过滤器接口、执行数据查询系统、数据流处理模块UpdateFilter;管道模块;管道构建器;异步请求和业务执行开关:数据处理计时器,所述过滤器接口采用Filter<T>提供了process方法,实现不同过滤策略下的数据清洗处理,所述执行数据查询系统包括提供QueryFilter:实现根据数据实体映射、查询条件参数查询目标数据记录结果集;BaseFilter:实现通过配置文件配置的基本过滤筛选条件后剩余结果集;UpdateFilter:实现数据清洗后,新表重建时需要进行的过滤策略;提供的过滤器实现,通过简单配置即可使用,针对比较灵活的业务场景自行实现Filter接口。

2.根据权利要求1所述的基于管道过滤模式的司法数据清洗和重建方法,其特征在于,所述管道模块包括:

3.根据权利要求1所述的基于管道过滤模式的司法数据清洗和重建方法,其特征在于,所述管道构建器采用PipelineBuilder,提供管道初始化,build方法,用于快速配置后初始化具体业务管道,提供管道初始化,build方法,用于快速配置后初始化具体业务管道。

4.根据权利要求1所述的基于管道过滤模式的司法数据清洗和重建方法,其特征在于,所述异步请求和业务执行开关包括:

5.根据权利要求1所述的基于管道过滤模式的司法数据清洗和重建方法,其特征在于,所述数据处理计时器用于开启每次异步数据处理的整体耗时,更直观地观察数据处理过程和速率,通过记录处理时间,可以识别出哪些数据处理步骤或操作消耗了最多的资源(CPU、内存),从而帮助优化系统配置和资源分配。

6.根据权利要求1所述的基于管道过滤模式的司法数据清洗和重建方法,其特征在于,包括有以下处理步骤:

7.根据权利要求1所述的基于管道过滤模式的司法数据清洗和重建方法,其特征在于,所述数据预处理步骤进一步包括:识别并去除重复的数据记录;对缺失的数据进行合理填补;将数据格式统一为标准格式。

8.根据权利要求1所述的基于管道过滤模式的司法数据清洗和重建方法,其特征在于,所述方法通过模块化设计,使得每个处理模块可以独立开发、测试和升级,提高了系统的可维护性和可扩展性,所述方法通过自动化处理,提高了数据清洗和重建的效率,减少了人工干预,从而提高了数据处理的质量和准确性。

...

【技术特征摘要】

1.基于管道过滤模式的司法数据清洗和重建方法,其特征在于,包括过滤器接口、执行数据查询系统、数据流处理模块updatefilter;管道模块;管道构建器;异步请求和业务执行开关:数据处理计时器,所述过滤器接口采用filter<t>提供了process方法,实现不同过滤策略下的数据清洗处理,所述执行数据查询系统包括提供queryfilter:实现根据数据实体映射、查询条件参数查询目标数据记录结果集;basefilter:实现通过配置文件配置的基本过滤筛选条件后剩余结果集;updatefilter:实现数据清洗后,新表重建时需要进行的过滤策略;提供的过滤器实现,通过简单配置即可使用,针对比较灵活的业务场景自行实现filter接口。

2.根据权利要求1所述的基于管道过滤模式的司法数据清洗和重建方法,其特征在于,所述管道模块包括:

3.根据权利要求1所述的基于管道过滤模式的司法数据清洗和重建方法,其特征在于,所述管道构建器采用pipelinebuilder,提供管道初始化,build方法,用于快速配置后初始化具体业务管道,提供管道初始化,build方法,用于快速配置后初始化具体业务管...

【专利技术属性】
技术研发人员:管为进杨越吴志莲徐萍戴萍萍
申请(专利权)人:深圳海规网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1