System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向航天离散制造平台的多源数据预处理方法及系统技术方案_技高网

一种面向航天离散制造平台的多源数据预处理方法及系统技术方案

技术编号:42720314 阅读:19 留言:0更新日期:2024-09-13 12:08
本申请公开了一种面向航天离散制造平台的多源数据预处理方法及系统,涉及航天离散制造数据预处理技术领域,该方法包括:通过至少一个动态配置的适配器组件适配处理输入的多源异构数据,以使数据格式统一化和标准化,得到已适配数据;将已适配数据传输至分布式清洗引擎,分布式清洗引擎对已适配数据执行数据集合的错误检测、模式识别和逻辑一致性校正,得到清洗数据集;通过质量评估模块对清洗数据集计算数据质量指数;基于数据质量指数,动态调整清洗规则;通过预设的质量反馈控制机制,根据上层应用的需求和反馈提供数据追溯和校正指导,持续优化数据质量。本申请能够有效提高数据库系统的清洗规则可扩展性、动态柔性和继承重用性。

【技术实现步骤摘要】

本申请涉及航天离散制造数据预处理,具体涉及一种面向航天离散制造平台的多源数据预处理方法及系统


技术介绍

1、航天产品的制造过程多为离散制造,导致航天产品的数据源会涵盖铸造、机加、焊接、钣金、热处理、装配、试验、检验等主要工艺环节中关键工艺设备、单机系统、检测装置等对象所生成、汇总的多源异构数据。而在多感知设备数据采集系统中,每一种传感器所提供的信息都受环境状态和感知设备本身特性的制约,导致制造过程的数据采集可能会对后端应用造成不准确性的影响。为此,在相关技术中主要是在数据库系统中输入数据清洗方法,以降低或者消除因多源异构数据采集不准确导致后端应用的数据不准确的影响。

2、但目前,传统的数据清洗方法主要是通过硬编码方法来执行清洗逻辑,且面向多个数据源存在清洗规则可扩展性、动态柔性和继承重用性较差的问题。


技术实现思路

1、本申请实施例提供一种面向航天离散制造平台的多源数据预处理方法及系统,用以改善面向多个数据源存在清洗规则可扩展性、动态柔性和继承重用性较差的问题。

2、本申请实施例第一方面提供一种面向航天离散制造平台的多源数据预处理方法,所述方法包括:

3、通过至少一个动态配置的适配器组件适配处理输入的多源异构数据,以使数据格式统一化和标准化,得到已适配数据;

4、将所述已适配数据传输至分布式清洗引擎,所述分布式清洗引擎对所述已适配数据执行数据集合的错误检测、模式识别和逻辑一致性校正,得到清洗数据集;

5、通过质量评估模块对所述清洗数据集计算数据质量指数;

6、基于所述数据质量指数,动态调整清洗规则;

7、通过预设的质量反馈控制机制,根据上层应用的需求和反馈提供数据追溯和校正指导,持续优化数据质量。

8、在本申请的部分实施例中,所述通过至少一个动态配置的适配器组件适配处理输入的多源异构数据,以使数据格式统一化和标准化,得到已适配数据的步骤,包括:

9、对接收到的所述多源异构数据进行自动分析数据结构和内容格式;

10、利用预训练的机器学习模型识别数据特征,并生成适配规则;

11、应用生成的适配规则于所述多源异构数据,将其转换为所述已适配数据,所述已适配数据具有数据库系统能识别的统一格式;

12、在适配过程中,持续学习新的数据模式,以实现适配规则的实时更新和优化。

13、在本申请的部分实施例中,所述分布式清洗引擎包括针对数据量的动态响应系统,所述将所述已适配数据传输至分布式清洗引擎,所述分布式清洗引擎对所述已适配数据执行数据集合的错误检测、模式识别和逻辑一致性校正,得到清洗数据集的步骤,包括:

14、根据数据流量调整计算资源分配;

15、针对各类数据异常实时监测,并分发至相应的节点进行并行处理;

16、汇总并行处理结果,并对结果进行整合,生成最终的清洗数据集;

17、在数据处理完成后,自动缩减计算资源。

18、在本申请的部分实施例中,所述通过质量评估模块对所述清洗数据集计算数据质量指数的步骤,包括:

19、设定不同类别的质量控制指标,并为每个指标赋予相应的监测逻辑;

20、于数据清洗结束后,逐项检查每个质量控制指标并记录其状态;

21、综合所有指标状态,并计算出数据质量指数;

22、生成质量评估报告,供系统管理员或数据清洗引擎参考和作进一步处理。

23、在本申请的部分实施例中,所述数据质量指数的计算需要考虑的因素,包括:

24、数据项与业务功能的相关性及其对业务流程的影响力;数据集内各数据项间的关联强度和逻辑一致性;数据的更新频率及新鲜度与业务实时响应的需求匹配度。

25、在本申请的部分实施例中,所述数据质量指数的计算公式为:

26、

27、其中,wi代表第i个数据项的权重因子,与数据项的制造环节关联性、对系统性能的影响程度或者更改成本有关;vi代表数据验证系数,表示数据通过一系列验证程序的程度;qi是第i个数据项的单项质量得分,衡量数据的准确性、完整性等属性;di是数据依赖性指标,指出数据项目之间的相关性或其在业务流程中的依赖强度;ti是数据时效性指标,体现数据的新鲜度或与当前操作时间的紧密程度;ei代表与第i个数据项相关的环境因子评分,包括数据产生时间、信号强度、信噪比或其他在航天离散制造中重要的环境因素;ri是数据项与既定业务规则相符合程度的得分;αi和βi是调整系数,根据不同数据项的特点和业务场景的要求进行调整;z是归一化因子,确保cqi保持在合理范围内;f()代表一个混合型非线性函数,该函数融合多个变量以综合得出每个数据项的质量分数;e是自然对数的底。

28、在本申请的部分实施例中,所述基于所述数据质量指数,动态调整清洗规则的步骤,包括:

29、进行实时数据挖掘,以识别可能的异常模式和潜在的数据错误;

30、根据挖掘结果,分析清洗过程中规则的有效性及其适用范围;

31、生成规则调整方案,并验证所述规则调整方案的有效性;

32、在确定所述规则调整方案可行后,更新现有清洗规则库,并重新部署至所述分布式清洗引擎中。

33、在本申请的部分实施例中,所述质量反馈控制机制执行的步骤包括:

34、在清洗后的数据集上设置侦听程序,检测并记录质量变动事件;

35、根据侦听到的事件自动生成质量问题报告,并对照业务规则分析可能的原因;

36、以统计方法预测质量事件对后续数据处理周期的潜在影响;

37、提供基于预测分析的数据清洗和维护建议,以指导后续操作。

38、在本申请的部分实施例中,所述根据上层应用的需求和反馈提供数据追溯和校正指导,持续优化数据质量的步骤,包括:

39、在数据清洗完成后,收集清洗数据相关的元信息,包括数据源、清洗时间等;

40、建立数据元信息索引和查询接口,方便上层应用进行数据追溯查询;

41、接收上层应用的反馈,根据反馈中指出的问题进行数据追溯和分析;

42、根据追溯分析结果,对数据源或清洗规则进行必要的校正和更新。

43、第二方面,本申请的实施例还提供了一种面向航天离散制造平台的多源数据预处理系统,所述系统包括:

44、适配器组件,所述适配器组件能动态配置以适应特定的数据源特性,包括数据格式和结构,并能够实现数据统一化和标准化;

45、分布式清洗引擎,与所述适配器组件通信以接收适配后的数据,所述分布式清洗引擎用于执行数据的错误检测、模式识别以及逻辑一致性校正,并支持数据的并行处理;

46、质量评估组件,用于计算经所述分布式清洗引擎处理后数据的清洗质量指数;

47、清洗规则优化模块,基于从所述质量评估组件获得的清洗质量指数,对清洗规则进行动态调整,并本文档来自技高网...

【技术保护点】

1.一种面向航天离散制造平台的多源数据预处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过至少一个动态配置的适配器组件适配处理输入的多源异构数据,以使数据格式统一化和标准化,得到已适配数据的步骤,包括:

3.根据权利要求1所述的方法,其特征在于,所述分布式清洗引擎包括针对数据量的动态响应系统,所述将所述已适配数据传输至分布式清洗引擎,所述分布式清洗引擎对所述已适配数据执行数据集合的错误检测、模式识别和逻辑一致性校正,得到清洗数据集的步骤,包括:

4.根据权利要求1所述的方法,其特征在于,所述通过质量评估模块对所述清洗数据集计算数据质量指数的步骤,包括:

5.根据权利要求1至4中任一项所述的方法,其特征在于,所述数据质量指数的计算需要考虑的因素,包括:

6.根据权利要求5所述的方法,其特征在于,所述数据质量指数的计算公式为:

7.根据权利要求5所述的方法,其特征在于,所述基于所述数据质量指数,动态调整清洗规则的步骤,包括:

8.根据权利要求5所述的方法,其特征在于,所述质量反馈控制机制执行的步骤包括:

9.根据权利要求8所述的方法,其特征在于,所述根据上层应用的需求和反馈提供数据追溯和校正指导,持续优化数据质量的步骤,包括:

10.一种面向航天离散制造平台的多源数据预处理系统,其特征在于,所述系统包括:

...

【技术特征摘要】

1.一种面向航天离散制造平台的多源数据预处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过至少一个动态配置的适配器组件适配处理输入的多源异构数据,以使数据格式统一化和标准化,得到已适配数据的步骤,包括:

3.根据权利要求1所述的方法,其特征在于,所述分布式清洗引擎包括针对数据量的动态响应系统,所述将所述已适配数据传输至分布式清洗引擎,所述分布式清洗引擎对所述已适配数据执行数据集合的错误检测、模式识别和逻辑一致性校正,得到清洗数据集的步骤,包括:

4.根据权利要求1所述的方法,其特征在于,所述通过质量评估模块对所述清洗数据集计算数据质量指数的步骤,包括:...

【专利技术属性】
技术研发人员:张月皎章利光付高生范国超王琪尚涛龙启斌曹胜利张熙田顺平龙新
申请(专利权)人:北京京航计算通讯研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1