一种用于非结构化数据全生命周期管理的方法及系统技术方案

技术编号:38829669 阅读:17 留言:0更新日期:2023-09-15 20:09
本发明专利技术提供了一种用于非结构化数据全生命周期管理的方法及系统,涉及数据管理技术领域,统计指定单位的非结构化数据并提取图形数据集和文档数据集,结合非结构化数据标准确定图形适用度集和文档适用度集,并计算非结构化数据适用度集,分析多个非结构化数据的局部离群值,结合数据管理函数计算获得多个管理参数,决策获取多个管理方案进行非结构化数据集合的管理,解决了现有技术中存在的无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳的技术问题,统计非结构化数据并进行文档数据与图形数据的提取,分别配置针对性处理方式进行处理,基于确定的管理参数配置适配管理方案,针对数据的全生命周期进行有效管理。理。理。

【技术实现步骤摘要】
一种用于非结构化数据全生命周期管理的方法及系统


[0001]本专利技术涉及数据管理
,具体涉及一种用于非结构化数据全生命周期管理的方法及系统。

技术介绍

[0002]工厂作业中,随着工艺的更新迭代,对应的衍生数据同步更新,多源数据、异步数据等的产生造成数据管理难度,为了保障数据管理效果,目前,主要通过数据库管理或系统管理的方式,基于特定的查询语言或工具进行非结构化数据的处理与管理,存在一定的技术局限,无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳。

技术实现思路

[0003]本申请提供了一种用于非结构化数据全生命周期管理的方法及系统,用于针对解决现有技术中存在的无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳的技术问题。
[0004]鉴于上述问题,本申请提供了一种用于非结构化数据全生命周期管理的方法及系统。
[0005]第一方面,本申请提供了一种用于非结构化数据全生命周期管理的方法,所述方法包括:通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;通过所述图形提取器和文档提取器,提取所述非结构化数据集合内的图形数据和文档数据,整合获得图形数据集和文档数据集;获取所述指定单位内的非结构化数据标准,其中,所述非结构化数据标准内包括图形标准和文档标准,图形标准内包括多个图形和多个适用度的映射关系;在所述处理器内,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,获得图形适用度集和文档适用度集,并计算获得非结构化数据适用度集;根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值;将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数;决策获取多个管理方案,对所述非结构化数据集合进行管理,其中,所述多个管理方案通过根据所述多个管理参数决策获得。
[0006]第二方面,本申请提供了一种用于非结构化数据全生命周期管理的系统,所述系统包括:数据统计模块,所述数据统计模块用于通过接口,将所述非结构化数据管理装置
接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;数据提取模块,所述数据提取模块用于通过所述图形提取器和文档提取器,提取所述非结构化数据集合内的图形数据和文档数据,整合获得图形数据集和文档数据集;数据标准获取模块,所述数据标准获取模块用于获取所述指定单位内的非结构化数据标准,其中,所述非结构化数据标准内包括图形标准和文档标准,图形标准内包括多个图形和多个适用度的映射关系;适用度分析模块,所述适用度分析模块用于在所述处理器内,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,获得图形适用度集和文档适用度集,并计算获得非结构化数据适用度集;局部离群值分析模块,所述局部离群值分析模块用于根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值;管理参数计算模块,所述管理参数计算模块用于将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数;数据管理模块,所述数据管理模块用于决策获取多个管理方案,对所述非结构化数据集合进行管理,其中,所述多个管理方案通过根据所述多个管理参数决策获得。
[0007]本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:本申请实施例提供的一种用于非结构化数据全生命周期管理的方法,通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,通过所述图形提取器和文档提取器进行图形数据和文档数据的提取,整合获得图形数据集和文档数据集;获取所述指定单位内的非结构化数据标准,包括图形标准和文档标准,在所述处理器内,根据所述图形标准和文档标准进行所述图形数据集和文档数据集的适用度分析,获得图形适用度集和文档适用度集,并计算非结构化数据适用度集,进一步分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值,结合数据管理函数计算获得多个管理参数,决策获取多个管理方案进行所述非结构化数据集合的管理,解决了现有技术中存在的无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳的技术问题,统计非结构化数据并进行文档数据与图形数据的提取,分别配置针对性处理方式进行处理,基于确定的管理参数配置适配管理方案,针对数据的全生命周期进行有效管理。
附图说明
[0008]图1为本申请提供了一种用于非结构化数据全生命周期管理的方法流程示意图;图2为本申请提供了一种用于非结构化数据全生命周期管理的方法中非结构化数据适用度集获取流程示意图;图3为本申请提供了一种用于非结构化数据全生命周期管理的方法中多个管理方案获取流程示意图;图4为本申请提供了一种用于非结构化数据全生命周期管理的系统结构示意图。
[0009]附图标记说明:数据统计模块11,数据提取模块12,数据标准获取模块13,适用度
分析模块14,局部离群值分析模块15,管理参数计算模块16,数据管理模块17。
具体实施方式
[0010]本申请通过提供一种用于非结构化数据全生命周期管理的方法及系统,统计指定单位的非结构化数据并提取图形数据集和文档数据集,结合非结构化数据标准确定图形适用度集和文档适用度集,并计算非结构化数据适用度集,分析多个非结构化数据的局部离群值,结合数据管理函数计算获得多个管理参数,决策获取多个管理方案进行非结构化数据集合的管理,用于解决现有技术中存在的无法适应波动性多源数据的有序性整体管理,导致数据管理效果不佳的技术问题。
实施例一
[0011]如图1所示,本申请提供了一种用于非结构化数据全生命周期管理的方法,所述方法应用于非结构化数据管理装置,所述装置包括文档提取器、图形提取器和处理器,所述方法包括:S10:通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;工厂作业中,随着工艺的更新迭代,对应的衍生数据同步更新,多源数据、异步数据等的产生造成数据管理难度,为了保障数据管理效果,本申请提供的一种用于非结构化数据全生命周期管理的方法应用于所述非结构化数据管理装置,即辅助进行数据管理的装置,包括所述文档提取器、所述图形提取器与所述处理器,分别用于文档数据、图形数据的提取与数据处理。统计非结构化数据并进行文档数据与图形数据的提取,分别配置针对性处理方式进行处理,基于确定的管理参数配置适配管理方案,针对数据的全生命周期进行有效管理。
[0012]其中,所述接口用于进行数据端与管理端的连通,基于接口,将所述非结构化数据管理装置接入指定单位的数据库。具体的,本申请用于针对工厂中作业标准书的更新、备份、调用和淘汰等的全生命周期的关联数据管理,产品的作业标准书随着工艺的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于非结构化数据全生命周期管理的方法,其特征在于,所述方法应用于非结构化数据管理装置,所述装置包括文档提取器、图形提取器和处理器,所述方法包括:通过接口,将所述非结构化数据管理装置接入指定单位的数据库,统计指定单位内全部的待进行管理的非结构化数据,获得非结构化数据集合;通过所述图形提取器和文档提取器,提取所述非结构化数据集合内的图形数据和文档数据,整合获得图形数据集和文档数据集;获取所述指定单位内的非结构化数据标准,其中,所述非结构化数据标准内包括图形标准和文档标准,图形标准内包括多个图形和多个适用度的映射关系;在所述处理器内,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,获得图形适用度集和文档适用度集,并计算获得非结构化数据适用度集;根据所述非结构化数据适用度集,分析所述非结构化数据集合内多个非结构化数据的局部离群值,获得多个局部离群值;将所述非结构化数据适用度集内的多个适用度和多个局部离群值代入数据管理函数内进行计算,获得多个管理参数;决策获取多个管理方案,对所述非结构化数据集合进行管理,其中,所述多个管理方案通过根据所述多个管理参数决策获得。2.根据权利要求1所述的方法,其特征在于,获取所述指定单位内的非结构化数据标准,包括:根据所述图形数据集内的多个图形数据,进行适用度分配,获得多个图形适用度;获取所述指定单位内非结构化数据中多个作业项目的多个项目文档集,并进行适用度分配,获得多个文档适用度集合;对所述多个项目文档集进行关键词拆分和独热编码处理,构建文档编码词袋;对所述多个图形数据和所述多个图形适用度进行映射,获得所述图形标准,对所述文档编码词袋和所述多个文档适用度集合进行映射,获得所述文档标准。3.根据权利要求2所述的方法,其特征在于,根据所述图形标准和文档标准,对所述图形数据集和文档数据集进行适用度分析,包括:基于孪生网络,采用所述图形数据集,训练图形相似识别器;将所述图形数据集内的多个图形结合所述图形标准内的图形输入所述图形相似识别器,获取匹配图形,并映射获得所述图形适用度集;将所述文档数据集内的多个文档进行关键词拆分,进行独热编码转换,结合所述文档编码词袋,统计获得所述文档适用度集;根据所述图形适用度集和文档适用度集,计算所述非结构化数据适用度集。4.根据权利要求3所述的方法,其特征在于,基于孪生网络,采用所述图形数据集,训练图形相似识别器,包括:基于孪生网络,构建网络架构相同的两个图形识别网络;构建损失函数,如下式:;
;其中,LOSS为损失,M为根据所述图形数据集进行图形数据两两随机组合的图形数据组合的数量,P表示输入的两个图形数据是否为同一类别,是为0,否为1,X和Y为输入的第i组图形组合内的两个图形数据,为输入的两个图形数据为同一类别时的损失函数,为输入的两个图形数据不为同一类别时的损失函数;根据所述损失函数,对所述两个图形识别...

【专利技术属性】
技术研发人员:马欣于飞徐旭章欣
申请(专利权)人:北明明润北京科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1