System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及元数据,尤其是涉及一种元数据自动采集和盘点的方法、装置和存储介质。
技术介绍
1、近年来,随着经济的发展,我国各行业和地区对用电品质的要求越来越高,用电需求只增不减,用电形势愈加严峻,这对传统电力行业提出了新的要求,同时,也提供了新的发展机遇,电力企业纷纷借此机遇寻找新的经济价值增长点,因此,如何提升服务品质成为电网企业寻求的经济增长点,其中电网营销客户服务成为业内当下关注的重点。在数据管理和分析领域,元数据采集和盘点至关重要,它允许组织收集、存储和管理所有数据的元数据信息,元数据采集和盘点技术可以帮助用户快速识别并理解组织内的数据资源,以便更有效地使用它们。
2、目前,元数据采集是指自动或手动从数据源或数据存储区域收集数据元信息,而元数据盘点是指使用专门的软件工具对系统中的数据元数据进行全面的检查和分析,在元数据的采集和盘点过程中,apriori是一种常见的用来进行频繁项集挖掘的算法;但是,apriori算法是基于迭代的,需要多次扫描数据集来生成候选项集并计算支持度,且由于apriori算法需要多次扫描数据集,对于大规模数据集,apriori算法的效率会变得非常低下,同时,apriori算法无法有效地处理稀疏数据,因为在迭代过程中会产生很多不必要的候选项集,也会影响算法效率,而且apriori算法还需要开辟大量的内存空间来存储候选项集和支持度计数。
3、电网客户服务数据主要以95598业务、网上国网服务过程数据为主,辅以省公司及总部数据中台部分客户档案数据、营销账单及用采等数据,随着各系统
技术实现思路
1、本专利技术目的在于提供一种元数据自动采集和盘点的方法、装置和存储介质,以解决现有技术中电网客户服务数据基础信息不完整、分布分类不清晰、关联关系不明确的问题,以减少对客户服务业务分析、经营决策等方面造成的不同程度的影响。
2、为解决上述技术问题,本专利技术提供的一种元数据自动采集和盘点的方法,包括如下步骤:
3、s1、中心数据资产采集器通过自动采集收集程序对元数据进行采集;
4、s2、数据通道将采集的所述元数据推送至元数据存储空间进行储存;
5、s3、读取所述元数据存储空间中的数据表,并对所述数据表进行自动盘点分类,得到自动盘点分类结果;
6、s4、对所述自动盘点分类结果进行专家法分析,通过所述专家法对所述自动盘点分类结果进行修正;
7、s5、将所述专家法修正的数据传输给机器学习平台,使用机器学习平台输出的信息更新自动盘点分类结果,返回步骤s4。
8、本专利技术还提供了一种元数据自动采集和盘点的装置,所述装置包括:
9、至少一个处理器;以及,
10、与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
11、本专利技术还提供了一种元数据自动采集和盘点的存储介质,所述存储介质存储计算机指令,所述计算机指令用于使计算机执行上述方法。
12、采用上述技术方案,本专利技术具有如下有益效果:
13、本专利技术通过电网营销客服业务专家对盘点结果进行修正,不仅可以确保数据输送的精准性,而且通过自动盘点分类程序和机器学习平台的循环优化,逐步提高数据表自动盘点分类的准确性,整个环节形成了一个闭环更新迭代流程,盘点分类结果数据通过自动学习不断准确,同时,对元数据进行采集和盘点的效率及准确率逐渐提升,内存占用小。
本文档来自技高网...【技术保护点】
1.一种元数据自动采集和盘点的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的元数据自动采集和盘点的方法,其特征在于,所述S3步骤中,所述自动盘点分类包括三个算法:数据表业务定义自动补充完善算法、数据表自动分布分类算法和数据表关联关系自动分析算法,首先通过所述数据表业务定义自动补充完善算法进行处理,对所述数据表中数据基础信息进行补充、完善、消歧,并将处理后的所述数据基础信息经所述数据表自动分布分类算法进行自动分布分类盘点处理,然后再将处理后的数据信息经所述数据表关联关系自动分析算法处理,对所述数据表进行关联关系自动匹配,理清数据表间关联关系,得到所述自动盘点分类结果。
3.根据权利要求2所述的元数据自动采集和盘点的方法,其特征在于,所述S5步骤中,所述机器学习平台包括样本库和模型库,所述专家法修正的数据传输给所述样本库,所述样本库通过模型训练传输至所述模型库中,所述模型库将修正后的数据信息反馈至S4步骤。
4.根据权利要求3所述的元数据自动采集和盘点的方法,其特征在于,所述模型库包含三个模型,分别为数据表业务定义补充完善模型、数据表分
5.根据权利要求2所述的元数据自动采集和盘点的方法,其特征在于,所述数据表业务定义自动补充完善算法为关键词提取算法,所述算法包括但不局限于TF/IDF算法、TextRank算法、LSA/LSl/LDA算法、LSA/LSI算法、LDA算法、非监督文本摘要算法。
6.根据权利要求2所述的元数据自动采集和盘点的方法,其特征在于,所述数据表自动分布分类算法为FastText。
7.根据权利要求2所述的元数据自动采集和盘点的方法,其特征在于,所述数据表关联关系自动分析算法为FP-growth算法,所述FP-growth算法构建一棵FP树以存储数据集。
8.根据权利要求1所述的元数据自动采集和盘点的方法,其特征在于,所述S4步骤中,所述专家法对自动盘点分类结果进行修正后,除了向机器学习平台提供样本库校准以外,同步将所述自动盘点分类结果通过数据通道提供给数据资产管理、数据可视化地图及数据资产监测订阅业务应用使用。
9.一种元数据自动采集和盘点的装置,其特征在于,所述装置包括:
10.一种元数据自动采集和盘点的存储介质,其特征在于,所述存储介质存储计算机指令,所述计算机指令用于使计算机执行前述权利要求1~8任一项所述的方法。
...【技术特征摘要】
1.一种元数据自动采集和盘点的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的元数据自动采集和盘点的方法,其特征在于,所述s3步骤中,所述自动盘点分类包括三个算法:数据表业务定义自动补充完善算法、数据表自动分布分类算法和数据表关联关系自动分析算法,首先通过所述数据表业务定义自动补充完善算法进行处理,对所述数据表中数据基础信息进行补充、完善、消歧,并将处理后的所述数据基础信息经所述数据表自动分布分类算法进行自动分布分类盘点处理,然后再将处理后的数据信息经所述数据表关联关系自动分析算法处理,对所述数据表进行关联关系自动匹配,理清数据表间关联关系,得到所述自动盘点分类结果。
3.根据权利要求2所述的元数据自动采集和盘点的方法,其特征在于,所述s5步骤中,所述机器学习平台包括样本库和模型库,所述专家法修正的数据传输给所述样本库,所述样本库通过模型训练传输至所述模型库中,所述模型库将修正后的数据信息反馈至s4步骤。
4.根据权利要求3所述的元数据自动采集和盘点的方法,其特征在于,所述模型库包含三个模型,分别为数据表业务定义补充完善模型、数据表分布分类模型和数据表关联关系分析模型,所述数据表业务定义补充完善模型为所述数据表业务定义自动补充完善算法的数据定义盘点逻辑进行提取归纳,所述数据表分布分类模型为数据表自动分布分类算法的分布分类盘点逻辑进行提取归纳,所述数据表关联关系分析模型为所述数据表关联关系自动分析算法的关联关系盘点逻辑进行提取...
【专利技术属性】
技术研发人员:刘鲲鹏,唐博麟,朱龙珠,徐斌,郝景昌,朱青,孔娜,宋雨辰,
申请(专利权)人:国家电网有限公司客户服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。