System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种元数据的处理方法技术_技高网

一种元数据的处理方法技术

技术编号:44567636 阅读:7 留言:0更新日期:2025-03-11 14:25
本申请实施例公开了一种元数据的处理方法。其中,方法包括:获取数据字典;数据字典包括统一格式的N个参考元数据;参考元数据包括字段中英文名;N为大于1的整数;获取输入文件中的至少一个新元数据;新元数据包括字段中英文名;至少基于至少一个新元数据的中英文名与N个参考元数据的中英文名进行中英文匹配,得到至少一个新元数据的目标关联度;目标关联度用于表征新元数据与数据字典之间的关联程度;基于至少一个新元数据的目标关联度,确定是否将至少一个新元数据增加至数据字典。该方案可以通过中英文匹配的方式提高匹配的准确度,降低数据字典的重复的情况,提高了数据字典的可用率。

【技术实现步骤摘要】

本申请涉及数据处理,涉及但不限于一种元数据的处理方法


技术介绍

1、目前,数据建模都是根据架构师的经验来进行建模,数据建模过程中,同一数据存在同名不同义,同义不同名。这样容易造成数据沼泽,导致找数据用数据困难。

2、如何高效的使用集团共享数据资产,降低数据成本,增加数据使用效率,成为企业当前亟待解决的问题。

3、相关技术中,一般通过创建企业的数据字典来实现数据共享。但是,一般仅通过简单的匹配来实现,例如,对于一个新数据来说,与数据字典中的数据匹配,若不存在重复的情况,则将该新数据加入至数据字典中。

4、可以看出,该方案匹配方式较简单,对于同一数据在不同系统中对应不同命名的情况,无法准确识别,导致数据字典重复较多。


技术实现思路

1、本申请提供一种元数据的处理方法,该方案可以通过中英文匹配的方式提高匹配的准确度,降低数据字典的重复的情况,提高了数据字典的可用率。

2、本申请的技术方案是这样实现的:

3、第一方面,本申请提供了一种元数据的处理方法,方法包括:

4、获取数据字典;数据字典包括统一格式的n个参考元数据;参考元数据包括字段中英文名;n为大于1的整数;

5、获取输入文件中的至少一个新元数据;新元数据包括字段中英文名;

6、至少基于至少一个新元数据的中英文名与n个参考元数据的中英文名进行中英文匹配,得到至少一个新元数据的目标关联度;目标关联度用于表征新元数据与数据字典之间的关联程度;

7、基于至少一个新元数据的目标关联度,确定是否将至少一个新元数据增加至数据字典。

8、第二方面,本申请提供了一种元数据的处理装置,装置包括:

9、第一获取单元,用于获取数据字典;数据字典包括统一格式的n个参考元数据;参考元数据包括字段中英文名;n为大于1的整数;

10、第二获取单元,用于获取输入文件中的至少一个新元数据;新元数据包括字段中英文名;

11、处理单元,用于至少基于至少一个新元数据的中英文名与n个参考元数据的中英文名进行中英文匹配,得到至少一个新元数据的目标关联度;目标关联度用于表征新元数据与数据字典之间的关联程度;

12、确定单元,用于基于至少一个新元数据的目标关联度,确定是否将至少一个新元数据增加至数据字典。

13、第三方面,本申请还提供了一种电子设备,包括电子设备包括处理器和存储器,存储器上存储有计算机程序,在计算机程序被处理器执行时,实现上述第一方面提供的元数据的处理方法。

14、第四方面,本申请还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面提供的元数据的处理方法。

15、第五方面,本申请还提供了一种计算机程序产品,包括计算机程序或者指令,该计算机程序或指令被处理器执行时,实现上述第一方面提供的元数据的处理方法。

16、本申请的技术方案与现有技术相比存在的有益效果是:

17、在本申请中,构建了数据字典,数据字典中包括统一格式的多个参考元数据;通过数据字典可以实现对多个系统的数据的统一。且在有新的输入文件时,或者输入文件中新元数据的中英文名,将新元数据的中英文名与参考元数据的中文名进行匹配,得到新元数据与数据字典之间的目标关联度,基于该目标关联度来确定是否将新元数据增加至数据字典中。通过中英文匹配的方式来确定关联度,可以通过考虑到元数据的中文名称和英文名称对于字段的影响,提高了关联度确定的准确性。对于新元数据来说,关联度越高,确定将其增加至数据字典的概率越小,关联度越小,确定将其增加至数据字典的概率越大。所以,关联度的准确性的提高可以检索数据字典中重复的情况,提高了数据字典的可用率。

本文档来自技高网...

【技术保护点】

1.一种元数据的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述至少基于所述至少一个新元数据的中英文名与所述N个参考元数据的中英文名进行中英文匹配,得到所述至少一个新元数据的目标关联度,包括:

3.根据权利要求2所述的方法,其特征在于,所述至少基于所述新元数据的N个中文相似度和N个英文相似度确定所述新元数据的目标关联度,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述新元数据的N个中文相似度和N个英文相似度,确定所述新元数据的目标关联度,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述新元数据的N个中文相似度、N个英文相似度以及所述N个参考元数据的记录信息,确定所述新元数据的目标关联度,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述新元数据的N个中文相似度和N个英文相似度,在所述N个参考元数据中确定L个相似参考元数据,包括:

7.根据权利要求5所述的方法,其特征在于,所述基于所述L个相似参考元数据的记录信息、所述L个相似参考元数据的中文相似度以及所述L个相似参考元数据的英文相似度,确定所述新元数据的L个关联度,包括:

8.根据权利要求7所述的方法,其特征在于,所述记录信息包括以下至少一项:

9.根据权利要求1至8任一项所述的方法,其特征在于,在所述目标关联度的数量为一的情况下,所述基于所述至少一个新元数据的目标关联度,确定是否将所述至少一个新元数据增加至所述数据字典,包括:

10.根据权利要求1至8任一项所述的方法,其特征在于,在所述目标关联度的数量为多个的情况下,所述基于所述至少一个新元数据的目标关联度,确定是否将所述至少一个新元数据增加至所述数据字典,包括:

...

【技术特征摘要】

1.一种元数据的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述至少基于所述至少一个新元数据的中英文名与所述n个参考元数据的中英文名进行中英文匹配,得到所述至少一个新元数据的目标关联度,包括:

3.根据权利要求2所述的方法,其特征在于,所述至少基于所述新元数据的n个中文相似度和n个英文相似度确定所述新元数据的目标关联度,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述新元数据的n个中文相似度和n个英文相似度,确定所述新元数据的目标关联度,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述新元数据的n个中文相似度、n个英文相似度以及所述n个参考元数据的记录信息,确定所述新元数据的目标关联度,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述新元数...

【专利技术属性】
技术研发人员:赵洪涛
申请(专利权)人:阿维塔科技重庆有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1