System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据存储方法、装置、介质和计算设备制造方法及图纸_技高网

数据存储方法、装置、介质和计算设备制造方法及图纸

技术编号:42665731 阅读:10 留言:0更新日期:2024-09-10 12:21
本公开的实施方式提供了一种数据存储方法、装置、介质和计算设备,该方法包括:获取目标数据中的多个第一字段,并对各个所述第一字段中的预设类型字段进行分词处理,得到所述预设类型字段对应的多个子字段;将相同的所述子字段对应的各个第一字段均确定为第二字段;响应于所述第二字段的数量大于第一预设数量,获取所述第二字段对应的第一属性参数;根据各个所述第一属性参数构建所述第二字段的第一数据元,并将所述第二字段与对应的第一数据元进行关联存储。本公开中,提高了数据标准的建立效率。

【技术实现步骤摘要】

本公开的实施方式涉及数据存储,更具体地,本公开的实施方式涉及一种数据存储方法、装置、介质和计算设备


技术介绍

1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、数据标准管理是数据治理中很重要的一环。由于业务对象在信息系统中以数据的形式存在,使得数据标准管理需要以业务为基础,并以标准的形式规范业务对象在各个信息系统中统一定义和应用,以提升企业在业务协同、监管合规、数据共享开放、数据分析应用等各方面的能力。

3、数据标准管理包括有数据标准的建立。目前,数据标准的建立方式有新建数据元、批量导入数据元、引用行业模板、基于元数据建立数据标准等方式,但新建数据元、批量导入数据元、以及引用行业模板均需要投入人力,导致数据标准的建立效率较低。


技术实现思路

1、本公开提供一种数据存储方法、装置、介质和计算设备,以解决数据标准的建立效率较低的问题。

2、在本公开实施方式的第一方面,提供了一种数据存储方法,包括:获取目标数据中的多个第一字段,并对各个所述第一字段中的预设类型字段进行分词处理,得到所述预设类型字段对应的多个子字段;将相同的所述子字段对应的各个第一字段均确定为第二字段;响应于所述第二字段的数量大于第一预设数量,获取所述第二字段对应的第一属性参数;根据各个所述第一属性参数构建所述第二字段的第一数据元,并将所述第二字段与对应的第一数据元进行关联存储。

3、在本公开一实施例中,所述获取所述第二字段对应的第一属性参数,包括:

4、对各个所述第二字段进行去重,得到多个第三字段;

5、响应于所述第三字段的数量大于第一预设数量,获取所述第二字段对应的第一属性参数。

6、在本公开另一实施例中,所述方法还包括:

7、响应于所述第二字段的数量小于或等于第一预设数量,或所述第三字段的数量小于或等于第一预设数量,根据每两个所述第一字段之间的相似度,确定每两个所述第一字段之间的目标距离;

8、根据各个所述目标距离,对各个所述第一字段进行聚类,得到多簇字段,每簇字段包括多个所述第一字段;

9、在多簇字段的各个所述第一字段中确定目标字段,并获取所述目标字段对应的第二属性参数;

10、根据所述目标字段对应的所述第二属性参数,构建所述目标字段的第二数据元,并将所述目标字段与对应的第二数据元进行关联存储。

11、在本公开另一实施例中,两个所述第一字段之间的目标距离的确定过程具体如下:

12、确定两个所述第一字段中预设类型字段内的单词作为第一单词;

13、根据两个所述第一字段中的每个第一单词对应的数值,确定两个所述第一字段之间的第一相似度;

14、根据相似度上限值与所述第一相似度之间的第一差值,确定两个所述第一字段之间的目标距离。

15、在本公开另一实施例中,所述根据相似度上限值与所述第一相似度之间的第一差值,确定两个所述第一字段之间的目标距离,包括:

16、将所述第一差值增大预设倍数,得到两个所述第一字段之间的目标距离。

17、在本公开另一实施例中,两个所述第一字段之间的目标距离的确定过程具体如下:

18、响应于所述第一字段中包括多个种类的预设类型字段,将两个所述第一字段的相同种类的预设类型字段中的单词,确定为第二单词;

19、根据每个所述第二单词对应的数值,确定两个所述第一字段在每种预设类型字段上的第二相似度;

20、根据所述种类对应的相似度阈值与第二相似度之间的第二差值,确定每个所述种类的预设类型字段对应的第一距离;

21、根据各个所述第一距离,确定两个所述第一字段之间的目标距离。

22、在本公开另一实施例中,所述根据各个所述目标距离,对各个所述第一字段进行聚类,包括:

23、根据各个所述目标距离,构建距离矩阵;

24、根据所述距离矩阵,将各个所述第一字段转换为目标图像上的元素点;

25、确定所述元素点之间的可达距离,所述可达距离用于指示一个元素点到达另一个元素点的距离;

26、根据各个所述可达距离,对所述目标图像中的各个元素点进行聚类,得到多簇字段。

27、在本公开另一实施例中,所述确定所述元素点之间的可达距离,包括:

28、响应于两个元素点中的一个元素点为核心点,确定一个元素点与另一个作为核心点的元素点之间的第二距离;

29、在所述第二距离以及预设半径中,确定较大值作为所述元素点与对应的核心点之间的可达距离。

30、在本公开另一实施例中,所述核心点的确定过程具体如下:

31、基于预设半径构建所述元素点对应的第一圆;

32、响应位于所述第一圆内的元素点的数量大于第二预设数量,将构建所述第一圆的所述元素点,确定为核心点。

33、在本公开另一实施例中,所述根据各个所述可达距离,对所述目标图像中的各个元素点进行聚类,得到多簇字段,包括:

34、在各个所述可达距离中,确定最大的可达距离;

35、根据最大的可达距离以及所述第一字段的相似度阈值,确定距离阈值;

36、响应于两个所述元素点之间的可达距离小于所述距离阈值,将两个所述元素点确定为同一簇字段。

37、在本公开另一实施例中,所述在多簇字段的各个所述第一字段中确定目标字段,包括:

38、确定每簇字段中第一字段的目标数量;

39、将大于第三预设数量的目标数量所对应的一簇字段,作为目标簇字段;

40、在所述目标簇字段的各个第一字段中提取目标字段。

41、在本公开另一实施例中,所述在所述目标簇字段的各个第一字段中提取目标字段,包括:

42、获取所述第一字段对应的元素点的各个可达距离,并构建每个所述可达距离对应的第二圆,各个所述第二圆的圆心为所述第一字段对应的元素点,所述第二圆的半径为所述可达距离;

43、根据所述第二圆内的元素点的数量与所述第二圆的面积,确定每个所述可达距离对应的密度;

44、根据各个所述密度中的最小密度、最大密度以及相似度阈值,确定所述第一字段对应的目标密度;

45、根据所述目标簇字段中每个第一字段的目标密度,在所述目标簇字段的各个第一字段中,确定所述目标字段。

46、在本公开另一实施例中,所述根据所述目标簇字段中每个第一字段的目标密度,在所述目标簇字段的各个第一字段中,确定所述目标字段,包括:

47、将大于预设阈值的目标密度对应的第一字段确定为目标字段。

48、在本公开另一实施例中,所述根据所述目标簇字段中每个第一字段的目标密度,在所述目标簇字段的各个第一字段中,确定所述目标字段,包括:

49、按照所述目标簇字段中每个第一字段的目标密度,对所述目本文档来自技高网...

【技术保护点】

1.一种数据存储方法,其特征在于,包括:

2.根据权利要求1所述的数据存储方法,其特征在于,所述获取所述第二字段对应的第一属性参数,包括:

3.根据权利要求1或2所述的数据存储方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的数据存储方法,其特征在于,两个所述第一字段之间的目标距离的确定过程具体如下:

5.根据权利要求4所述的数据存储方法,其特征在于,所述根据相似度上限值与所述第一相似度之间的第一差值,确定两个所述第一字段之间的目标距离,包括:

6.根据权利要求3所述的数据存储方法,其特征在于,两个所述第一字段之间的目标距离的确定过程具体如下:

7.根据权利要求3所述的数据存储方法,其特征在于,所述根据各个所述目标距离,对各个所述第一字段进行聚类,包括:

8.一种数据存储装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7中任一项所述的方法。

10.一种计算设备,其特征在于,包括:

...

【技术特征摘要】

1.一种数据存储方法,其特征在于,包括:

2.根据权利要求1所述的数据存储方法,其特征在于,所述获取所述第二字段对应的第一属性参数,包括:

3.根据权利要求1或2所述的数据存储方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的数据存储方法,其特征在于,两个所述第一字段之间的目标距离的确定过程具体如下:

5.根据权利要求4所述的数据存储方法,其特征在于,所述根据相似度上限值与所述第一相似度之间的第一差值,确定两个所述第一字段之间的目标距离,包括:

【专利技术属性】
技术研发人员:郭忆李卓豪祝联新郑旭华昊泽余利华
申请(专利权)人:杭州网易数之帆科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1