数据治理的方法、装置及存储介质制造方法及图纸

技术编号:37700751 阅读:16 留言:0更新日期:2023-06-01 23:44
本申请公开了一种数据治理的方法、装置及存储介质,属于通信领域。所述方法包括:从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据;获取第一数据集合的至少一个数据模式,所述第一数据集合包括所述存储文件保存的属于同一业务的数据,所述至少一个数据模式用于指示所述第一数据集合包括的各数据的结构;基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征;基于所述至少一个数据特征获取第一数据标准,所述第一数据标准用于约束所述第一数据集合包括的各数据的规范性。本申请能够提高获取数据标准的效率和精度。标准的效率和精度。标准的效率和精度。

【技术实现步骤摘要】
数据治理的方法、装置及存储介质
[0001]本申请要求于2021年11月26日提交的申请号为202111422755.7、专利技术名称为“一种数据处理方法和计算机”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及计算机领域,特别涉及一种数据治理(data governance)的方法、装置及存储介质。

技术介绍

[0003]数据库表往往包括至少一列,每列用于存储至少一个数据。数据库表中的任一列数据可以与数据标准关联,该数据标准用于对需要保存到该列中的数据进行规范性约束。例如,该数据标准定义能够保存到该列的数据的格式、类型和/或长度等。
[0004]目前技术人员可以手动为数据库表中的任一列数据生成数据标准,将数据库表中的该列数据与该数据标准关联。或者,技术人员从已生成的大量数据标准中手动为数据库表中的任一列数据选择数据标准,并将选择的数据标准与数据库表中的该列数据关联。
[0005]目前与数据库表中的任一列数据关联的数据标准,要么是技术人员手动生成的,要么是技术人员手动选择的,导致获取数据标准的效率和精度都较低。

技术实现思路

[0006]本申请提供了一种数据治理的方法、装置及存储介质,以提高获取数据标准的效率和精度。所述技术方案如下:
[0007]第一方面,本申请提供了一种数据治理的方法,在所述方法中,从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据。获取第一数据集合的至少一个数据模式,第一数据集合包括所述存储文件保存的属于同一业务的数据,该至少一个数据模式用于指示第一数据集合包括的各数据的结构。基于该至少一个数据模式获取第一数据集合的至少一个数据特征。基于该至少一个数据特征获取第一数据标准,第一数据标准用于约束第一数据集合包括的各数据的规范性。这样获取第一数据集合的至少一个数据模式,基于该至少一个数据模式自动获取第一数据集合关联的第一数据标准,从而提高获取数据标准的效率和精度。
[0008]在一种可能的实现方式中,存储文件为结构化数据文件,结构化数据文件采用列表形式保存属于至少一个业务的数据,属于同一业务的数据保存在结构化数据文件的同一列中。这样直接从存储文件中获取一列数据组成第一数据集合,简化获取第一数据集合的复杂度。
[0009]在一种可能的实现方式中,存储文件为半结构化数据文件,半结构化数据文件采用标签块形式保存属于至少一个业务的数据,属于同一业务的数据存储在半结构化数据文件的同一标签块中。这样直接从存储文件中获取位于同一个标签块中的数据组成第一数据
集合,简化获取第一数据集合的复杂度。
[0010]在另一种可能的实现方式中,该至少一个数据模式包括基础数据模式,基础数据模式用于指示第一数据集合包括的各数据的基础结构,该基础结构包括如下一种或多种:英文数字混合结构、整数结构、浮点数结构、布尔型结构、地址结构、标识结构或者日期结构。由于基础数据模式用于指示第一数据集合包括的各数据的基础结构,从而基于第一数据集合的数据模式能够获取第一数据标准。
[0011]在另一种可能的实现方式中,基于指定的至少一个正则表达式,识别第一数据集合中的每个数据,得到基础数据模式。
[0012]在另一种可能的实现方式中,该至少一个数据模式还包括前缀数据模式,该前缀数据模式用于指示所述第一数据集合中包括第一前缀的多个数据,第一前缀是该多个数据的最长共同前缀,该多个数据中的每个数据中除第一前缀之外的部分对应的基础数据模式相同。
[0013]在另一种可能的实现方式中,从第一数据集合中,获取与第一数据模式对应的各数据,至少一个数据模式包括第一数据模式。基于获取的各数据,获取第一数据模式对应的数据出现数量和/或数据出现频率,该至少一个数据特征包括第一数据模式对应的数据出现数量和/或数据出现频率。如此实现基于数据模式获取数据特征,且数据特征包括数据模式对应的分布特征,丰富了数据特征的内容。
[0014]在另一种可能的实现方式中,基于至少一个数据模式,获取第一数据集合中的数据的类型。基于第一数据集合中的数据的类型,获取第一数据集合的至少一个数据特征。如此实现基于数据模式获取数据类型,通过数据类型得到数据特征,丰富了获取数据特征的方式。
[0015]在另一种可能的实现方式中,第一数据集合包括第一数据,第一数据的类型包括如下一个或多个:第一数据的基础类型或技术类型,该基础类型用于描述第一数据的数据成分,该技术类型用于描述第一数据实现的功能。如此丰富数据类型的内容。
[0016]在另一种可能的实现方式中,第一数据的基础类型为整型、浮点数或布尔型,第一数据的技术类型为代码类型、编码类型、标志类型、类别类型、描述类型或度量类型,如此丰富数据类型的内容。
[0017]在另一种可能的实现方式中,基于第一数据集合包括的属于第一类型的各数据获取统计特征,该统计特征包括属于第一类型的各数据中的最大值、最小值、平均值、偏差、方差、中位数、百分位数和/或标准差,第一类型包括整型、浮点数、度量类型和/或编码类型,至少一个数据特征包括该统计特征。和/或,基于第一数据集合包括的属于第二类型的各数据获取分布特征,该分布特征包括属于第二类型的各数据的出现数量和/或出现频率,第二类型包括标志类型、布尔型、类别类型和/或代码类型,至少一个数据特征包括该分布特征。如此实现基于数据类型获取数据特征,通过数据类型得到数据特征,丰富了获取数据特征的方式。
[0018]在另一种可能的实现方式中,第一数据集合包括第二数据,第二数据的数据结构是英文数字混合结构,属于第一类型的各数据包括第二数据中的数字部分,属于第二类型的各数据包括第二数据中的英文部分。如此,能够丰富数据特征的内容。
[0019]在另一种可能的实现方式中,第一数据集合的数据特征包括至少一个分词,至少
一个分词是对第三数据进行分词并去除停用词后得到的,第三数据包括第一数据集合对应的业务属性描述信息和/或第一数据集合中的描述类型的数据。如此,能够丰富数据特征的内容,另外,去除停用词,避免停用词对获取数据标准的精度产生影响。
[0020]在另一种可能的实现方式中,第一数据集合的数据特征包括第一语言对应的数据出现数量和/或数据出现频率,第一数据集合中的描述类型的数据属于的语言包括第一语言。如此,能够丰富数据特征的内容。
[0021]在另一种可能的实现方式中,基于至少一个数据特征,确定第一数据集合属于的连通图,该连通图中的每个节点为不同的数据集合,第一数据集合的邻居节点与第一数据集合之间的相似度超过指定阈值。基于该连通图包括的数据集合,获取第一数据标准。由于该连通图中的数据集合之间相似,这样基于该连通图包括的数据集合,可以准确地归纳总结出数据标准,提高获取数据标准的精度。
[0022]在另一种可能的实现方式中,基于该至少一个数据特征和第一数据集合中的数据的业务类型,确定第一数据集合属于的连通图,数据的业务类型为日期、地区、IP地址或标识。由于确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据治理的方法,其特征在于,所述方法包括:从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据;获取第一数据集合的至少一个数据模式,所述第一数据集合包括所述存储文件保存的属于同一业务的数据,所述至少一个数据模式用于指示所述第一数据集合包括的各数据的结构;基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征;基于所述至少一个数据特征获取第一数据标准,所述第一数据标准用于约束所述第一数据集合包括的各数据的规范性。2.如权利要求1所述的方法,其特征在于,所述存储文件为结构化数据文件,所述结构化数据文件采用列表形式保存属于所述至少一个业务的数据,属于同一业务的数据保存在所述结构化数据文件的同一列中;或者,所述存储文件为半结构化数据文件,所述半结构化数据文件采用标签块形式保存属于所述至少一个业务的数据,属于同一业务的数据存储在所述半结构化数据文件的同一标签块中。3.如权利要求1或2所述的方法,其特征在于,所述至少一个数据模式包括基础数据模式,所述基础数据模式用于指示所述第一数据集合包括的各数据的基础结构,所述基础结构包括如下一种或多种:英文数字混合结构、整数结构、浮点数结构、布尔型结构、地址结构、标识结构或者日期结构。4.如权利要求3所述的方法,其特征在于,所述获取第一数据集合的至少一个数据模式,包括:基于指定的至少一个正则表达式,识别所述第一数据集合中的每个数据,得到所述基础数据模式。5.如权利要求3或4所述的方法,其特征在于,所述至少一个数据模式还包括前缀数据模式,所述前缀数据模式用于指示所述第一数据集合中包括第一前缀的多个数据,所述第一前缀是所述多个数据的最长共同前缀,所述多个数据中的每个数据中除所述第一前缀之外的部分对应的基础数据模式相同。6.如权利要求1

5任一项所述的方法,其特征在于,所述基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征,包括:从所述第一数据集合中,获取与第一数据模式对应的各数据,所述至少一个数据模式包括所述第一数据模式;基于所述获取的各数据,获取所述第一数据模式对应的数据出现数量和/或数据出现频率,所述至少一个数据特征包括所述第一数据模式对应的数据出现数量和/或数据出现频率。7.如权利要求1

5任一项所述的方法,其特征在于,所述基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征,包括:基于所述至少一个数据模式,获取所述第一数据集合中的数据的类型;基于所述第一数据集合中的数据的类型,获取所述第一数据集合的至少一个数据特征。8.如权利要求7所述的方法,其特征在于,所述第一数据集合包括第一数据,所述第一
数据的类型包括如下一个或多个:所述第一数据的基础类型或技术类型,所述基础类型用于描述所述第一数据的数据成分,所述技术类型用于描述所述第一数据实现的功能。9.如权利要求8所述的方法,其特征在于,所述第一数据的基础类型为整型、浮点数或布尔型,所述第一数据的技术类型为代码类型、编码类型、标志类型、类别类型、描述类型或度量类型。10.如权利要求7

9任一项所述的方法,其特征在于,所述基于所述第一数据集合中的数据的类型获取所述第一数据集合的至少一个数据特征,包括:基于所述第一数据集合包括的属于第一类型的各数据获取统计特征,所述统计特征包括属于所述第一类型的各数据中的最大值、最小值、平均值、偏差、方差、中位数、百分位数和/或标准差,所述第一类型包括整型、浮点数、度量类型和/或编码类型,所述至少一个数据特征包括所述统计特征;和/或,基于所述第一数据集合包括的属于第二类型的各数据获取分布特征,所述分布特征包括属于所述第二类型的各数据的出现数量和/或出现频率,所述第二类型包括标志类型、布尔型、类别类型和/或代码类型,所述至少一个数据特征包括所述分布特征。11.如权利要求10所述的方法,其特征在于,所述第一数据集合包括第二数据,所述第二数据的数据结构是英文数字混合结构,属于所述第一类型的各数据包括所述第二数据中的数字部分,属于所述第二类型的各数据包括所述第二数据中的英文部分。12.如权利要求1

11任一项所述的方法,其特征在于,所述第一数据集合的数据特征包括至少一个分词,所述至少一个分词是对第三数据进行分词并去除停用词后得到的,所述第三数据包括所述第一数据集合对应的业务属性描述信息和/或所述第一数据集合中的描述类型的数据。13.如权利要求1

12任一项所述的方法,其特征在于,所述第一数据集合的数据特征包括第一语言对应的数据出现数量和/或数据出现频率,所述第一数据集合中的描述类型的数据属于的语言包括所述第一语言。14.如权利要求1

13任一项所述的方法,其特征在于,所述基于所述至少一个数据特征获取第一数据标准,包括:基于所述至少一个数据特征,确定所述第一数据集合属于的连通图...

【专利技术属性】
技术研发人员:郝诗源魏子恒龙江吕红季振峰
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1