【技术实现步骤摘要】
数据治理的方法、装置及存储介质
[0001]本申请要求于2021年11月26日提交的申请号为202111422755.7、专利技术名称为“一种数据处理方法和计算机”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
[0002]本申请涉及计算机领域,特别涉及一种数据治理(data governance)的方法、装置及存储介质。
技术介绍
[0003]数据库表往往包括至少一列,每列用于存储至少一个数据。数据库表中的任一列数据可以与数据标准关联,该数据标准用于对需要保存到该列中的数据进行规范性约束。例如,该数据标准定义能够保存到该列的数据的格式、类型和/或长度等。
[0004]目前技术人员可以手动为数据库表中的任一列数据生成数据标准,将数据库表中的该列数据与该数据标准关联。或者,技术人员从已生成的大量数据标准中手动为数据库表中的任一列数据选择数据标准,并将选择的数据标准与数据库表中的该列数据关联。
[0005]目前与数据库表中的任一列数据关联的数据标准,要么是技术人员手动生成的,要么是技术人员手动选择的,导致获取数据标准的效率和精度都较低。
技术实现思路
[0006]本申请提供了一种数据治理的方法、装置及存储介质,以提高获取数据标准的效率和精度。所述技术方案如下:
[0007]第一方面,本申请提供了一种数据治理的方法,在所述方法中,从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据。获取第一数据集合的至少一个数据模式,第一数据集合包括所述存储文 ...
【技术保护点】
【技术特征摘要】
1.一种数据治理的方法,其特征在于,所述方法包括:从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据;获取第一数据集合的至少一个数据模式,所述第一数据集合包括所述存储文件保存的属于同一业务的数据,所述至少一个数据模式用于指示所述第一数据集合包括的各数据的结构;基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征;基于所述至少一个数据特征获取第一数据标准,所述第一数据标准用于约束所述第一数据集合包括的各数据的规范性。2.如权利要求1所述的方法,其特征在于,所述存储文件为结构化数据文件,所述结构化数据文件采用列表形式保存属于所述至少一个业务的数据,属于同一业务的数据保存在所述结构化数据文件的同一列中;或者,所述存储文件为半结构化数据文件,所述半结构化数据文件采用标签块形式保存属于所述至少一个业务的数据,属于同一业务的数据存储在所述半结构化数据文件的同一标签块中。3.如权利要求1或2所述的方法,其特征在于,所述至少一个数据模式包括基础数据模式,所述基础数据模式用于指示所述第一数据集合包括的各数据的基础结构,所述基础结构包括如下一种或多种:英文数字混合结构、整数结构、浮点数结构、布尔型结构、地址结构、标识结构或者日期结构。4.如权利要求3所述的方法,其特征在于,所述获取第一数据集合的至少一个数据模式,包括:基于指定的至少一个正则表达式,识别所述第一数据集合中的每个数据,得到所述基础数据模式。5.如权利要求3或4所述的方法,其特征在于,所述至少一个数据模式还包括前缀数据模式,所述前缀数据模式用于指示所述第一数据集合中包括第一前缀的多个数据,所述第一前缀是所述多个数据的最长共同前缀,所述多个数据中的每个数据中除所述第一前缀之外的部分对应的基础数据模式相同。6.如权利要求1
‑
5任一项所述的方法,其特征在于,所述基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征,包括:从所述第一数据集合中,获取与第一数据模式对应的各数据,所述至少一个数据模式包括所述第一数据模式;基于所述获取的各数据,获取所述第一数据模式对应的数据出现数量和/或数据出现频率,所述至少一个数据特征包括所述第一数据模式对应的数据出现数量和/或数据出现频率。7.如权利要求1
‑
5任一项所述的方法,其特征在于,所述基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征,包括:基于所述至少一个数据模式,获取所述第一数据集合中的数据的类型;基于所述第一数据集合中的数据的类型,获取所述第一数据集合的至少一个数据特征。8.如权利要求7所述的方法,其特征在于,所述第一数据集合包括第一数据,所述第一
数据的类型包括如下一个或多个:所述第一数据的基础类型或技术类型,所述基础类型用于描述所述第一数据的数据成分,所述技术类型用于描述所述第一数据实现的功能。9.如权利要求8所述的方法,其特征在于,所述第一数据的基础类型为整型、浮点数或布尔型,所述第一数据的技术类型为代码类型、编码类型、标志类型、类别类型、描述类型或度量类型。10.如权利要求7
‑
9任一项所述的方法,其特征在于,所述基于所述第一数据集合中的数据的类型获取所述第一数据集合的至少一个数据特征,包括:基于所述第一数据集合包括的属于第一类型的各数据获取统计特征,所述统计特征包括属于所述第一类型的各数据中的最大值、最小值、平均值、偏差、方差、中位数、百分位数和/或标准差,所述第一类型包括整型、浮点数、度量类型和/或编码类型,所述至少一个数据特征包括所述统计特征;和/或,基于所述第一数据集合包括的属于第二类型的各数据获取分布特征,所述分布特征包括属于所述第二类型的各数据的出现数量和/或出现频率,所述第二类型包括标志类型、布尔型、类别类型和/或代码类型,所述至少一个数据特征包括所述分布特征。11.如权利要求10所述的方法,其特征在于,所述第一数据集合包括第二数据,所述第二数据的数据结构是英文数字混合结构,属于所述第一类型的各数据包括所述第二数据中的数字部分,属于所述第二类型的各数据包括所述第二数据中的英文部分。12.如权利要求1
‑
11任一项所述的方法,其特征在于,所述第一数据集合的数据特征包括至少一个分词,所述至少一个分词是对第三数据进行分词并去除停用词后得到的,所述第三数据包括所述第一数据集合对应的业务属性描述信息和/或所述第一数据集合中的描述类型的数据。13.如权利要求1
‑
12任一项所述的方法,其特征在于,所述第一数据集合的数据特征包括第一语言对应的数据出现数量和/或数据出现频率,所述第一数据集合中的描述类型的数据属于的语言包括所述第一语言。14.如权利要求1
‑
13任一项所述的方法,其特征在于,所述基于所述至少一个数据特征获取第一数据标准,包括:基于所述至少一个数据特征,确定所述第一数据集合属于的连通图...
【专利技术属性】
技术研发人员:郝诗源,魏子恒,龙江,吕红,季振峰,
申请(专利权)人:华为云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。