本公开涉及关键数据表识别方法及装置、计算机可存储介质,涉及数据处理技术领域。关键数据表识别方法包括:获取目标领域的多个数据表及其属性信息、与所述目标领域的相关标准对应的基础数据元集合;根据所述多个数据表的属性信息与所述基础数据元之间的匹配情况,构建所述多个数据表之间的关联网络,其中,所述关联网络以每个数据表为节点,数据表之间的关联关系为边;根据所述关联网络,识别所述多个数据表中的关键数据表。根据本公开,可以提高关键数据表的识别准确率。键数据表的识别准确率。键数据表的识别准确率。
【技术实现步骤摘要】
关键数据表识别方法及装置、计算机可存储介质
[0001]本公开涉及数据处理
,特别涉及关键数据表识别方法及装置、计算机可存储介质。
技术介绍
[0002]随着企业业务的开展,将产生大量不同专业或业务种类的数据表,这些大规模数据表集合中,往往存在关键或重要的数据表,这些关键性的数据表若一旦遭到破坏或泄露,将导致较大的影响。
[0003]在企业的各专业领域或各业务领域,进行数据资产的探查或分析梳理,在大量数据表中识别出关键性数据,可以为关键性数据的进一步分析应用和安全防护管理提供基础。
[0004]在企业的大数据分析场景下,构建数据的复杂网络,进行数据的关联分析、关键节点分析、社团结构分析等,已经作为大数据分析挖掘研究的一种应用。在企业重要数据识别或数据安全风险评估场景下,也提供一种数据发现和数据关联分析的辅助手段。
[0005]相关技术中,获取所有数据表的名称和所述数据表对应的脚本代码;通过脚本代码,获取各所述数据表之间的关联信息,使用所述数据表的名称和所述关联信息,构建有向网络;计算有向网络中每个节点的重要度,并按照重要度对节点进行排序;按照重要度从大到小的顺序,获取重要度最大的节点所对应的数据表作为关键表。即,基于数据表之间的脚本代码建立数据表之间的关联关系,通过计算数据表节点之间的度中心指标来识别关键数据表,其中,脚本代码是为了将数据表通过某种方式联系(例如表字段关联)起来的程序,度中心性是表征无向网络节点重要性指标,是图论中节点重要性指标。
技术实现思路
[0006]相关技术中,基于数据表的代码关联关系建立数据表的有向网络,关联要素相对比较单一,受代码关联影响较大,从而关键数据表的识别准确率较差。
[0007]针对上述技术问题,本公开提出了一种解决方案,可以提高关键数据表的识别准确率。
[0008]根据本公开的第一方面,提供了一种关键数据表识别方法,包括:获取目标领域的多个数据表及其属性信息、与所述目标领域的相关标准对应的基础数据元集合;根据所述多个数据表的属性信息与所述基础数据元之间的匹配情况,构建所述多个数据表之间的关联网络,其中,所述关联网络以每个数据表为节点,数据表之间的关联关系为边;根据所述关联网络,识别所述多个数据表中的关键数据表。
[0009]在一些实施例中,所述属性信息包括表字段,所述关联网络为无向网络,构建所述多个数据表之间的关联网络包括:为每个数据表创建一个表征该数据表的节点;对于每两个数据表,在所述每两个数据表的表字段命中至少同一个基础数据元的情况下,为表征所述每两个数据表的节点之间构建一条无向边,表征所述每两个数据表之间具有关联关系。
[0010]在一些实施例中,所述关联网络为无向加权网络,构建所述多个数据表之间的关联网络还包括:根据具有关联关系的每两个数据表命中的基础数据元的数量,确定所述具有关联关系的每两个数据表对应节点之间的无向边的权重值。
[0011]在一些实施例中,根据所述关联网络,识别所述多个数据表中的关键数据表包括:获取所述无向加权网络的邻接矩阵,其中,在两个节点之间存在无向边的情况下,所述邻接矩阵中对应元素位置的元素值为与所述每个元素位置对应的两个节点之间的无向边的权重值,在两个节点之间不存在无向边的情况下,对应元素位置的元素值为预设值;确定所述邻接矩阵的最大特征值及其对应的特征向量;根据所述最大特征值及其对应的特征向量,确定每个节点的特征向量指标,其中,所述每个节点的特征向量指标表征所述每个节点相对于所有节点的复合重要程度;根据所述无向加权网络中的多个节点的特征向量指标,识别所述多个数据表中的关键数据表。
[0012]在一些实施例中,每个节点的特征向量指标与所述最大特征值成负相关,与特征向量中每个节点所对应的元素值成正相关,与所述邻接矩阵中所述每个节点所对应的元素值成正相关。
[0013]在一些实施例中,确定每个节点的特征向量指标包括:确定第i个节点的特征向量指标为其中,N为无向加权网络中的节点总数量,λ为最大特征值,a
ij
表示邻接矩阵中第i个节点与第j个节点所对应的元素位置的元素值,e
j
表示特征向量中第j个节点所对应的元素值。
[0014]在一些实施例中,根据所述无向加权网络中的多个节点的特征向量指标,识别所述多个数据表中的关键数据表包括:选择特征向量指标最大的至少一个节点所对应的数据表,作为关键数据表。
[0015]在一些实施例中,所述属性信息还包括表名称,为每个数据表创建一个表征该数据表的节点包括:基于每个数据表的表名称,创建表征所述每个数据表的节点。
[0016]在一些实施例中,所述目标领域包括目标业务领域或目标专业领域。
[0017]根据本公开第二方面,提供了一种关键数据表识别装置,包括:获取模块,被配置为获取目标领域的多个数据表及其属性信息、与所述目标领域的相关标准对应的基础数据元集合;构建模块,被配置为根据所述多个数据表的属性信息与所述基础数据元之间的匹配情况,构建所述多个数据表之间的关联网络,其中,所述关联网络以每个数据表为节点,数据表之间的关联关系为边;识别模块,被配置为根据所述关联网络,识别所述多个数据表中的关键数据表。
[0018]根据本公开第三方面,提供了装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行上述任一实施例所述的关键数据表识别方法。
[0019]根据本公开的第四方面,提供了一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述任一实施例所述的关键数据表识别方法。
[0020]在上述实施例中,可以提高关键数据表的识别准确率。
附图说明
[0021]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0022]参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
[0023]图1是示出根据本公开一些实施例的关键数据表识别方法的流程图;
[0024]图2是示出根据本公开一些实施例的关键数据表识别装置的框图;
[0025]图3是示出根据本公开另一些实施例的关键数据表识别装置的框图;
[0026]图4是示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
[0027]现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0028]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0029]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
[0030]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种关键数据表识别方法,包括:获取目标领域的多个数据表及其属性信息、与所述目标领域的相关标准对应的基础数据元集合;根据所述多个数据表的属性信息与所述基础数据元之间的匹配情况,构建所述多个数据表之间的关联网络,其中,所述关联网络以每个数据表为节点,数据表之间的关联关系为边;根据所述关联网络,识别所述多个数据表中的关键数据表。2.根据权利要求1所述的关键数据表识别方法,其中,所述属性信息包括表字段,所述关联网络为无向网络,构建所述多个数据表之间的关联网络包括:为每个数据表创建一个表征该数据表的节点;对于每两个数据表,在所述每两个数据表的表字段命中至少同一个基础数据元的情况下,为表征所述每两个数据表的节点之间构建一条无向边,表征所述每两个数据表之间具有关联关系。3.根据权利要求2所述的关键数据表识别方法,其中,所述关联网络为无向加权网络,构建所述多个数据表之间的关联网络还包括:根据具有关联关系的每两个数据表命中的基础数据元的数量,确定所述具有关联关系的每两个数据表对应节点之间的无向边的权重值。4.根据权利要求3所述的关键数据表识别方法,其中,根据所述关联网络,识别所述多个数据表中的关键数据表包括:获取所述无向加权网络的邻接矩阵,其中,在两个节点之间存在无向边的情况下,所述邻接矩阵中对应元素位置的元素值为与所述每个元素位置对应的两个节点之间的无向边的权重值,在两个节点之间不存在无向边的情况下,对应元素位置的元素值为预设值;确定所述邻接矩阵的最大特征值及其对应的特征向量;根据所述最大特征值及其对应的特征向量,确定每个节点的特征向量指标,其中,所述每个节点的特征向量指标表征所述每个节点相对于所有节点的复合重要程度;根据所述无向加权网络中的多个节点的特征向量指标,识别所述多个数据表中的关键数据表。5.根据权利要求4所述的关键数据表识别方法,其中,每个节点的特征向量指标与所述最大特征值成负相关,与特征向量中每个节...
【专利技术属性】
技术研发人员:马兆铭,王铮,任华,汪少敏,杨迪,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。