数据表主键关联方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:30271720 阅读:21 留言:0更新日期:2021-10-09 21:27
本发明专利技术实施例公开了数据表主键关联方法、装置、计算机设备及可读存储介质,通过根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名,根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中,遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点,查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。从而能够通过计算机自动扫描数据表中字段的方式,快速、准确建立数据表主键之间的关联关系。之间的关联关系。之间的关联关系。

【技术实现步骤摘要】
数据表主键关联方法、装置、计算机设备及可读存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种数据表主键关联方法、装置、计算机设备及可读存储介质。

技术介绍

[0002]在大量医疗体系系统中,常常出现系统交接人无法联系、系统文档缺失等问题,这是由于数据表之间的关联字段,也即数据表主键存在不清晰的情况。具体体现在,字段名混用,相同字段名滥用以及数据杂糅复杂,同一系统存在链式的关联字段等问题,而往往数据表的主键梳理工作,需要耗费大量的人工操作,耗时耗力。
[0003]因此,亟需一种能够快速、精确挖掘出数据表的主键,并关联数据表主键之间关系的方法。

技术实现思路

[0004]为了解决上述技术问题,本公开实施例提供了一种数据表主键关联方法、装置、计算机设备及可读存储介质,具体方案如下:第一方面,本公开实施例提供了一种数据表主键关联方法,所述方法包括:根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。
[0005]根据本公开实施例的一种具体实施方式,所述确定各基础节点与其它数据表的全部节点之间的关联网络步骤,包括:计算各基础节点与其它数据表的全部节点的关联分数;根据所述关联分数生成不同数据表基础节点之间的关联网络;所述根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中的步骤,包括:根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中。
[0006]根据本公开实施例的一种具体实施方式,所述根据所述关联分数生成不同数据表基础节点之间的关联网络的步骤,包括:比较两两基础节点的关联分数是否大于或等于关联分数阈值;
若所述两两基础节点的关联分数大于或等于所述关联分数阈值,则保留所述两两基础节点之间的关联关系;若所述两两基础节点的关联分数小于所述关联分数阈值,则删除所述两两基础节点之间的关联关系;根据全部保留的两两节点之间的关联关系,生成不同数据表基础节点之间的关联网络。
[0007]根据本公开实施例的一种具体实施方式,所述计算各基础节点与其它数据表的全部节点的关联分数的步骤,包括:计算基础节点与其它节点的多个关联指标,其中,所述其它节点为与所述基础节点所属数据表不同的其它数据表中的节点,所述多个关联指标包括字段的最长连续公共子序列比、字段所属表是否同系统、字段所属表名的最长连续公共子序列比、字段注释的加权编辑距离比、两个字段数据的长度分布一致性、两个字段数据的前5字符分布一致性、两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值;对多个关联指标进行归一化处理,以得到对应各关联指标的指标计算值;根据各所述指标计算值、预设的指标系数以及各关联指标的自适应权重,计算所述基础节点与所述其它节点的关联分数。
[0008]根据本公开实施例的一种具体实施方式,所述各关联指标的自适应权重的获取步骤,包括:根据两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值以及对应的分布系数,计算目标分布系数;计算各关联指标与所述目标分布系数的离散交叉熵,作为对应各关联指标的自适应权重。
[0009]根据本公开实施例的一种具体实施方式,所述根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中的步骤,包括:初始化每一基础节点的数据字典;将所述基础节点的字段名和数据表名存储在所述基础节点的数据字典中;根据所述关联网络,对每一基础节点执行预设次数的关联节点存储步骤;所述关联节点存储步骤包括:提取与所述基础节点关联的多个关联节点的相关数据,其中,所述相关数据包括关联分数及关联节点的节点数据;基于所述多个关联节点的关联分数占比,从所述多个关联节点中提取一个目标关联节点;将所述目标关联节点的节点数据存储在所述基础节点的数据字典中。
[0010]根据本公开实施例的一种具体实施方式,所述将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中的步骤之后,所述方法还包括:遍历每一基础节点的数据字典,删除多个节点数据中具有相同数据表名的节点数据,以得到节点数据集;从所述节点数据集中保留出现频次最高的节点数据,并将所述出现频次最高的节
点数据存储在基础节点的数据字典中。
[0011]第二方面,本公开实施例提供了一种数据表主键关联装置,所述装置包括:确定模块、存储模块、主键选取模块和主键关联模块,其中,所述确定模块、所述存储模块、所述主键选取模块和所述主键关联模块依次连接;所述确定模块用于根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;所述存储模块用于根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;所述主键选取模块用于遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;所述主键关联模块用于查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。
[0012]第三方面,本公开实施例提供了一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行第一方面所述的数据表主键关联方法。
[0013]第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面所述的数据表主键关联方法。
[0014]本公开实施例提供了一种数据表主键关联方法、装置、计算机设备及可读存储介质,所述数据表主键关联方法根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名,根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中,遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点,查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。从而能够通过计算机自动扫描数据表中字段的方式,快速、准确的建立数据表主键之间的关联关系,方便医疗系统的数据表主键梳理工作。
附图说明
[0015]为了更清楚地说明本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据表主键关联方法,其特征在于,所述方法包括:根据各数据表内的基础节点的节点数据,确定各基础节点与其它数据表的全部节点之间的关联网络,其中,所述基础节点包括数据表内的字段,所述节点数据包括字段名和所属的数据表名;根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中;遍历所有基础节点,将多个基础节点的数据字典中共同存储的关联节点作为主键节点;查找各主键节点的距离最近的关联节点,根据全部主键节点及距离最近的关联节点,得到全部数据表对应的主键关联关系。2.根据权利要求1所述的方法,其特征在于,所述确定各基础节点与其它数据表的全部节点之间的关联网络步骤,包括:计算各基础节点与其它数据表的全部节点的关联分数;根据所述关联分数生成不同数据表基础节点之间的关联网络;所述根据所述关联网络及预设规则,将每个基础节点的关联节点的节点数据存储在对应的基础节点的数据字典中的步骤,包括:根据所述关联网络、所述基础节点与多个关联节点之间的关联分数及预设规则,将每个基础节点的目标关联节点的节点数据存储在对应的基础节点的数据字典中。3.根据权利要求2所述的方法,其特征在于,所述根据所述关联分数生成不同数据表基础节点之间的关联网络的步骤,包括:比较两两基础节点的关联分数是否大于或等于关联分数阈值;若所述两两基础节点的关联分数大于或等于所述关联分数阈值,则保留所述两两基础节点之间的关联关系;若所述两两基础节点的关联分数小于所述关联分数阈值,则删除所述两两基础节点之间的关联关系;根据全部保留的两两节点之间的关联关系,生成不同数据表基础节点之间的关联网络。4.根据权利要求2所述的方法,其特征在于,所述计算各基础节点与其它数据表的全部节点的关联分数的步骤,包括:计算基础节点与其它节点的多个关联指标,其中,所述其它节点为与所述基础节点所属数据表不同的其它数据表中的节点,所述多个关联指标包括字段的最长连续公共子序列比、字段所属表是否同系统、字段所属表名的最长连续公共子序列比、字段注释的加权编辑距离比、两个字段数据的长度分布一致性、两个字段数据的前5字符分布一致性、两个字段数据的唯一值占比的最大值、两个字段数据去重后交集比的最大值;对多个关联指标进行归一化处理,以得到对应各关联指标的指标计算值;根据各所述指标计算值、预设的指标系数以及各关联指标的自适应权重,计算所述基础节点与所述其它节点的关联分数。5.根据权利要求4所述的方法,其特征在于,所述各关联指标的自适应权重的获取步骤,包括:
根据两个字段数据的唯一值占比的最大值...

【专利技术属性】
技术研发人员:姚佳蒋静文刘忠禹张伟
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1