数据库表的外键映射方法、装置、电子设备和存储介质制造方法及图纸

技术编号:25690889 阅读:13 留言:0更新日期:2020-09-18 21:02
本申请公开了数据库表的外键映射方法、装置、电子设备和存储介质,所述方法包括:获取目标字段的字段信息;对所述字段信息进行自然语言处理,得到所述字段信息的文本特征;根据关联对象分类模型和所述文本特征,确定所述目标字段的关联对象;建立所述目标字段与所述关联对象的数据库表的外键映射关系。通过本申请,解决了由于依赖人工进行数据库表的外键映射导致成本较高且映射效率不高的问题,实现了数据库表的外键自动匹配和映射,提高了外键映射效率和准确率。

【技术实现步骤摘要】
数据库表的外键映射方法、装置、电子设备和存储介质
本申请涉及机器学习
,具体涉及数据库表的外键映射方法、装置、电子设备和存储介质。
技术介绍
在基于Hadoop(一种分布式系统基础架构)的数据仓库中,事实表的维度字段众多。在数据测试时,外键一致性是数据测试的一个关键点,但由于Hadoop无主外键关系,数据仓库的事实表外键映射成为了一个难题。目前在数据测试环节,事实表外键映射通常需要人工一一维护,费时费力;并且事实表中的维度字段与业务容易紧耦合,导致同一实体会有不同的维度字段名映射,无法使用简单规则判断。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的数据库表的外键映射方法、装置、电子设备和存储介质。依据本申请的第一方面,提供了一种数据库表的外键映射方法,包括:获取目标字段的字段信息;对所述字段信息进行自然语言处理,得到所述字段信息的文本特征;根据关联对象分类模型和所述文本特征,确定所述目标字段的关联对象;建立所述目标字段与所述关联对象的数据库表的外键映射关系。可选地,所述对所述字段信息进行自然语言处理,得到所述字段信息的文本特征包括:对所述字段信息进行分词处理,以得到分词结果;提取所述分词结果中的特征值,根据所述特征值确定所述字段信息的文本特征。可选地,所述字段信息包括字段名,所述对所述字段信息进行分词处理,以得到分词结果包括:按照预设的字段命名格式对所述字段名进行分词处理,得到多个词;所述提取所述分词结果中的特征值包括:对得到的各词分别提取所述特征值。可选地,所述目标字段为Hadoop数据仓库中的事实表的维度字段,所述关联对象为Hadoop数据仓库中的维度表的实体。可选地,所述关联对象分类模型包括决策树分类模型。可选地,所述关联对象包括门店实体、项目实体以及销售实体,所述根据关联对象分类模型和所述文本特征,确定目标字段的关联对象包括:若确定所述目标字段的关联对象为实体,则确定所述实体是否为所述门店实体;若所述实体不是所述门店实体,则确定所述实体是否为所述项目实体;若所述实体不是所述项目实体,则确定所述实体是否为所述销售实体。可选地,所述方法还包括:获取数据测试请求,所述数据测试请求包括待测试字段;根据所述数据测试请求,读取所述待测试字段中的数据和所述待测试字段的外键映射关系;根据所述外键映射关系确定目标数据库表,若读取的数据存在于所述目标数据库表中,则测试通过。依据本申请的第二方面,提供了一种数据库表的外键映射装置,包括:第一获取单元,用于获取目标字段的字段信息;特征提取单元,用于对所述字段信息进行自然语言处理,得到所述字段信息的文本特征;确定单元,用于根据关联对象分类模型和所述文本特征,确定所述目标字段的关联对象;建立单元,用于建立所述目标字段与所述关联对象的数据库表的外键映射关系。可选地,所述特征提取单元还用于:对所述字段信息进行分词处理,以得到分词结果;提取所述分词结果中的特征值,根据所述特征值确定所述字段信息的文本特征。可选地,所述字段信息包括字段名,所述特征提取单元还用于:按照预设的字段命名格式对所述字段名进行分词处理,得到多个词;对得到的各词分别提取所述特征值。可选地,所述目标字段为Hadoop数据仓库中的事实表的维度字段,所述关联对象为Hadoop数据仓库中的维度表的实体。可选地,所述关联对象分类模型包括决策树分类模型。可选地,所述关联对象包括门店实体、项目实体以及销售实体,所述确定单元还用于:若确定所述目标字段的关联对象为实体,则确定所述实体是否为所述门店实体;若所述实体不是所述门店实体,则确定所述实体是否为所述项目实体;若所述实体不是所述项目实体,则确定所述实体是否为所述销售实体。可选地,所述装置还包括:第二获取单元,用于获取数据测试请求,所述数据测试请求包括待测试字段;读取单元,用于根据所述数据测试请求,读取所述待测试字段中的数据和所述待测试字段的外键映射关系;测试单元,用于根据所述外键映射关系确定目标数据库表,若读取的数据存在于所述目标数据库表中,则测试通过。依据本申请的第三方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。依据本申请的第四方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。由上述可知,本申请的技术方案,采用获取目标字段的字段信息;对所述字段信息进行自然语言处理,得到所述字段信息的文本特征;根据关联对象分类模型和所述文本特征,确定所述目标字段的关联对象的方式;建立所述目标字段与所述关联对象的数据库表的外键映射关系,解决了由于依赖人工进行数据库表的外键映射导致成本较高且映射效率不高的问题,实现了数据库表的外键自动匹配和映射过程,提高了外键映射效率和准确率。上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本申请一个实施例的数据库表的外键映射方法的流程示意图;图2示出了根据本申请一个实施例的数据库表的外键映射方法的流程框图;图3示出了根据本申请一个实施例的决策树分类模型的逻辑示意图;图4示出了根据本申请一个实施例的数据库表的外键映射装置的结构示意图;图5示出了根据本申请一个实施例的电子设备的结构示意图;图6示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。具体实施方式下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。Hadoop是一种能够允许大量数据在计算机集群中,通过使用简单的编程模型进行分布式处理的框架。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。然而在Hadoop数据仓库中,由于无主外键映射关系导致数据仓库中的事实表与维度表的映射成本文档来自技高网...

【技术保护点】
1.一种数据库表的外键映射方法,其特征在于,包括:/n获取目标字段的字段信息;/n对所述字段信息进行自然语言处理,得到所述字段信息的文本特征;/n根据关联对象分类模型和所述文本特征,确定所述目标字段的关联对象;/n建立所述目标字段与所述关联对象的数据库表的外键映射关系。/n

【技术特征摘要】
1.一种数据库表的外键映射方法,其特征在于,包括:
获取目标字段的字段信息;
对所述字段信息进行自然语言处理,得到所述字段信息的文本特征;
根据关联对象分类模型和所述文本特征,确定所述目标字段的关联对象;
建立所述目标字段与所述关联对象的数据库表的外键映射关系。


2.根据权利要求1所述的数据库表的外键映射方法,其特征在于,所述对所述字段信息进行自然语言处理,得到所述字段信息的文本特征包括:
对所述字段信息进行分词处理,以得到分词结果;
提取所述分词结果中的特征值,根据所述特征值确定所述字段信息的文本特征。


3.根据权利要求2所述的数据库表的外键映射方法,其特征在于,所述字段信息包括字段名,所述对所述字段信息进行分词处理,以得到分词结果包括:
按照预设的字段命名格式对所述字段名进行分词处理,得到多个词;
所述提取所述分词结果中的特征值包括:
对得到的各词分别提取所述特征值。


4.根据权利要求1所述的数据库表的外键映射方法,其特征在于,所述目标字段为Hadoop数据仓库中的事实表的维度字段,所述关联对象为Hadoop数据仓库中的维度表的实体。


5.根据权利要求1所述的数据库表的外键映射方法,其特征在于,所述关联对象分类模型包括决策树分类模型。


6.根据权利要求1所述的数据库表的外键映射方法,其特征在于,所述关联对象包括门店实体、项目实体以及销售实体,所述根据关联对象分类模型和...

【专利技术属性】
技术研发人员:袁鹏文刘强胡婧
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1