本发明专利技术实施例提供一种数据表字段的关联字段推荐方法及装置。本发明专利技术实施例通过获取数据表中的目标字段,利用已训练好的相似度模型,确定所述目标字段与预设的标准字段库中各标准字段的相似度,其中,用于训练所述相似度模型的样本数据中,输入字段之间的相似度是根据所述输入字段是否属于同一数据表确定的,根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段,利用数据表内字段的非冗余性构造训练的样本数据,提高了相似度模型的相似度计算结果的准确性,使得推荐的关联字段准确性更高,进而提高了数据表字段与标准字段的匹配准确性。的匹配准确性。的匹配准确性。
【技术实现步骤摘要】
数据表字段的关联字段推荐方法及装置
[0001]本专利技术涉及数据处理
,尤其涉及一种数据表字段的关联字段推荐方法及装置。
技术介绍
[0002]在政务行业的数据标准化过程中,需要将数据表(也称为物理表)中的字段与给定的标准字段进行关联匹配。在现实场景中,数据表字段的数量是非常庞大的,用人工将每个数据表字段与标准字段进行匹配是不切实际的,人力投入将非常大。
[0003]相关技术中,采用常规的机器学习方法,利用数据表字段的词向量生成特征向量,通过将该特征向量与特征库中的特征向量进行相似度计算,根据相似度计算结果确实是否匹配。该技术中,使用通用场景的语言模型生成的词向量作为特征向量进行相似度计算,在数据表字段的匹配场景中匹配准确性较低。
技术实现思路
[0004]为克服相关技术中存在的问题,本专利技术提供了一种数据表字段的关联字段推荐方法及装置,提高数据表字段与标准字段的匹配准确性。
[0005]根据本专利技术实施例的第一方面,提供一种数据表字段的关联字段推荐方法,包括:
[0006]获取数据表中的目标字段;
[0007]利用已训练好的相似度模型,确定所述目标字段与预设的标准字段库中各标准字段的相似度;其中,用于训练所述相似度模型的样本数据中,输入字段之间的相似度是根据所述输入字段是否属于同一数据表确定的;
[0008]根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段。
[0009]根据本专利技术实施例的第二方面,提供一种数据表字段的关联字段推荐装置,包括:
[0010]获取模块,用于获取数据表中的目标字段;
[0011]相似度确定模块,用于利用已训练好的相似度模型,确定所述目标字段与预设的标准字段库中各标准字段的相似度;其中,用于训练所述相似度模型的样本数据中,输入字段之间的相似度是根据所述输入字段是否属于同一数据表确定的;
[0012]关联字段确定模块,用于根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段。
[0013]本专利技术实施例提供的技术方案可以包括以下有益效果:
[0014]本专利技术实施例,通过获取数据表中的目标字段,利用已训练好的相似度模型,确定所述目标字段与预设的标准字段库中各标准字段的相似度,其中,用于训练所述相似度模型的样本数据中,输入字段之间的相似度是根据所述输入字段是否属于同一数据表确定的,根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段,利用数据表内字段的非冗余性构造训练的样本数据,提高了相似度模型的相似度计算结果的准确性,使得推荐的关联字段准确性更高,进而提高了数据表字段与标准字段的匹配准确性。
[0015]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
[0017]图1是数据表字段的匹配场景示意图。
[0018]图2是本专利技术实施例提供的数据表字段的关联字段推荐方法的流程示例图。
[0019]图3是本专利技术实施例提供的数据表字段的关联字段推荐装置的功能方块图。
[0020]图4是本专利技术实施例提供的电子设备的一个硬件结构图。
具体实施方式
[0021]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术实施例的一些方面相一致的装置和方法的例子。
[0022]在本专利技术实施例使用的术语是仅仅出于描述特定本专利技术实施例的目的,而非旨在限制本专利技术实施例。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0023]应当理解,尽管在本专利技术实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0024]在一些应用场景中,例如政府部门,各部门都有自己存储数据的数据库,不同部门的数据库中,数据表的字段名称定义各有不同。如果要打通各部门之间的数据壁垒,则需要将个部门之间的数据进行整合,这时需要将不同部门之间不同名称但含义相同的数据表字段进行融合。
[0025]在对数据表进行标准化过程中,通过将数据表字段替换为与之匹配的标准字段,可以使不同数据表中名称不同但含义相同的数据表字段对应到同一个标准字段,为实现数据融合提供基础。
[0026]在处理这类问题时,通常预先设置一个标准字段库,标准字段库中包括多个标准字段,标准字段是人工标注的字段,标准字段也可以称为数据元,相应地,标准字段库也可以称为数据元库。然后将数据表字段与标准字段库中的各个标准字段一一进行比对,以便找到与数据表字段匹配的标准字段。
[0027]图1是数据表字段的匹配场景示意图。如图1所示,数据表字段需要与标准字段库中的每个标准字段一一计算相似度,然后根据相似度计算结果确定与数据表字段匹配的标准字段。
[0028]相关技术中,获取数据表字段与标准字段的相似度的过程是:使用通用场景的语言模型生成数据表字段的词向量,作为数据表字段对应的特征向量,以及生成标准字段的词向量,作为标准字段对应的特征向量,然后计算该两个特征向量的相似度。接着,根据相似度从标准字段库中获得与数据表字段匹配的标准字段。
[0029]由于通用场景的语言模型是基于通用场景训练的,其训练的样本数据是通用场景中的数据,既包括数据表字段,也包括非数据表字段(即不属于数据表字段的字段),数据表字段在样本数据中只占一部分。因此通用场景的语言模型对于数据表字段的匹配针对性弱,从而使得相关技术在数据表字段的匹配场景中匹配准确性较低。
[0030]例如,数据表1中包括字段“电话号码”,数据表2中包括字段“手机号码”,该两个字段内容均为手机号码,即含义相同,标准字段库中与之对应的标准字段为“号码”,但字段“电话号码”的特征向量(电话,号码)与标准字段“号码”的特征向量(号码)的相似度数值却不大,从而使得字段“电话号码”无法准确匹配到标准字段“号码”。同理,字段“手机号码”也无法准确匹配到标准字段“号码”。
[0031]再比如,数据表3中包括字段“住宅电话号码”和“办公电话号码”,按照相关技术,该两个字段均会匹配到标准本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据表字段的关联字段推荐方法,其特征在于,包括:获取数据表中的目标字段;利用已训练好的相似度模型,确定所述目标字段与预设的标准字段库中各标准字段的相似度;其中,用于训练所述相似度模型的样本数据中,输入字段之间的相似度是根据所述输入字段是否属于同一数据表确定的;根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段。2.根据权利要求1所述的方法,其特征在于,所述相似度模型的获取过程,包括:设置机器学习模型;构造样本数据,所述样本数据包括输入字段和标签相似度,所述标签相似度为所述输入字段之间的相似度;其中,若所述输入字段属于同一数据表,则确定所述标签相似度等于预设的相似度区间的最小值;利用所述样本数据对所述机器学习模型进行训练,得到训练完毕的机器学习模型,以所述训练完毕的机器学习模型作为相似度模型。3.根据权利要求1所述的方法,其特征在于,所述输入字段均为数据表中的字段;或者,所述输入字段包括数据表中的字段和标准字段库中的标准字段。4.根据权利要求1所述的方法,其特征在于,若所述输入字段属于不同数据表,则根据预设相似度计算方式计算所述输入字段之间的相似度,作为所述标签相似度。5.根据权利要求1所述的方法,其特征在于,根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段,包括:将所述各标准字段对应的相似度按照数值进行排序;根据排序结果,从所述标准字段库中提取相似度最大的设定数目个标准字段,作为所述目标字段对应的关联字段。6.一种数据表字段的关联...
【专利技术属性】
技术研发人员:魏良宵,徐鹏飞,周轶凡,
申请(专利权)人:杭州数梦工场科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。