数据表字段的关联字段推荐方法及装置制造方法及图纸

技术编号：27315404 阅读：26 留言：0更新日期：2021-02-10 09:46

本发明专利技术实施例提供一种数据表字段的关联字段推荐方法及装置。本发明专利技术实施例通过获取数据表中的目标字段，利用已训练好的相似度模型，确定所述目标字段与预设的标准字段库中各标准字段的相似度，其中，用于训练所述相似度模型的样本数据中，输入字段之间的相似度是根据所述输入字段是否属于同一数据表确定的，根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段，利用数据表内字段的非冗余性构造训练的样本数据，提高了相似度模型的相似度计算结果的准确性，使得推荐的关联字段准确性更高，进而提高了数据表字段与标准字段的匹配准确性。的匹配准确性。的匹配准确性。

全部详细技术资料下载

【技术实现步骤摘要】
数据表字段的关联字段推荐方法及装置

[0001]本专利技术涉及数据处理
，尤其涉及一种数据表字段的关联字段推荐方法及装置。

技术介绍

[0002]在政务行业的数据标准化过程中，需要将数据表(也称为物理表)中的字段与给定的标准字段进行关联匹配。在现实场景中，数据表字段的数量是非常庞大的，用人工将每个数据表字段与标准字段进行匹配是不切实际的，人力投入将非常大。
[0003]相关技术中，采用常规的机器学习方法，利用数据表字段的词向量生成特征向量，通过将该特征向量与特征库中的特征向量进行相似度计算，根据相似度计算结果确实是否匹配。该技术中，使用通用场景的语言模型生成的词向量作为特征向量进行相似度计算，在数据表字段的匹配场景中匹配准确性较低。

技术实现思路

[0004]为克服相关技术中存在的问题，本专利技术提供了一种数据表字段的关联字段推荐方法及装置，提高数据表字段与标准字段的匹配准确性。
[0005]根据本专利技术实施例的第一方面，提供一种数据表字段的关联字段推荐方法，包括：
[0006]获取数据表中的目标字段；
[0007]利用已训练好的相似度模型，确定所述目标字段与预设的标准字段库中各标准字段的相似度；其中，用于训练所述相似度模型的样本数据中，输入字段之间的相似度是根据所述输入字段是否属于同一数据表确定的；
[0008]根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段。
[0009]根据本专利技术实施例的第二方面，提供一种数据表字段的关联字...

【技术保护点】

【技术特征摘要】
1.一种数据表字段的关联字段推荐方法，其特征在于，包括：获取数据表中的目标字段；利用已训练好的相似度模型，确定所述目标字段与预设的标准字段库中各标准字段的相似度；其中，用于训练所述相似度模型的样本数据中，输入字段之间的相似度是根据所述输入字段是否属于同一数据表确定的；根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段。2.根据权利要求1所述的方法，其特征在于，所述相似度模型的获取过程，包括：设置机器学习模型；构造样本数据，所述样本数据包括输入字段和标签相似度，所述标签相似度为所述输入字段之间的相似度；其中，若所述输入字段属于同一数据表，则确定所述标签相似度等于预设的相似度区间的最小值；利用所述样本数据对所述机器学习模型进行训练，得到训练完毕的机器学习模型，以所述训练完毕的机器学习模型作为相似度模型。3.根据权利要求1所述的方法，其特征在于，所述输入字段均为数据表中的字段；或者，所述输入字段包括数据表中的字段和标准字段库中的标准字段。4.根据权利要求1所述的方法，其特征在于，若所述输入字段属于不同数据表，则根据预设相似度计算方式计算所述输入字段之间的相似度，作为所述标签相似度。5.根据权利要求1所述的方法，其特征在于，根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段，包括：将所述各标准字段对应的相似度按照数值进行排序；根据排序结果，从所述标准字段库中提取相似度最大的设定数目个标准字段，作为所述目标字段对应的关联字段。6.一种数据表字段的关联...

【专利技术属性】
技术研发人员：魏良宵，徐鹏飞，周轶凡，
申请(专利权)人：杭州数梦工场科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人