一种数据转换的方法、装置、服务器及存储介质制造方法及图纸

技术编号:33292706 阅读:16 留言:0更新日期:2022-05-01 00:15
本申请适用于数据处理技术领域,提供了一种数据转换的方法、装置、服务器及存储介质,方法包括:接收数据迁移请求;基于所述文档标识,从原始数据库内获取所述目标文档的原始代码数据,对原始代码数据进行语义解析,标记所述原始代码数据内包含的函数关键词;查找所述原始数据库与所述目标数据库之间的映射关系,并基于所述映射关系分别确定所述函数关键词对应的映射关键词;依次将各个所述函数关键词对应的原始代码段,转换为所述映射关键词对应的迁移代码段;基于所有迁移代码段生成关于所述目标数据库的迁移代码数据。采用上述方法,提高了数据迁移的效率,并同时减少人工成本。并同时减少人工成本。并同时减少人工成本。

【技术实现步骤摘要】
一种数据转换的方法、装置、服务器及存储介质


[0001]本申请属于数据处理
,尤其涉及一种数据转换的方法、装置、服务器及存储介质。

技术介绍

[0002]随着电子化进程的不断推进,越来越多文档可以通过数据化的形式进行存储,为了便于对数量较大的电子文档进行管理以及存储,可以将电子文档存储于数据库内,以提高文档搜索以及管理的效率。
[0003]在业务发展时,原有的数据库可能并不适用于新的业务场景,此时,需要将原有的电子文档从一种类型的数据库迁移至另一类型的数据库内,以实现电子文档的数据迁移。然而现有的数据管理技术,由于不同数据库的函数语法结构存在较大的差异,往往需要开发人员在新的数据库内重新创建对应的数据表,并逐一将每条项目再导入到上述创建的数据表内,然而随着业务扩展速度的不断加快,数据库迁移的频率越来越高,人工配置数据表并重新导入数据会大大影响数据迁移的效率,并增加了大量的人力成本。

技术实现思路

[0004]本申请实施例提供了一种数据转换的方法、装置、服务器及存储介质,可以解决现有的数据管理技术,往往需要开发人员在新的数据库内重新创建对应的数据表,并逐一将每条项目再导入到上述创建的数据表内,然而随着业务扩展速度的不断加快,数据库迁移的频率越来越高,人工配置数据表并重新导入数据会大大影响数据迁移的效率,并增加了大量的人力成本。
[0005]第一方面,本申请实施例提供了一种数据转换的方法,包括:
[0006]接收数据迁移请求;所述数据迁移请求包含有所需迁移的目标文档的文档标识,以及所述目标文档预计迁移的数据库标识;
[0007]基于所述文档标识,从原始数据库内获取所述目标文档的原始代码数据,对原始代码数据进行语义解析,标记所述原始代码数据内包含的函数关键词;
[0008]查找所述原始数据库与所述目标数据库之间的映射关系,并基于所述映射关系分别确定所述函数关键词对应的映射关键词;
[0009]依次将各个所述函数关键词对应的原始代码段,转换为所述映射关键词对应的迁移代码段;
[0010]基于所有迁移代码段生成关于所述目标数据库的迁移代码数据。
[0011]在第一方面的一种可能的实现方式中,在所述查找所述原始数据库与所述目标数据库之间的映射关系,并基于所述映射关系分别确定所述函数关键词对应的映射关键词之前,还包括:
[0012]获取所述原始数据库内的所有第一函数,并确定各个所述第一函数对应的所述函数关键词;
[0013]获取所述目标数据库内的所有第二函数,并确定各个所述第二函数对应的所述映射关键词;
[0014]在所有所述映射关键词中确定与函数关键词匹配的映射关键词,并建立所述函数关键词对应的第一函数与匹配的映射关键词对应第二函数之间的对应关系;
[0015]根据所有所述对应关系,生成所述原始数据库与所述目标数据库之间的映射关系。
[0016]在第一方面的一种可能的实现方式中,所述在所有所述映射关键词中确定与函数关键词匹配的映射关键词,并建立所述函数关键词对应的第一函数与匹配的映射关键词对应第二函数之间的对应关系,包括:
[0017]分别计算所述函数关键词与各个所述映射关键词之间的关联置信度;所述关联置信度为:
[0018][0019]其中,SimilarLv为上述函数关键词与映射关键词之间的关联置信度;Qst
xa
为第a个函数关键词对应的关键词属性,Qst
yb
为第b个映射关键词对应的关键词属性;n为原始数据库的关键词总数;m为目标数据库的关键词总数;IDF为逆文本概率计算函数;Semta为语义相似度计算函数;α为预设系数;
[0020]若存在任一所述映射关键词与所述函数关键词之间的所述关联置信度大于预设的匹配阈值,则选取所述关联置信度最大的所述映射关键词作为所述函数关键词匹配的映射关键词。
[0021]在第一方面的一种可能的实现方式中,在所述分别计算所述函数关键词与各个所述映射关键词之间的关联置信度之后,还包括:
[0022]若所有所述映射关键词与所述函数关键词之间的所述关联置信度均小于或等于所述匹配阈值,则将所述函数关键词识别为待匹配关键词;
[0023]将所述目标数据库内未关联任一所述函数关键词的映射关键词对应的第二函数识别为待映射函数,并对所有所述待映射函数进行组合,生成至少一个待映射函数组;所述待映射函数组内包含两个以上所述待映射函数;
[0024]通过所述待匹配关键词的第一函数处理预设的训练示例,得到第一处理结果,以及通过所述待映射函数组处理所述训练示例,得到第二处理结果;
[0025]根据所述第一处理结果以及所述第二处理结果,确定所述待匹配关键词的第一函数与所述待映射函数组之间的处理相似度;
[0026]若任一所述待映射函数组与所述待匹配关键词的第一函数之间的处理相似度大于预设的相似阈值,则建立所述待匹配关键词的第一函数与所述待映射函数组之间的对应关系。
[0027]在第一方面的一种可能的实现方式中,在所述查找所述原始数据库与所述目标数据库之间的映射关系,并基于所述映射关系分别确定所述函数关键词对应的映射关键词之前,还包括:
[0028]若未查询到所述映射关系,则获取所述原始数据库与所述目标数据库之间的映射建立记录;
[0029]若不存在所述映射建立记录,则获取所述原始数据库的第一函数库以及所述目标数据库的第二函数库,根据所述第一函数库以及所述第二函数库生成所述映射关系;
[0030]若存在所述映射建立记录,则对所述映射建立记录进行解析,确定已建立关联关系的关联函数对;
[0031]根据所有所述关联函数对生成映射配置信息,以便用户对待配置的函数建立关联关系,以得到所述原始数据库与所述目标数据库之间的映射关系。
[0032]在第一方面的一种可能的实现方式中,在所述基于所有迁移代码段生成关于所述目标数据库的迁移代码数据之后,还包括:
[0033]从所述原始数据库内获取多个验证数据,并确定每个所述验证数据通过所述目标文档的原始代码数据处理后对应的基准结果;
[0034]通过迁移代码数据分别处理每个所述验证数据,得到实际结果;
[0035]根据所有所述基准结果以及所述实际结果,计算数据迁移过程对应的偏差值;
[0036]若所述偏差值大于预设的偏差阈值,则生成迁移失败信息。
[0037]在第一方面的一种可能的实现方式中,所述基于所述文档标识,从原始数据库内获取所述目标文档的原始代码数据,对原始代码数据进行语义解析,标记所述原始代码数据内包含的函数关键词,包括:
[0038]获取所述原始数据库的第一函数库;所述第一函数库内包含有多个预设的函数模板;
[0039]分别确定各个所述函数模板对应的所述函数关键词,生成函数关键词典;
[0040]通过所述函数关键词典,在所述原始代码数据内标记各个所述函数关键词,以及出现所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据转换的方法,其特征在于,包括:接收数据迁移请求;所述数据迁移请求包含有所需迁移的目标文档的文档标识,以及所述目标文档预计迁移的目标数据库的数据库标识;基于所述文档标识,从原始数据库内获取所述目标文档的原始代码数据,对原始代码数据进行语义解析,标记所述原始代码数据内包含的函数关键词;查找所述原始数据库与所述目标数据库之间的映射关系,并基于所述映射关系分别确定所述函数关键词对应的映射关键词;依次将各个所述函数关键词对应的原始代码段,转换为所述映射关键词对应的迁移代码段;基于所有迁移代码段生成关于所述目标数据库的迁移代码数据。2.根据权利要求1所述的方法,其特征在于,在所述查找所述原始数据库与所述目标数据库之间的映射关系,并基于所述映射关系分别确定所述函数关键词对应的映射关键词之前,还包括:获取所述原始数据库内的所有第一函数,并确定各个所述第一函数对应的所述函数关键词;获取所述目标数据库内的所有第二函数,并确定各个所述第二函数对应的所述映射关键词;在所有所述映射关键词中确定与函数关键词匹配的映射关键词,并建立所述函数关键词对应的第一函数与匹配的映射关键词对应第二函数之间的对应关系;根据所有所述对应关系,生成所述原始数据库与所述目标数据库之间的映射关系。3.根据权利要求2所述的方法,其特征在于,所述在所有所述映射关键词中确定与函数关键词匹配的映射关键词,并建立所述函数关键词对应的第一函数与匹配的映射关键词对应第二函数之间的对应关系,包括:分别计算所述函数关键词与各个所述映射关键词之间的关联置信度;所述关联置信度为:其中,SimilarLv为上述函数关键词与映射关键词之间的关联置信度;Qst
xa
为第a个函数关键词对应的关键词属性,Qst
yb
为第b个映射关键词对应的关键词属性;n为原始数据库的关键词总数;m为目标数据库的关键词总数;IDF为逆文本概率计算函数;Semta为语义相似度计算函数;α为预设系数;若存在任一所述映射关键词与所述函数关键词之间的所述关联置信度大于预设的匹配阈值,则选取所述关联置信度最大的所述映射关键词作为所述函数关键词匹配的映射关键词。4.根据权利要求3所述的方法,其特征在于,在所述分别计算所述函数关键词与各个所述映射关键词之间的关联置信度之后,还包括:若所有所述映射关键词与所述函数关键词之间的所述关联置信度均小于或等于所述匹配阈值,则将所述函数关键词识别为待匹配关键词;
将所述目标数据库内未关联任一所述函数关键词的映射关键词对应的第二函数识别为待映射函数,并对所有所述待映射函数进行组合,生成至少一个待映射函数组;所述待映射函数组内包含两个以上所述待映射函数;通过所述待匹配关键词的第一函数处理预设的训练示例,得到第一处理结果,以及通过所述待映射函数组处理所述训练示例,得到第二处理结果;根据所述第一处理结果以及所述第二处理结果,确定所述待匹配关键词的第一函数与所述待映射函数组之间的处理相似度;若任一所述待映射函数组与所述待匹配关键词的第一函数之间的处理...

【专利技术属性】
技术研发人员:欧阳伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1