本公开提供了一种异构数据库函数分类、异构数据库迁移方法,可以应用于信息安全技术领域。该方法包括:获取源数据库函数集和目标数据库函数集,源数据库函数集包括多个源库函数,源库函数包括源库函数名,目标数据库函数集包括多个目标库函数,目标库函数包括目标库函数名;通过词向量计算多个源库函数名和多个目标库函数名的相似度,得到函数名映射关系;获取输入参数;基于输入参数,执行存在函数名映射关系的多个源库函数和多个目标库函数,得到输出参数;以及基于输出参数的差异性,输出源库函数的函数分类,函数分类至少包括直接迁移类别。本公开还提供了一种异构数据库函数分类、异构数据库迁移装置、设备、存储介质和程序产品。产品。产品。
【技术实现步骤摘要】
异构数据库函数分类、异构数据库迁移方法
[0001]本公开涉及信息安全领域,具体地涉及一种异构数据库函数分类、异构数据库迁移方法。
技术介绍
[0002]数据库国产化是当前形势下的一个需求,具体表现在将数据从传统数据库(或称源数据库)迁移至国产数据库(或称目标数据库)中,其中,传统数据库和国产数据库两者的关系是属于异构数据库,该将传统数据库中数据迁移至国产数据库中的过程便属于异构数据库的数据迁移。
[0003]国产数据库版本更新迭代速度非常快,需要对其进行充分的测试验证,以保证平滑迁移降低应用改造工作量。不同数据库在系统函数方面有着极大的差异,如功能接近但函数名称不同,函数名称相同但入参或出参不同,即使近似语法在两个数据库都可以运行,也会造成实际执行结果不同的情况,易导致金融业务风险。
[0004]现有技术中,为保证异构数据库的数据迁移的安全性,多采用建立关联树和语法关系的方案,分别指定函数迁移顺序以及修复函数语法差异,在迁移过程中自动适配函数语法差异,自动将传统数据库的语法适配为国产数据库的语法。但现有技术仍存在迁移成本高、兼容性差以及准确度低等问题。
技术实现思路
[0005]鉴于上述问题,本公开提供了提高迁移准确性、迁移效率以及兼容性的异构数据库函数分类、异构数据库迁移方法、装置、设备、介质和程序产品。
[0006]根据本公开的第一个方面,提供了一种异构数据库函数分类方法,包括:获取源数据库函数集和目标数据库函数集,所述源数据库函数集包括多个源库函数,所述源库函数包括源库函数名,所述目标数据库函数集包括多个目标库函数,所述目标库函数包括目标库函数名;通过词向量计算多个源库函数名和多个目标库函数名的相似度,得到函数名映射关系;获取输入参数;基于所述输入参数,执行存在所述函数名映射关系的所述多个源库函数和所述多个目标库函数,得到输出参数;以及基于所述输出参数的差异性,输出所述源库函数的函数分类,所述函数分类至少包括直接迁移类别。
[0007]根据本公开的实施例,其中,所述通过词向量计算多个源库函数名和多个目标库函数名的相似度,得到函数名映射关系,包括:分别对所述多个源库函数名和所述多个目标库函数名进行清洗;分别将清洗后的所述多个源库函数名和所述多个目标库函数名转化为词向量,得到多个源库函数词向量和多个目标库函数词向量;计算所述多个源库函数词向量和所述多个目标库函数词向量的相似度,其中,所述多个源库函数词向量至少包括第一词向量,所述多个目标库函数词向量至少包括第二词向量;确定所述第一词向量和所述第二词向量之间的相似度所处的预设映射区间;以及基于所述相似度所处的预设映射区间确定所述函数名映射关系。
[0008]根据本公开的实施例,其中,所述分别对所述多个源库函数名和所述多个目标库函数名进行清洗,包括:校验所述多个源库函数名和所述多个目标库函数名是否匹配到预设的报错条件;以及在所述多个源库函数名和所述多个目标库函数名匹配到预设的报错条件的情况下,按照所述报错条件进行纠错处理。
[0009]根据本公开的实施例,其中,所述输入参数是通过生成对抗网络生成的,所述输入参数的生成方法包括:获取真入参样本和随机噪声;基于所述随机噪声,通过生成器生成伪入参样本;基于所述真入参样本和所述伪入参样本,通过判别器进行判断,得到判别结果,所述判别结果包括第一判别结果和第二判别结果,所述第一判别结果是所述判别器判别为真的入参样本,所述第二判别结果是所述判别器判别为假的入参样本;将判别器认定的为真的入参样本作为输入参数;以及将所述判别器认定的为假的入参样本传入所述生成器,以优化所述生成器中伪入参样本的生成逻辑。
[0010]根据本公开的实施例,其中,所述真入参样本包括包含入参类型标签的入参样本和不包含入参类型标签的入参样本。
[0011]根据本公开的实施例,其中,所述函数名映射关系至少包括同义词关系,所述基于所述输入参数,执行存在所述函数名映射关系的所述多个源库函数和所述多个目标库函数,得到输出参数,包括:对于存在所述同义词关系的所述源库函数和所述目标库函数输入所述输入参数,以执行得到输出参数,其中,所述输入参数包括参数类型、参数数量和参数取值。
[0012]根据本公开的实施例,其中,所述基于所述输出参数的差异,输出所述源库函数的函数分类,包括:在所述源库函数和所述目标库函数为所述同义词关系的情况下,且所述输出参数一致,则判定所述源库函数的函数分类为直接迁移类别。
[0013]本公开的第二个方面,提供一种异构数据库迁移方法,包括:获取函数名映射关系、函数分类以及源数据库数据,所述源数据库数据包括源库函数;基于所述源库函数,通过所述映射关系查找目标库函数;以及基于所述函数分类中的直接迁移类别对应的所述源库函数进行直接迁移,其中,所述函数名映射关系和所述函数分类是执行上述异构数据库函数分类方法得到的。
[0014]本公开的第三个方面,提供了一种异构数据库函数分类装置,包括:分类要素获取模块,用于获取源数据库函数集和目标数据库函数集,所述源数据库函数集包括多个源库函数,所述源库函数包括源库函数名,所述目标数据库函数集包括多个目标库函数,所述目标库函数包括目标库函数名;相似度计算模块,用于通过词向量计算多个源库函数名和多个目标库函数名的相似度,得到函数名映射关系;输入参数获取模块,用于获取输入参数;函数执行模块,用于基于所述输入参数,执行存在所述函数名映射关系的所述多个源库函数和所述多个目标库函数,得到输出参数;以及函数分类模块,用于基于所述输出参数的差异性,输出所述源库函数的函数分类,所述函数分类至少包括直接迁移类别。
[0015]根据本公开的实施例,其中,所述相似度计算模块,用于分别对所述多个源库函数名和所述多个目标库函数名进行清洗;分别将清洗后的所述多个源库函数名和所述多个目标库函数名转化为词向量,得到多个源库函数词向量和多个目标库函数词向量;计算所述多个源库函数词向量和所述多个目标库函数词向量的相似度,其中,所述多个源库函数词向量至少包括第一词向量,所述多个目标库函数词向量至少包括第二词向量;确定所述第
一词向量和所述第二词向量之间的相似度所处的预设映射区间;以及基于所述相似度所处的预设映射区间确定所述函数名映射关系。
[0016]根据本公开的实施例,其中,所述相似度计算模块,用于校验所述多个源库函数名和所述多个目标库函数名是否匹配到预设的报错条件;以及在所述多个源库函数名和所述多个目标库函数名匹配到预设的报错条件的情况下,按照所述报错条件进行纠错处理。
[0017]根据本公开的实施例,其中,所述输入参数是通过生成对抗网络生成的,所述装置包括:测试参数生成模块,用于获取真入参样本和随机噪声;基于所述随机噪声,通过生成器生成伪入参样本;基于所述真入参样本和所述伪入参样本,通过判别器进行判断,得到判别结果,所述判别结果包括第一判别结果和第二判别结果,所述第一判别结果是所述判别器判别为真的入参样本,所述第二判别结果是所述判别器判别为假的入参样本;将判本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种异构数据库函数分类方法,包括:获取源数据库函数集和目标数据库函数集,所述源数据库函数集包括多个源库函数,所述源库函数包括源库函数名,所述目标数据库函数集包括多个目标库函数,所述目标库函数包括目标库函数名;通过词向量计算多个源库函数名和多个目标库函数名的相似度,得到函数名映射关系;获取输入参数;基于所述输入参数,执行存在所述函数名映射关系的所述多个源库函数和所述多个目标库函数,得到输出参数;以及基于所述输出参数的差异性,输出所述源库函数的函数分类,所述函数分类至少包括直接迁移类别。2.根据权利要求1所述的方法,其中,所述通过词向量计算多个源库函数名和多个目标库函数名的相似度,得到函数名映射关系,包括:分别对所述多个源库函数名和所述多个目标库函数名进行清洗;分别将清洗后的所述多个源库函数名和所述多个目标库函数名转化为词向量,得到多个源库函数词向量和多个目标库函数词向量;计算所述多个源库函数词向量和所述多个目标库函数词向量的相似度,其中,所述多个源库函数词向量至少包括第一词向量,所述多个目标库函数词向量至少包括第二词向量;确定所述第一词向量和所述第二词向量之间的相似度所处的预设映射区间;以及基于所述相似度所处的预设映射区间确定所述函数名映射关系。3.根据权利要求2所述的方法,其中,所述分别对所述多个源库函数名和所述多个目标库函数名进行清洗,包括:校验所述多个源库函数名和所述多个目标库函数名是否匹配到预设的报错条件;以及在所述多个源库函数名和所述多个目标库函数名匹配到预设的报错条件的情况下,按照所述报错条件进行纠错处理。4.根据权利要求1所述的方法,其中,所述输入参数是通过生成对抗网络生成的,所述输入参数的生成方法包括:获取真入参样本和随机噪声;基于所述随机噪声,通过生成器生成伪入参样本;基于所述真入参样本和所述伪入参样本,通过判别器进行判断,得到判别结果,所述判别结果包括第一判别结果和第二判别结果,所述第一判别结果是所述判别器判别为真的入参样本,所述第二判别结果是所述判别器判别为假的入参样本;将判别器认定的为真的入参样本作为输入参数;以及将所述判别器认定的为假的入参样本传入所述生成器,以优化所述生成器中伪入参样本的生成逻辑。5.根据权利要求4所述的方法,其中,所述真入参样本包括包含入参类型标签的入参样本和不包含入参类型标签的入参样本。6.根据权利要求2所述的方法,其中,所述函数名映射关系至少包括同义词关系,
所述基于所述输入参数,执行存在所述函数名映射关系的所述多个源库函数和所述多个目标...
【专利技术属性】
技术研发人员:梁昊然,董勇明,夏康,何思阳,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。