一种测试数据的生成方法和系统技术方案

技术编号:24995601 阅读:24 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种测试数据的生成方法和系统,所述生成方法包括以下步骤:接收元数据的信息,并明确所述元数据的关联数据,对所述关联数据进行分析,调整关联字段的分布,找出所述关联数据中的字段关系特征;根据所述字段关系特征,匹配不同的数据运算方法对所述元数据进行测试数据的运算,并根据所述元数据的存储位置输出所述测试数据的存储格式和字段类型。本发明专利技术实施例提供的能够生成方法和系统能够利用较少的操作工作量,生成用于测试程序性能的数据,来实现对程序可行性的测试或程序效率的调优。本发明专利技术实施例解决了现阶段采用随机生成测试数据的弊端,使测试数据与真实数据更加相似。

【技术实现步骤摘要】
一种测试数据的生成方法和系统
本专利技术涉及计算机领域,具体涉及一种测试数据的生成方法和系统。
技术介绍
目前,对程序可行性的测试或程序效率的调优时,都需要用到测试数据,然而,传统的封闭网络系统中,真实数据难以导入相关系统中,或系统只要小规模的样本数据,而系统程序是大规模的批量运算,现有的测试数据难以满足对程序效率测试的需求。现阶段,大家生产测试数据主要是用随机数生产,由于传统的随机生产都未对元数据进行处理,导致测试数据存在以下几个方面的问题:数据分布不一致、不能体现字段间的相关性、主键与外键的关联性差,进而导致这种随机的生成的测试数据与真实数据差距较大,影响了测试的准确性和程序效率的调优。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种测试数据的生成方法和系统,利用较少的操作工作量,生成和真实数据相似度更高的测试数据。为解决上述技术问题,本专利技术采用的技术方案是:第一方面,本专利技术提供了一种测试数据的生成方法,包括以下步骤:接收元数据的信息,并明确所述元数据的关联数据,对所述关联数据进行分析,调整关联字段的分布,找出所述关联数据中的字段关系特征;根据所述字段关系特征,匹配不同的数据运算方法对所述元数据进行测试数据的运算,并根据所述元数据的存储位置输出所述测试数据的存储格式和字段类型。进一步地,对所述元数据进行测试数据的运算包括以下步骤:当所述元数据中有明确性相关字段的测试数据生成时,采用明确的加减乘除四则运算规则实现字段间数据类型和数据值的转化;当所述元数据中有复杂关联的数据集间字段的运算时,首先对所述数据集进行局部认识或者明确小样本的原始数据集,选择不同的算法模型并调试,从而输出不同类型的测试数据,并验证所述测试数据的准确性。进一步地,在对所述数据集进行局部认识或者明确小样本的原始数据集的过程中,当选择聚类算法或者分类算法得到数据特征时,首先选择与所述聚类算法或所述分类算法具有紧密相关的字段,然后按照选择的结果,随机选择某一字段的值,再随机选择其他字段,并按照选择的字段采用贝叶斯算法模型或者决策树算法模型,确定符合聚类结果的概率。进一步地,在对所述数据集进行局部认识或者明确小样本的原始数据集的过程中,当选择关联算法得到数据特征时,首先选择与关联算法具有相关的字段,然后按照关联的结果,先随机关联某一字段,通过关联的结果,按照预定的置信度生成其他关联字段。进一步地,对所述关联字段的分布调整包括:对无关联字段采用ARM算法进行相关概率分布的调整;对复杂关联字段采用隔离分箱填充不同数量的字段;通过判断字段间的主外键关联度,使得字段表的外键存在于相关所述字段表中;通过字段的长度和精度进行字段约束。另一方面,本专利技术还提供了一种测试数据的生成系统,包括:元数据处理模块,用于接收元数据的信息,并明确所述元数据的关联数据,对所述关联数据进行分析,调整关联字段的分布,找出所述关联数据中的字段关系特征;测试数据生成模块,用于根据所述字段关系特征,匹配不同的数据运算方法对所述元数据进行测试数据的运算,并根据所述元数据的存储位置输出所述测试数据的存储格式和字段类型。进一步地,所述测试数据生成模块包括字段运算单元,所述字段运算单元用于对所述元数据进行测试数据的运算;当所述元数据中有明确性相关字段的测试数据生成时,所述字段运算单元采用明确的加减乘除四则运算规则实现字段间数据类型和数据值的转化;当所述元数据中有复杂关联的数据集间字段的运算时,所述字段运算单元首先对所述数据集进行局部认识或者明确小样本的原始数据集,选择不同的算法模型并调试,从而输出不同类型的测试数据,并验证所述测试数据的准确性。进一步地,所述字段运算单元在对所述数据集进行局部认识或者明确小样本的原始数据集的过程中,当选择聚类算法或者分类算法得到数据特征时,首先选择与所述聚类算法或所述分类算法具有紧密相关的字段,然后按照选择的结果,随机选择某一字段的值,再随机选择其他字段,并按照选择的字段采用贝叶斯算法模型或者决策树算法模型,确定符合聚类结果的概率。进一步地,所述字段运算单元在对所述数据集进行局部认识或者明确小样本的原始数据集的过程中,当选择关联算法得到数据特征时,首先选择与关联算法具有相关的字段,然后按照关联的结果,先随机关联某一字段,通过关联的结果,按照预定的置信度生成其他关联字段。进一步地,所述元数据处理模块包括字段分布调整单元,所述字段分布调整单元用于对所述关联字段进行分布调整,包括:对无关联字段采用ARM算法进行相关概率分布的调整;对复杂关联字段采用隔离分箱填充不同数量的字段;通过判断字段间的主外键关联度,使得字段表的外键存在于相关所述字段表中;通过字段的长度和精度进行字段约束。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例提供了一种测试数据的生成方法和系统,在对测试数据生成的过程中,首先接收元数据的信息,并明确所述元数据的关联数据,对所述关联数据进行分析,调整所述关联字段的分布,找出所述关联数据中的字段关系特征;然后根据所述字段关系特征,匹配不同的数据运算方法对所述元数据进行测试数据的运算,并根据所述元数据的存储位置输出所述测试数据的存储格式和字段类型。所述生成方法和系统能够利用较少的操作工作量,生成用于测试程序性能的数据,来实现对程序可行性的测试或程序效率的调优。本专利技术实施例解决了现阶段采用随机生成测试数据的弊端,使测试数据与真实数据更加相似,提高了程序测试的准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的测试数据的生成方法的一种流程图;图2是本本专利技术实施例提供的测试数据的生成方法的一种逻辑示意图;图3是本专利技术实施例提供的测试数据的生成系统中字段运算单元的处理过程示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一:如图1至图2所示,本实施例提供了一种测试数据的生成方法,包括以下步骤:S1:接收元数据的信息,并明确所述元数据的关联数据,对所述关联数据进行分析,调整所述关联字段的分布,找出所述关联数据中的字段关系特征;S2:根据所述字段关系特征,匹配不同的数据运算方法对所述元数据进行测试数据的运算,并根据所述元数据的存储位置输出所述测试数据的存储格式和字段类型。具体地,在生成测试数据的过本文档来自技高网...

【技术保护点】
1.一种测试数据的生成方法,其特征在于,包括以下步骤:/n接收元数据的信息,并明确所述元数据的关联数据,对所述关联数据进行分析,调整关联字段的分布,找出所述关联数据中的字段关系特征;/n根据所述字段关系特征,匹配不同的数据运算方法对所述元数据进行测试数据的运算,并根据所述元数据的存储位置输出所述测试数据的存储格式和字段类型。/n

【技术特征摘要】
1.一种测试数据的生成方法,其特征在于,包括以下步骤:
接收元数据的信息,并明确所述元数据的关联数据,对所述关联数据进行分析,调整关联字段的分布,找出所述关联数据中的字段关系特征;
根据所述字段关系特征,匹配不同的数据运算方法对所述元数据进行测试数据的运算,并根据所述元数据的存储位置输出所述测试数据的存储格式和字段类型。


2.根据权利要求1所述的测试数据的生成方法,其特征在于,对所述元数据进行测试数据的运算包括以下步骤:
当所述元数据中有明确性相关字段的测试数据生成时,采用明确的加减乘除四则运算规则实现字段间数据类型和数据值的转化;
当所述元数据中有复杂关联的数据集间字段的运算时,首先对所述数据集进行局部认识或者明确小样本的原始数据集,选择不同的算法模型并调试,从而输出不同类型的测试数据,并验证所述测试数据的准确性。


3.根据权利要求2所述的测试数据的生成方法,其特征在于,在对所述数据集进行局部认识或者明确小样本的原始数据集的过程中,当选择聚类算法或者分类算法得到数据特征时,首先选择与所述聚类算法或所述分类算法具有紧密相关的字段,然后按照选择的结果,随机选择某一字段的值,再随机选择其他字段,并按照选择的字段采用贝叶斯算法模型或者决策树算法模型,确定符合聚类结果的概率。


4.根据权利要求2所述的测试数据的生成方法,其特征在于,在对所述数据集进行局部认识或者明确小样本的原始数据集的过程中,当选择关联算法得到数据特征时,首先选择与关联算法具有相关的字段,然后按照关联的结果,先随机关联某一字段,通过关联的结果,按照预定的置信度生成其他关联字段。


5.根据权利要求1所述的测试数据的生成方法,其特征在于,对所述关联字段的分布调整包括:对无关联字段采用ARM算法进行相关概率分布的调整;对复杂关联字段采用隔离分箱填充不同数量的字段;通过判断字段间的主外键关联度,使得字段表的外键存在于相关所述字段表中;通过字段的长度和精度进行字段约束。


6.一种测试数据的生成系统,其特征在于,包括:
元数据处理模块,用于接收元数据的信息,并...

【专利技术属性】
技术研发人员:许江峰蔡苗陈震宇刘国华
申请(专利权)人:中国邮政储蓄银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1