测试样本生成方法、系统、计算机设备及存储介质技术方案

技术编号:24355197 阅读:110 留言:0更新日期:2020-06-03 02:24
本发明专利技术实施例提供了一种测试样本生成方法,所述方法包括:为目标证件类别配置至少一个目标证件底图,目标证件底图为未携带特征数据的证件图片;获取所述目标证件类别关联的多个目标特征;根据多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括多个目标特征对应的多个目标特征数据;根据目标证件底图和多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。本发明专利技术实施例提供的测试样本生成方法,可以通过少量数据,自动生成大批量多个场景的符合格式要求且不涉及隐私的证件图片。

Test sample generation method, system, computer equipment and storage medium

【技术实现步骤摘要】
测试样本生成方法、系统、计算机设备及存储介质
本专利技术实施例涉及计算机数据处理领域,尤其涉及一种测试样本生成方法、系统、计算机设备及计算机可读存储介质。
技术介绍
随着计算机技术的发展,将纸上内容以电子数据形式存储到本地端或云端,有效提高了工作效率。将纸上内容转化为电子数据,当下做法是:由人工将纸上内容手动输入到计算机设备中。例如,公司将新进员工的纸质毕业证上的名片内容(姓名、学校、专业、学位等)手动输入到员工档案录中。然而,这种做法的缺陷是显而易见,费时费力、容易出错,并且重复性高。为解决上述问题提出了基于光学文字识别(OCR,OpticalCharacterRecognition)技术的光学识别工具,该光学识别工具在于识别手写字符或扫描字符,对以纸质文字转化为数字化的电子信息。可预见的,光学识别工具在进行文字识别过程中可能会遇到各式各样的识别场景,为了确保该光学识别工具能够适应于该各式各样的识别场景,需要在投入使用前对该光学文字识别工具进行识别测试。本专利技术人目前所解决的技术中,本领域技术人员通常会收集大量的纸质材料,将该大量纸质材料转化为图片格式文件集,然后将图片格式文件集用于测试该光学识别工具的测试样本。上述测试样本获取效率低,也难于将各式各样的测试样本收集齐全;另外,在测试样本收集过程中也可能会泄露隐私内容。
技术实现思路
有鉴于此,本专利技术实施例的目的是提供一种测试样本生成方法、系统、计算机设备及计算机可读存储介质,可以解决测试样本获取效率低、测试样本收集不齐全以及泄露隐私内容的问题。为实现上述目的,本专利技术实施例提供了一种测试样本生成方法,包括以下步骤:为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片;获取所述目标证件类别关联的多个目标特征;根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据;及根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。优选地,为目标证件类别配置至少一个目标证件底图的步骤,包括:为预先设置的多个证件类别分别配置对应的至少一个证件底图,所述多个证件类别包括所述目标证件类别;其中,每个证件类别对应的证件为具有若干个统一版面格式的标准件。优选地,获取所述目标证件类别关联的多个目标特征的步骤,包括:通过图像采集装置采集目标证件类别的证件图片;为所述证件图片的每个像素点生成坐标信息,其中,所述证件图片中的每个像素点的坐标信息与目标证件底图中相应像素点的坐标信息具有一一对应关系;识别所述证件图片上的一组或多组文字信息,并记录每组文字信息的文字特征,所述文字特征包括在所述证件图片中的坐标信息、字体和字号;为每组文字信息定义一目标特征,得到多个目标特征;在每个目标特征、文字特征和目标特征字段之间建立映射关系,所述映射关系用于指示在目标证件底图中的相应坐标处填充相应目标特征字段的相应数据。优选地,还包括:接收用户输入的针对所述目标证件底图的坐标指示信息;及根据所述坐标指示信息,通过预先配置的水印加载类确定各个目标特征在所述目标证件底图上的被加载位置。优选地,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:根据各个目标特征在所述目标证件底图上的被加载位置,通过所述水印加载类将所述各个目标特征数据集中的多个目标特征数据加载到所述目标证件底图上的相应位置处,以生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。优选地,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:将每个目标特征数据集中的每个目标特征数据进行数据封装操作,以得到所述每个目标特征数据集对应的目标特征封装数据集,所述目标特征封装数据集中包括被封装后的多个目标特征数据;及根据所述目标证件底图和所述多个目标特征封装数据集生成所述多个测试样本。优选地,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:根据所述目标证件底图和所述多个目标特征数据集生成所述多个初级测试样本图片;及从所述多个蒙层图片中选择所述至少一个目标蒙层图片;将所述至少一个目标蒙层图片以不同透明度分别加载到所述多个初级样本图片中的至少一个初级样本图片上,以得到所述多个测试样本,其中,每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的具有相应透明度的目标蒙层图片,其中,每个测试样本包括相应的初级样本图片以及被加载在该初级样本图片上的目标蒙层图片;其中,所述多个蒙层图片根据多个预设蒙层场景确定,每个预设蒙层场景对应有所述多个蒙层图片中的至少一个蒙层图片。为实现上述目的,本专利技术实施例还提供了测试样本生成系统,包括:配置模块,用于为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片;第一获取模块,用于获取所述目标证件类别关联的多个目标特征;第二获取模块,用于根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据;及生成模块,用于根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。为实现上述目的,本专利技术实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的测试样本生成方法的步骤。为实现上述目的,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的测试样本生成方法的步骤。本专利技术实施例提供的测试样本生成方法、系统、计算机设备及计算机可读存储介质,根据目标证件底图以及数据库中的数据随机组合而成的多个目标特征数据集,可以自动生成海量的测试样本,即可以通过少量数据,自动生成大批量多个场景的符合格式要求的证件图片,无需耗费人力物力通过各个渠道获取测试样本。由于是计算机设备自动生成的非真实证件,因此也不会涉及到隐私问题。附图说明图1为本专利技术测试样本生成方法实施例一的流程图。图2为图1中步骤S100的流程图。图3为图1中步骤S102的流程图。图4为图1中步骤S106的流程图。图5为本专利技术测试样本生本文档来自技高网...

【技术保护点】
1.一种测试样本生成方法,其特征在于,所述方法包括:/n为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片;/n获取所述目标证件类别关联的多个目标特征;/n根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据;及/n根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。/n

【技术特征摘要】
1.一种测试样本生成方法,其特征在于,所述方法包括:
为目标证件类别配置至少一个目标证件底图,所述目标证件底图为未携带特征数据的证件图片;
获取所述目标证件类别关联的多个目标特征;
根据所述多个目标特征从数据库中获取多个目标特征数据集,每个目标特征数据集中包括所述多个目标特征对应的多个目标特征数据;及
根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标特征数据。


2.根据权利要求1所述的测试样本生成方法,其特征在于,为目标证件类别配置至少一个目标证件底图的步骤,包括:
为预先设置的多个证件类别分别配置对应的至少一个证件底图,所述多个证件类别包括所述目标证件类别;
其中,每个证件类别对应的证件为具有若干个统一版面格式的标准件。


3.根据权利要求1所述的测试样本生成方法,其特征在于,获取所述目标证件类别关联的多个目标特征的步骤,包括:
通过图像采集装置采集目标证件类别的证件图片;
为所述证件图片的每个像素点生成坐标信息,其中,所述证件图片中的每个像素点的坐标信息与目标证件底图中相应像素点的坐标信息具有一一对应关系;
识别所述证件图片上的一组或多组文字信息,并记录每组文字信息的文字特征,所述文字特征包括在所述证件图片中的坐标信息、字体和字号;
为每组文字信息定义一目标特征,得到多个目标特征;
在每个目标特征、文字特征和目标特征字段之间建立映射关系,所述映射关系用于指示在目标证件底图中的相应坐标处填充相应目标特征字段的相应数据。


4.根据权利要求1所述的测试样本生成方法,其特征在于,还包括:
接收用户输入的针对所述目标证件底图的坐标指示信息;及
根据所述坐标指示信息,通过预先配置的水印加载类确定各个目标特征在所述目标证件底图上的被加载位置。


5.根据权利要求4所述的测试样本生成方法,其特征在于,根据所述目标证件底图和所述多个目标特征数据集生成多个测试样本的步骤,包括:
根据各个目标特征在所述目标证件底图上的被加载位置,通过所述水印加载类将所述各个目标特征数据集中的多个目标特征数据加载到所述目标证件底图上的相应位置处,以生成多个测试样本,其中,每个测试样本包括所述目标证件底图和被加载在所述目标证件底图上的所述多个目标特征数据集中的其中一个目标特征数据集对应的多个目标...

【专利技术属性】
技术研发人员:何玉聪
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1