一种数据集的构建方法、模型训练方法和对应装置制造方法及图纸

技术编号:32364922 阅读:29 留言:0更新日期:2022-02-20 03:37
本申请实施例涉及数据处理领域,尤其公开了一种数据集的构建方法、模型训练方法、装置、电子设备及存储介质,该方法包括:获取待处理的票据图像;针对每个票据图像,对票据图像进行OCR识别,确定票据图像中的各个要素实体的要素信息和每个要素实体的位置信息;要素信息包括文字信息、表格信息和签章信息中的至少一个;针对每一个要素实体,根据要素信息和位置信息,确定要素实体的类别;基于每一个要素实体,应用要素实体的类别对应的标签对要素实体进行标注;确定各个待处理的票据图像中的各个标注后的要素实体构成的要素集合为数据集。用以提高收集的票据图像中的数据集的准确性,进而将该数据集应用到票据识别中,提高票据识别的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种数据集的构建方法、模型训练方法和对应装置


[0001]本申请涉及数据处理
,尤其涉及一种数据集的构建方法、模型训练方法、对应装置、电子设备及存储介质。

技术介绍

[0002]票据是一种重要的结构化信息的文本载体,随着社会形势的发展,票据的样式呈现线性增长,发展出形态各异的类型。在相关部门进行报销时,需要审核几种甚至十几种不同类型的票据,部分票据结构存在很大的相似性。
[0003]现有技术中,通常是收集大量的票据的语料,并进行相应的处理,来识别票据。因此,票据数据收集准确程度直接影响识别准确率。

技术实现思路

[0004]本申请实施例提供一种数据集的构建方法、模型训练方法、对应装置、电子设备及存储介质,用以提高收集的票据图像中的数据集的准确性,进而将该数据集应用到票据识别中,提高票据识别的准确性。
[0005]第一方面,本申请一实施例提供了一种数据集的构建方法,包括:
[0006]获取待处理的票据图像;
[0007]针对每个所述票据图像,对所述票据图像进行OCR识别,确定所述票据图像中的各个要素实体的要素信息和每个所述要素实体的位置信息;其中,所述要素信息包括文字信息、表格信息和签章信息中的至少一个;
[0008]针对每一个要素实体,根据所述要素信息和所述位置信息,确定所述要素实体的类别;
[0009]基于每一个要素实体,应用所述要素实体的类别对应的标签对所述要素实体进行标注;
[0010]确定各个所述待处理的票据图像中的各个标注后的要素实体构成的要素集合为数据集。
[0011]在一些示例性的实施方式中,所述根据所述要素信息和所述位置信息,确定所述要素实体的类别,包括:
[0012]若所述要素信息中不包括预设关键词信息,则根据所述要素信息的位置信息,确定所述要素实体的临近要素实体,并根据所述临近要素实体确定所述要素实体的类别;其中,所述临近要素实体和所述要素实体在所述票据图像上的距离小于预设距离阈值。
[0013]在一些示例性的实施方式中,所述基于每个要素实体的类别,应用所述类别对应的标签所述要素实体进行标注,包括:
[0014]若所述要素实体的类别为简单类别,则将所述要素实体标注为所述要素实体的标签;其中,所述简单类别的要素实体所在的区域内的要素实体的数量为一个;
[0015]若所述要素实体的类别为复合类别,则将所述要素实体标注为复合标签;其中,所
述复合标签中包括所述复合要素中的各个要素实体的标签和对应的要素值;所述复合类别的要素实体所在的区域内的要素实体的数量为至少两个。
[0016]在一些示例性的实施方式中,所述基于每个要素实体的类别,应用所述类别对应的标签所述要素实体进行标注之前,还包括:
[0017]根据预设展示形式展示各个要素实体。
[0018]在一些示例性的实施方式中,若所述预设展示形式为html形式,则所述根据预设展示形式展示各个要素实体包括:
[0019]确定要素文本框,并按照html形式展示所述要素文本框;其中,所述要素文本框中包括需要展示的要素的属性信息;
[0020]若所述预设展示形式为json形式,则所述根据预设展示形式展示各个要素实体包括:
[0021]按照确定的要素键值对的对应关系展示所述要素键值对;其中,所述键值对中的key为需要展示的要素的序列号,所述键值对中的value值为需要展示的要素的嵌套json串。
[0022]在一些示例性的实施方式中,在确定要素文本框,并按照html形式展示所述要素文本框之前,所述方法还包括:
[0023]若需要展示的要素为表格中的要素,则确定所述要素文本框的属性标签;
[0024]并将所述属性标签作为所述要素文本框的附属展示信息进行展示。
[0025]第二方面,本申请一实施例提供了一种票据识别模型的训练方法,包括:
[0026]获取训练数据集,其中,所述训练数据包括应用上述第一方面所述的方法得到的数据集;
[0027]使用所述数据集对预先构建的神经网络模型进行训练,直到所述神经网络模型收敛,得到票据识别模型。
[0028]第三方面,本申请一实施例提供了一种数据集的构建装置,包括:
[0029]图像获取模块,用于获取待处理的票据图像;
[0030]图像识别模块,用于针对每个所述票据图像,对所述票据图像进行OCR识别,确定所述票据图像中的各个要素实体的要素信息和每个所述要素实体的位置信息;其中,所述要素信息包括文字信息、表格信息和签章信息中的至少一个;
[0031]类别确定模块,用于针对每一个要素实体,根据所述要素信息和所述位置信息,确定所述要素实体的类别;
[0032]标注模块,用于基于每一个要素实体,应用所述要素实体的类别对应的标签对所述要素实体进行标注;
[0033]数据集确定模块,用于确定各个所述待处理的票据图像中的各个标注后的要素实体构成的要素集合为数据集。
[0034]在一些示例性的实施方式中,所述类别确定模块具体用于:
[0035]若所述要素信息中不包括预设关键词信息,则根据所述要素信息的位置信息,确定所述要素实体的临近要素实体,并根据所述临近要素实体确定所述要素实体的类别;其中,所述临近要素实体和所述要素实体在所述票据图像上的距离小于预设距离阈值。
[0036]在一些示例性的实施方式中,所述标注模块具体用于:
[0037]若所述要素实体的类别为简单类别,则将所述要素实体标注为所述要素实体的标签;其中,所述简单类别的要素实体所在的区域内的要素实体的数量为一个;
[0038]若所述要素实体的类别为复合类别,则将所述要素实体标注为复合标签;其中,所述复合标签中包括所述复合要素中的各个要素实体的标签和对应的要素值;所述复合类别的要素实体所在的区域内的要素实体的数量为至少两个。
[0039]在一些示例性的实施方式中,还包括展示模块,所述展示模块用于在所述基于每个要素实体的类别,应用所述类别对应的标签所述要素实体进行标注之前:
[0040]根据预设展示形式展示各个要素实体。
[0041]在一些示例性的实施方式中,若所述预设展示形式为html形式,则所述展示模块具体用于:
[0042]确定要素文本框,并按照html形式展示所述要素文本框;其中,所述要素文本框中包括需要展示的要素的属性信息;
[0043]若所述预设展示形式为json形式,则所述展示模块具体用于:
[0044]按照确定的要素键值对的对应关系展示所述要素键值对;其中,所述键值对中的key为需要展示的要素的序列号,所述键值对中的value值为需要展示的要素的嵌套json串。
[0045]在一些示例性的实施方式中,所述展示模块还有股,在确定要素文本框,并按照html形式展示所述要素文本框之前:
[0046]若需要展示的要素为表格中的要素,则确定所述要素文本框的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集的构建方法,其特征在于,包括:获取待处理的票据图像;针对每个所述票据图像,对所述票据图像进行OCR识别,确定所述票据图像中的各个要素实体的要素信息和每个所述要素实体的位置信息;其中,所述要素信息包括文字信息、表格信息和签章信息中的至少一个;针对每一个要素实体,根据所述要素信息和所述位置信息,确定所述要素实体的类别;基于每一个要素实体,应用所述要素实体的类别对应的标签对所述要素实体进行标注;确定各个所述待处理的票据图像中的各个标注后的要素实体构成的要素集合为数据集。2.根据权利要求1所述的方法,其特征在于,所述根据所述要素信息和所述位置信息,确定所述要素实体的类别,包括:若所述要素信息中不包括预设关键词信息,则根据所述要素信息的位置信息,确定所述要素实体的临近要素实体,并根据所述临近要素实体确定所述要素实体的类别;其中,所述临近要素实体和所述要素实体在所述票据图像上的距离小于预设距离阈值。3.根据权利要求1所述的方法,其特征在于,所述基于每个要素实体的类别,应用所述类别对应的标签所述要素实体进行标注,包括:若所述要素实体的类别为简单类别,则将所述要素实体标注为所述要素实体的标签;其中,所述简单类别的要素实体所在的区域内的要素实体的数量为一个;若所述要素实体的类别为复合类别,则将所述要素实体标注为复合标签;其中,所述复合标签中包括所述复合要素中的各个要素实体的标签和对应的要素值;所述复合类别的要素实体所在的区域内的要素实体的数量为至少两个。4.根据权利要求1所述的方法,其特征在于,所述基于每个要素实体的类别,应用所述类别对应的标签所述要素实体进行标注之前,还包括:根据预设展示形式展示各个要素实体。5.根据权利要求4所述的方法,其特征在于,若所述预设展示形式为html形式,则所述根据预设展示形式展示各个要素实体包括:确定要素文本框,并按照html形式展示所述要素文本框;其中,所述要素文本框中包括需要展示的要素的属性信息;若所述预设展示形式为json形式,则所述根据预设展示形式展示各个要素实体包括:按照确定的要素键值对的对应关系展示所述要素键值对;其中,所述键值对中的key为需要展示的要素的序列号,所述键值对中的value值为需要展示的要素的嵌套json串。6.根据权利要求5所述的方法,其特征在于,在确定要素文本框,并按照html形式展示所述要素文本框之前,所述方法还包括:若需要展示的要素为表格中的要素,则确定所述要素文本框的属性标签;并将所述属性标签作为所述要素文本框的附属展示信息进行展示。7.一种票据识别模型的训练方法,其特征在于,包括:获取训练数据集,其中,所述训练数据包括应用权利要求1~6任一所述的方法得到的数据集;
使用所述数据集对预先构建的神经网络模型进行训练,直到所述神经网络模型收敛,得到票据识别模型。8.一种数据集的构建装置,其特征在于,包括:图像获取模块,用于获取待处理的票据图像;图像识别模块,用于针对每个所述票据图像,对所述票据图像进行OCR识别,确定所述票据图像中的各个要素实体的要素信息和每个所述要素实体的位置信息;其中,所述要素...

【专利技术属性】
技术研发人员:徐云
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1