对图像进行信息识别的方法、装置制造方法及图纸

技术编号:31982404 阅读:10 留言:0更新日期:2022-01-20 01:55
本申请公开了一种对图像进行信息识别的方法、装置,属于信息识别领域。所述方法包括:检测目标图像中包括的多个字符内容单元分别对应的图像区域,得到每个图像区域在所述目标图像中的位置信息,其中,所述目标图像为目标文档的图像;基于每个图像区域在所述目标图像中的位置信息,对每个图像区域对应的局部图像进行字符识别,得到每个图像区域对应的字符内容单元的字符;基于每个图像区域对应的字符内容单元的字符和每个图像区域在所述目标图像中的位置信息,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息。采用本申请,可以提高文档的录入效率。可以提高文档的录入效率。可以提高文档的录入效率。

【技术实现步骤摘要】
对图像进行信息识别的方法、装置


[0001]本申请涉及信息识别领域,特别涉及一种对图像进行信息识别方法、装置、设备、存储介质和计算机程序产品。

技术介绍

[0002]随着信息化时代的发展,在一些场景下,人们需要将文档中的文字信息录入计算机系统。相应的文档可以是营业执照、经营许可证等。例如,线上商家服务平台的工作人员需要将经营许可证的文字信息录入计算机系统。
[0003]目前,工作人员一般是采取手动输入的方式,将文档中的文字信息录入计算机系统。
[0004]由于工作人员手动输入的录入速度较慢,所以会导致文档的录入效率比较低。

技术实现思路

[0005]本申请提供了一种对图像进行信息识别的方法,能够解决现有技术中文档录入效率较低的问题。
[0006]第一方面,提供了一种对图像进行信息识别的方法,所述方法包括:检测目标图像中包括的多个字符内容单元分别对应的图像区域,得到每个图像区域在所述目标图像中的位置信息,其中,所述目标图像为目标文档的图像;基于每个图像区域在所述目标图像中的位置信息,对每个图像区域对应的局部图像进行字符识别,得到每个图像区域对应的字符内容单元的字符;基于每个图像区域对应的字符内容单元的字符和每个图像区域在所述目标图像中的位置信息,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息。
[0007]在一种可能的实现方式中,所述基于每个图像区域对应的字符内容单元的字符和每个图像区域在所述目标图像中的位置信息,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息,包括:基于所述目标图像和每个图像区域在所述目标图像中的位置信息,确定每个图像区域的第一特征信息;基于每个图像区域的第一特征信息和每个图像区域对应的字符内容单元的字符,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息。
[0008]在一种可能的实现方式中,所述基于所述目标图像和每个图像区域在所述目标图像中的位置信息,确定每个图像区域的第一特征信息,包括:基于第一特征提取模型提取所述目标图像的第二特征信息,并基于第二特征提取模型和每个图像区域在所述目标图像中的位置信息,提取每个图像区域对应的局部图像的第三特征信息;基于所述目标图像的第二特征信息和所述每个图像区域对应的局部图像的第三特征信息,确定每个图像区域的第一特征信息。
[0009]在一种可能的实现方式中,所述基于所述目标图像的第二特征信息和所述每个图像区域对应的局部图像的第三特征信息,确定每个图像区域的第一特征信息,包括:基于所
述目标图像的第二特征信息和第三特征提取模型,确定所述目标图像的第四特征信息;基于所述每个图像区域对应的局部图像的第三特征信息和第四特征提取模型,确定每个图像区域对应的局部图像的第五特征信息;对于每个图像区域,基于所述目标图像的第四特征信息、所述图像区域对应的局部图像的第五特征信息和第五特征提取模型,确定所述图像区域的第一特征信息。
[0010]在一种可能的实现方式中,所述基于每个图像区域的第一特征信息和每个图像区域对应的字符内容单元的字符,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息,包括:基于每个图像区域的第一特征信息和精分类模型,确定每个图像区域对应的字符内容单元的精分类类型,其中,所述精分类类型包括至少一个数据项名称类型和每个数据项名称类型对应的数据项信息类型;基于每个图像区域对应的字符内容单元的精分类类型和每个图像区域对应的字符内容单元的字符,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息。
[0011]在一种可能的实现方式中,所述方法还包括:获取样本图像、所述样本图像中包括的多个字符内容单元分别对应的样本图像区域在所述样本图像中的位置信息、以及每个样本图像区域对应的字符内容单元的基准精分类类型;基于所述样本图像和每个样本图像区域在所述样本图像中的位置信息,确定每个样本图像区域的第一样本特征信息;基于每个样本图像区域的第一样本特征信息和初始的精分类模型,确定每个样本图像区域对应的字符内容单元的预测精分类类型;基于每个样本图像区域对应的字符内容单元的预测精分类类型和基准精分类类型,确定第一损失值;基于所述第一损失值对所述初始的精分类模型进行训练调参。
[0012]在一种可能的实现方式中,所述基于所述样本图像和每个样本图像区域在所述样本图像中的位置信息,确定每个样本图像区域的第一样本特征信息,包括:基于初始的第一特征提取模型提取所述样本图像的第二样本特征信息,基于所述样本图像的第二样本特征信息和初始的第三特征提取模型,确定所述样本图像的第四样本特征信息;基于初始的第二特征提取模型和每个样本图像区域在所述样本图像中的位置信息,提取每个样本图像区域对应的局部图像的第三样本特征信息,基于所述每个样本图像区域对应的局部图像的第三样本特征信息和初始的第四特征提取模型,确定每个样本图像区域对应的局部图像的第五样本特征信息;对于每个样本图像区域,基于所述样本图像的第四样本特征信息、所述样本图像区域对应的局部图像的第五样本特征信息和初始的第五特征提取模型,确定所述样本图像区域的第一样本特征信息。
[0013]在一种可能的实现方式中,所述方法还包括:基于所述第一损失值,对所述初始的第一特征提取模型、所述初始的第二特征提取模型、所述初始的第三特征提取模型、所述初始的第四特征提取模型和所述初始的第五特征提取模型,进行训练调参。
[0014]在一种可能的实现方式中,获取每个样本图像区域对应的字符内容单元的基准粗分类类型;基于每个样本图像区域对应的局部图像的第五样本特征信息和初始的粗分类模型,确定每个样本图像区域对应的字符内容单元的预测粗分类类型,其中,所述基准粗分类类型和预测粗分类类型均包括第一类型和第二类型,所述第一类型用于指示对应的字符内容单元为数据项名称,第二类型用于指示对应的字符内容单元为数据项信息;基于每个样本图像区域对应的字符内容单元的预测粗分类类型和基准粗分类类型,确定第二损失值;
基于所述第二损失值,对所述初始的第一特征提取模型、所述初始的第二特征提取模型、所述初始的第三特征提取模型和所述初始的第四特征提取模型,进行训练调参。
[0015]在一种可能的实现方式中,所述方法还包括:获取所述样本图像中样本图像区域的基准配对关系信息;基于每个样本图像区域在所述样本图像中的位置信息,确定由两个样本图像区域组成的每种排列对应的第六样本特征信息;基于每个样本图像区域的第一样本特征信息、每种排列对应的第六样本特征信息和初始的配对模型,确定所述样本图像中样本图像区域的预测配对关系信息;所述样本图像中样本图像区域的预测配对关系信息和基准配对关系信息,确定第三损失值;基于所述第三损失值,对所述初始的第一特征提取模型、所述初始的第二特征提取模型、所述初始的第三特征提取模型、所述初始的第四特征提取模型和所述初始的配对模型,进行训练调参。
[0016]在一种可能的实现方式中,所述基于每个样本图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对图像进行信息识别的方法,其特征在于,所述方法包括:检测目标图像中包括的多个字符内容单元分别对应的图像区域,得到每个图像区域在所述目标图像中的位置信息,其中,所述目标图像为目标文档的图像;基于每个图像区域在所述目标图像中的位置信息,对每个图像区域对应的局部图像进行字符识别,得到每个图像区域对应的字符内容单元的字符;基于每个图像区域对应的字符内容单元的字符和每个图像区域在所述目标图像中的位置信息,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息。2.根据权利要求1所述的方法,其特征在于,所述基于每个图像区域对应的字符内容单元的字符和每个图像区域在所述目标图像中的位置信息,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息,包括:基于所述目标图像和每个图像区域在所述目标图像中的位置信息,确定每个图像区域的第一特征信息;基于每个图像区域的第一特征信息和每个图像区域对应的字符内容单元的字符,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标图像和每个图像区域在所述目标图像中的位置信息,确定每个图像区域的第一特征信息,包括:基于第一特征提取模型提取所述目标图像的第二特征信息,并基于第二特征提取模型和每个图像区域在所述目标图像中的位置信息,提取每个图像区域对应的局部图像的第三特征信息;基于所述目标图像的第二特征信息和所述每个图像区域对应的局部图像的第三特征信息,确定每个图像区域的第一特征信息。4.根据权利要求3所述的方法,其特征在于,所述基于所述目标图像的第二特征信息和所述每个图像区域对应的局部图像的第三特征信息,确定每个图像区域的第一特征信息,包括:基于所述目标图像的第二特征信息和第三特征提取模型,确定所述目标图像的第四特征信息;基于所述每个图像区域对应的局部图像的第三特征信息和第四特征提取模型,确定每个图像区域对应的局部图像的第五特征信息;对于每个图像区域,基于所述目标图像的第四特征信息、所述图像区域对应的局部图像的第五特征信息和第五特征提取模型,确定所述图像区域的第一特征信息。5.根据权利要求2

4任一所述的方法,其特征在于,所述基于每个图像区域的第一特征信息和每个图像区域对应的字符内容单元的字符,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据项信息,包括:基于每个图像区域的第一特征信息和精分类模型,确定每个图像区域对应的字符内容单元的精分类类型,其中,所述精分类类型包括至少一个数据项名称类型和每个数据项名称类型对应的数据项信息类型;基于每个图像区域对应的字符内容单元的精分类类型和每个图像区域对应的字符内容单元的字符,确定所述目标文档中的至少一个数据项名称和每个数据项名称对应的数据
项信息。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取样本图像、所述样本图像中包括的多个字符内容单元分别对应的样本图像区域在所述样本图像中的位置信息、以及每个样本图像区域对应的字符内容单元的基准精分类类型;基于所述样本图像和每个样本图像区域在所述样本图像中的位置信息,确定每个样本图像区域的第一样本特征信息;基于每个样本图像区域的第一样本特征信息和初始的精分类模型,确定每个样本图像区域对应的字符内容单元的预测精分类类型;基于每个样本图像区域对应的字符内容单元的预测精分类类型和基准精分类类型,确定第一损失值;基于所述第一损失值对所述初始的精分类模型进行训练调参。7.根据权利要求6所述的方法,其特征在于,所述基于所述样本图像和每个样本图像区域在所述样本图像中的位置信息,确定每个样本图像区域的第一样本特征信息,包括:基于初始的第一特征提取模型提取所述样本图像的第二样本特征信息,基于所述样本图像的第二样本特征信息和初始的第三特征提取模型,确定所述样本图像的第四样本特征信息;基于初始的第二特征提取模型和每个样本图像区域在所述样本图像中的位置信息,提取每个样本图像区域对应的局部图像的第三样本特征信息,基于所述每个样本图像区域对应的局部图像的第三样本特征信息和初始的第四特征提取模型,确定每个样本图像区域对应的局部图像的第五样本特征信息;对于每个样本图像区域,基于所述样本图像的第四样本特征信息、所述样本图像区域对应的局部图像的第五样本特征信息和初始的第五特征提取模型,确定所述样本图像区域的第一样本特征信息。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:基于所述第一损失值,对所述初始的第一特征提取模型、所述初始的第二特征提取模型、所述初始的第三特征提取模型、所述初始的第四特征提取模型和所述初始的第五特征提取模型,进行训练调参。9.根据权利要求7所述的方法,其特征在于,所述方法还包括:获取每个样本图像区域对应的字符内容单元的基准粗...

【专利技术属性】
技术研发人员:马力臣刘曦王雷张睿
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1