文本识别方法、装置和听写批改方法、装置及电子设备制造方法及图纸

技术编号:35410095 阅读:19 留言:0更新日期:2022-11-03 11:06
本公开提供一种文本识别方法、装置和听写批改方法、装置及电子设备,其中,文本识别方法,包括:接收文本图像;使用神经网络处理该文本图像,以生成文本识别结果,其中,神经网络包括:第一子网络,被配置成处理文本图像,以生成特征映射;第二子网络,被配置成处理特征映射,以生成文本位置检测结果;处理模块,被配置成根据文本位置检测结果处理特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射;第三子网络,被配置成处理每个子特征映射,以生成中文字识别结果;第四子网络,被配置成处理每个子特征映射,以生成英文单词识别结果。采用本公开,可节省计算资源、提高识别效率和精度。率和精度。率和精度。

【技术实现步骤摘要】
文本识别方法、装置和听写批改方法、装置及电子设备


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种文本识别方法、装置和听写批改方法、装置及电子设备。

技术介绍

[0002]相关技术中,使用神经网络进行文本识别。对中文或英文分别识别,即训练识别英文的模型和识别中文的模型,通过识别英文的模型识别英文,通过识别中文的模型识别中文。并且,使用文本检测模型进行文本检测,使用文本识别模型进行文本识别。

技术实现思路

[0003]根据本公开的一方面,提供了一种文本识别方法,包括:
[0004]接收文本图像;
[0005]使用神经网络处理该文本图像,以生成文本识别结果,其中,该神经网络包括:
[0006]第一子网络,被配置成处理文本图像,以生成特征映射;
[0007]第二子网络,被配置成处理特征映射,以生成文本位置检测结果,文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息;
[0008]处理模块,被配置成根据文本位置检测结果处理特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射;
[0009]第三子网络,被配置成处理每个子特征映射,以生成中文字识别结果;
[0010]第四子网络,被配置成处理每个子特征映射,以生成英文单词识别结果。
[0011]根据本公开的另一方面,提供了一种听写批改方法,包括:
[0012]获取听写文本图像,其中,所述听写文本图像包括:中文字和英文单词;
[0013]使用神经网络处理听写文本图像,以生成文本识别结果,其中,神经网络包括:第一子网络,被配置成处理文本图像,以生成特征映射;第二子网络,被配置成处理特征映射,以生成文本位置检测结果,文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息;处理模块,被配置成根据文本位置检测结果处理特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射;第三子网络,被配置成处理每个子特征映射,以生成中文字识别结果;第四子网络,被配置成处理每个子特征映射,以生成英文单词识别结果;
[0014]根据中文字识别结果和英文单词识别结果对听写文本图像进行批改。
[0015]根据本公开的另一方面,提供了一种文本识别装置,包括:
[0016]接收模块,用于接收文本图像;
[0017]识别模块,用于使用神经网络处理文本图像,以生成文本识别结果,其中,神经网络包括:
[0018]第一子网络,被配置成处理文本图像,以生成特征映射;
[0019]第二子网络,被配置成处理特征映射,以生成文本位置检测结果,文本位置检测结
果为文本图像上每个中文字和/或英文单词的位置信息;
[0020]处理模块,被配置成根据文本位置检测结果处理特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射;
[0021]第三子网络,被配置成处理每个子特征映射,以生成中文字识别结果;
[0022]第四子网络,被配置成处理每个子特征映射,以生成英文单词识别结果。
[0023]根据本公开的另一方面,提供了一种听写批改装置,包括:
[0024]获取模块,用于获取听写文本图像,其中,听写文本图像包括:中文字和英文单词;
[0025]识别模块,用于使用神经网络处理所述听写文本图像,以生成文本识别结果,其中,神经网络包括:第一子网络,被配置成处理文本图像,以生成特征映射;第二子网络,被配置成处理特征映射,以生成文本位置检测结果,文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息;处理模块,被配置成根据文本位置检测结果处理特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射;第三子网络,被配置成处理每个子特征映射,以生成中文字识别结果;第四子网络,被配置成处理每个子特征映射,以生成英文单词识别结果;
[0026]批改模块,用于根据中文字识别结果和英文单词识别结果对听写文本图像进行批改。
[0027]根据本公开的又一方面,提供了一种电子设备,包括:
[0028]处理器;以及
[0029]存储程序的存储器,
[0030]其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行本公开的方法。
[0031]根据本公开的再一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开的方法。
[0032]本申请实施例中提供的一个或多个技术方案,可以实现中英文混合文本图像识别,并且检测与识别使用一个神经网络实现,可节省计算资源、提高识别效率,此外,使用一个神经网络可避免使用多个神经网络时神经网络之间的累计误差,可提高识别精度。并且,根据本文位置检测结果处理文本图像的特征映射,生成与检测到的每个中文字和/或英文单词对应的子特征映射,基于每个中文字和/或英文单词对应的子特征映射识别相应的中文字或英文单词,可实现对包含任意文本位置关系的文本图像的文本识别。
附图说明
[0033]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0034]图1示出了根据本公开示例性实施例的文本识别方法的流程图;
[0035]图2示出了根据本公开示例性实施例的另一文本识别方法的流程图;
[0036]图3示出了根据本公开示例性实施例的神经网络的示意性框图;
[0037]图4示出了根据本公开示例性实施例的另一神经网络的示意性框图;
[0038]图5示出了根据本公开示例性实施例的神经网络的训练方法的流程图;
[0039]图6示出了根据本公开示例性实施例的文本检测神经网络的示意性框图;
[0040]图7示出了根据本公开示例性实施例的文本识别神经网络的示意性框图;
[0041]图8示出了根据本公开示例性实施例的分类神经网络的示意性框图;
[0042]图9示出了根据本公开示例性实施例的听写批改方法的流程图;
[0043]图10示出了根据本公开示例性实施例的文本识别装置的示意性框图;
[0044]图11示出了根据本公开示例性实施例的听写批改装置的示意性框图;
[0045]图12示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0046]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0047]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:接收文本图像;使用神经网络处理所述文本图像,以生成文本识别结果,其中,所述神经网络包括:第一子网络,被配置成处理所述文本图像,以生成特征映射;第二子网络,被配置成处理所述特征映射,以生成文本位置检测结果,所述文本位置检测结果为所述文本图像上每个中文字和/或英文单词的位置信息;处理模块,被配置成根据所述文本位置检测结果处理所述特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射;第三子网络,被配置成处理每个所述子特征映射,以生成中文字识别结果;第四子网络,被配置成处理每个所述子特征映射,以生成英文单词识别结果。2.如权利要求1所述的文本识别方法,其特征在于,所述根据所述文本位置检测结果处理所述特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射,包括:根据所述文本图像上每个中文字和/或英文单词的位置信息,从所述第一子网络生成的所述特征映射剪裁与每个中文字和/或英文单词对应的子特征映射。3.如权利要求1所述的文本识别方法,其特征在于,所述第三子网络,包括:一个或多个卷积层、至少一个自注意力层和至少一个门控循环单元。4.如权利要求1所述的文本识别方法,其特征在于,所述第四子网络为分类神经网络,所述处理每个所述子特征映射,以生成英文单词识别结果,包括:根据每个子特征映射,生成每个英文单词对应的编号;根据每个英文单词对应的编号,得到所述英文单词识别结果,其中,每个英文单词对应于一个编号。5.如权利要求4所述的文本识别方法,其特征在于,所述第四子网络,包括:至少两个全连接层。6.如权利要求1至5中任一项所述的文本识别方法,其特征在于,所述神经网络的训练方法包括:获取第一训练数据,其中,所述第一训练数据包括:多个文本图像及其标注信息,其中,每个文本图像的标注信息包括:文本图像上每个中文字及其位置信息,和/或文本图像上每个英文单词的位置信息及英文单词内容,其中,英文单词内容包括英文单词和英文单词对应的编号中的至少一个,在所述英文单词内容为英文单词对应的编号时,每个英文单词对应于一个编号;使用所述第一训练数据训练所述神经网络。7.如权利要求6所述的文本识别方法,其特征在于,使用所述第一训练数据训练所述神经网络之前,还包括:获取第二训练数据,其中所述第二训练数据包括:多个文本图像及其标注信息,其中,每个文本图像的标注信息包括:文本图像上每个中文字的位置信息,和/或文本图像上每个英文单词的位置信息;使用所述第二训练数据训练所述第一子网络和所述第二子网络组成的神经网络,其中,所述第一子网络和所述第二子网络组成的神经网络被配置为处理文本图像以生成文本图像上每个中文字和/或英文单词的位置信息。
8.如权利要求6所述的文本识别方法,其特征在于,使用所述第一训练数据训练所述神经网络之前,还包括:获取第三训练数据,其中,所述第三训练数据包括:多个文本图像及其标注信息,其中,每个文本图像的标注信息包括:文本图像上每个中文字及其位置信息;使用所述第三训练数据训练包括所述第三子网络的神经网络,其中,所述包括所述第三...

【专利技术属性】
技术研发人员:秦勇
申请(专利权)人:深圳市星桐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1