【技术实现步骤摘要】
文本识别方法、装置和听写批改方法、装置及电子设备
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种文本识别方法、装置和听写批改方法、装置及电子设备。
技术介绍
[0002]相关技术中,使用神经网络进行文本识别。对中文或英文分别识别,即训练识别英文的模型和识别中文的模型,通过识别英文的模型识别英文,通过识别中文的模型识别中文。并且,使用文本检测模型进行文本检测,使用文本识别模型进行文本识别。
技术实现思路
[0003]根据本公开的一方面,提供了一种文本识别方法,包括:
[0004]接收文本图像;
[0005]使用神经网络处理该文本图像,以生成文本识别结果,其中,该神经网络包括:
[0006]第一子网络,被配置成处理文本图像,以生成特征映射;
[0007]第二子网络,被配置成处理特征映射,以生成文本位置检测结果,文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息;
[0008]处理模块,被配置成根据文本位置检测结果处理特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射;
[0009]第三子网络,被配置成处理每个子特征映射,以生成中文字识别结果;
[0010]第四子网络,被配置成处理每个子特征映射,以生成英文单词识别结果。
[0011]根据本公开的另一方面,提供了一种听写批改方法,包括:
[0012]获取听写文本图像,其中,所述听写文本图像包括:中文字和英文单词;
[0013]使用神经网络处理
【技术保护点】
【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:接收文本图像;使用神经网络处理所述文本图像,以生成文本识别结果,其中,所述神经网络包括:第一子网络,被配置成处理所述文本图像,以生成特征映射;第二子网络,被配置成处理所述特征映射,以生成文本位置检测结果,所述文本位置检测结果为所述文本图像上每个中文字和/或英文单词的位置信息;处理模块,被配置成根据所述文本位置检测结果处理所述特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射;第三子网络,被配置成处理每个所述子特征映射,以生成中文字识别结果;第四子网络,被配置成处理每个所述子特征映射,以生成英文单词识别结果。2.如权利要求1所述的文本识别方法,其特征在于,所述根据所述文本位置检测结果处理所述特征映射,以生成与检测到的每个中文字和/或英文单词对应的子特征映射,包括:根据所述文本图像上每个中文字和/或英文单词的位置信息,从所述第一子网络生成的所述特征映射剪裁与每个中文字和/或英文单词对应的子特征映射。3.如权利要求1所述的文本识别方法,其特征在于,所述第三子网络,包括:一个或多个卷积层、至少一个自注意力层和至少一个门控循环单元。4.如权利要求1所述的文本识别方法,其特征在于,所述第四子网络为分类神经网络,所述处理每个所述子特征映射,以生成英文单词识别结果,包括:根据每个子特征映射,生成每个英文单词对应的编号;根据每个英文单词对应的编号,得到所述英文单词识别结果,其中,每个英文单词对应于一个编号。5.如权利要求4所述的文本识别方法,其特征在于,所述第四子网络,包括:至少两个全连接层。6.如权利要求1至5中任一项所述的文本识别方法,其特征在于,所述神经网络的训练方法包括:获取第一训练数据,其中,所述第一训练数据包括:多个文本图像及其标注信息,其中,每个文本图像的标注信息包括:文本图像上每个中文字及其位置信息,和/或文本图像上每个英文单词的位置信息及英文单词内容,其中,英文单词内容包括英文单词和英文单词对应的编号中的至少一个,在所述英文单词内容为英文单词对应的编号时,每个英文单词对应于一个编号;使用所述第一训练数据训练所述神经网络。7.如权利要求6所述的文本识别方法,其特征在于,使用所述第一训练数据训练所述神经网络之前,还包括:获取第二训练数据,其中所述第二训练数据包括:多个文本图像及其标注信息,其中,每个文本图像的标注信息包括:文本图像上每个中文字的位置信息,和/或文本图像上每个英文单词的位置信息;使用所述第二训练数据训练所述第一子网络和所述第二子网络组成的神经网络,其中,所述第一子网络和所述第二子网络组成的神经网络被配置为处理文本图像以生成文本图像上每个中文字和/或英文单词的位置信息。
8.如权利要求6所述的文本识别方法,其特征在于,使用所述第一训练数据训练所述神经网络之前,还包括:获取第三训练数据,其中,所述第三训练数据包括:多个文本图像及其标注信息,其中,每个文本图像的标注信息包括:文本图像上每个中文字及其位置信息;使用所述第三训练数据训练包括所述第三子网络的神经网络,其中,所述包括所述第三...
【专利技术属性】
技术研发人员:秦勇,
申请(专利权)人:深圳市星桐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。