文本内容识别方法、装置、电子设备以及存储介质制造方法及图纸

技术编号：38893476 阅读：26 留言：0更新日期：2023-09-22 14:16

本申请实施例提供一种文本内容识别方法、装置、电子设备及存储介质，在通过检测采集的视频帧图像中的指尖获得指尖位置后，确认指尖位置的稳定状态，以指尖位置为基准确定文字识别候选区域，同时再次确认指尖位置的稳定状态，在保证文字识别候选区域截取效率的同时，可以在更小的时间周期内响应用户行为的变化并做出反馈，获得更加准确的文字识别候选区域，对文字识别候选区域进行文本检测，获得文本区域以及文本类型，针对不同文本类型采用相应的文本识别模型来进行文本识别，降低了文本识别的耗时，提高文本识别的效率以及准确度。提高文本识别的效率以及准确度。提高文本识别的效率以及准确度。

全部详细技术资料下载

【技术实现步骤摘要】
文本内容识别方法、装置、电子设备以及存储介质

[0001]本申请涉及计算机
，特别涉及一种文本内容识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着计算机视觉技术的发展，利用图像处理技术，对目标对象进行识别的应用场景越来越多。在一些应用场景中，可以通过图像处理技术对指示对象(如手指、词典笔等)所指示的目标对象进行识别。例如，在指尖查词的场景中，用户可以用手指在读物上指出待识别的字词，利用图像处理技术，可以对用户手指所指示的字词进行识别，从而辅助用户进行阅读或生词学习等。然而，传统方式中，对目标对象的识别的准确性不高，而且整体耗时较长，识别效率较低。

技术实现思路

[0003]基于此，本申请提供一种文本内容识别方法、装置、电子设备及存储介质，可以在更小的时间周期内响应用户行为的变化并做出反馈，提高了文本内容识别方法的精准性以及效率。
[0004]作为本申请实施例的第一方面，提供一种文本内容识别方法，包括以下步骤：
[0005]获取当前采集的视频帧图像，在所述视频帧图像中确定指尖位置；
[0006]若所述指尖位置在预设的第一检测时间段内为稳定状态，根据所述指尖位置，确定所述视频帧图像的文字识别候选区域，对所述文字识别候选区域进行文本检测；
[0007]若在所述第一检测时间段之后的第二检测时间段内，所述指尖位置仍然为稳定状态，获得文本检测结果，其中，所述文本检测结果包括文本区域以及所述文本区域对应的文本类型；
[0008]按照所述文本类型对应的文本...

【技术保护点】

【技术特征摘要】
1.一种文本内容识别方法，其特征在于，包括如下步骤：获取当前采集的视频帧图像，在所述视频帧图像中确定指尖位置；若所述指尖位置在预设的第一检测时间段内为稳定状态，根据所述指尖位置，确定所述视频帧图像的文字识别候选区域，对所述文字识别候选区域进行文本检测；若在所述第一检测时间段之后的第二检测时间段内，所述指尖位置仍然为稳定状态，获得文本检测结果，其中，所述文本检测结果包括文本区域以及所述文本区域对应的文本类型；按照所述文本类型对应的文本识别方法，对所述文本区域进行识别，获得文本识别结果。2.根据权利要求1所述的文本内容识别方法，其特征在于，所述获得文本检测结果，包括步骤：将所述文字识别候选区域输入至预设的文本检测模型，对所述文字识别候选区域进行文本检测，获得所述文字识别候选区域中的初始文本区域以及初始文本区域对应的文本类型，其中，所述初始文本区域包括若干个字符；采用寻求最小外接多边形的方式，对所述初始文本区域的各个所述字符进行扩展，获得所述初始文本区域中各个所述字符的扩展区域，作为所述文本区域。3.根据权利要求1所述的文本内容识别方法，其特征在于，还包括训练所述文本检测模型的步骤，该步骤包括：获得若干个训练样本图像以及训练样本图像对应的标签数据，其中，所述标签数据包括各个所述训练样本图像的初始目标文本区域以及初始目标文本区域对应的文本类型；将若干个所述训练样本图像输入至所述文本检测模型，获得各个所述训练样本图像的初始样本文本区域，以及初始样本文本区域对应的文本类型；根据各个所述训练样本图像对应的初始样本文本区域以及初始目标文本区域，计算文本区域损失，根据各个所述训练样本图像的初始样本文本区域对应的文本类型以及初始目标文本区域对应的文本类型，计算文本类型损失，结合所述文本区域损失以及文本类型损失，对所述文本检测模型进行训练，获得目标文本检测模型。4.根据权利要求1所述的文本内容识别方法，其特征在于，所述按照所述文本类型对应的文本识别方法，对所述文本区域进行识别，获得文本识别结果，包括步骤：根据所述文本类型以及预设的文本类型与文本识别模型的对应关系，获得所述文本类型对应的文本识别模型；根据所述文本区域以及文本类型对应的文本识别模型，对所述文本区域进行识别，获得文本识别结果。5.根据权利要求1所述的文本内容识别方法，其特征在于，还包括步骤：若所述指尖位置在所述第一检测时间段之后的第二检测时间段内不为稳定状态，丢弃所述文本检测结果，返回获取当前采集的视频帧图像，在所述视频帧图像中确定指尖位置的步骤。6.根据权利要求1所述的文本内容识别方法，其特征在于，还包括步骤：若所述指尖位置在预设的第一检测时间段内不为稳定状态，返回获取当前采集的视频帧图像，在所述视频帧图像中确定指尖位置的步骤。
7.根据权利要求1至6中任一项权利要求所述的文本内容识别方法，其特征在于，还包括判断所述指尖位置在预设的第一检测时间段内为稳定状态的步骤，该步骤包括：获取所述视频帧图像的下一帧的第一相邻视频帧图像，以及所述第...

【专利技术属性】
技术研发人员：潘潇，林建民，
申请(专利权)人：广州视琨电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人