文本内容识别方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:38893476 阅读:11 留言:0更新日期:2023-09-22 14:16
本申请实施例提供一种文本内容识别方法、装置、电子设备及存储介质,在通过检测采集的视频帧图像中的指尖获得指尖位置后,确认指尖位置的稳定状态,以指尖位置为基准确定文字识别候选区域,同时再次确认指尖位置的稳定状态,在保证文字识别候选区域截取效率的同时,可以在更小的时间周期内响应用户行为的变化并做出反馈,获得更加准确的文字识别候选区域,对文字识别候选区域进行文本检测,获得文本区域以及文本类型,针对不同文本类型采用相应的文本识别模型来进行文本识别,降低了文本识别的耗时,提高文本识别的效率以及准确度。提高文本识别的效率以及准确度。提高文本识别的效率以及准确度。

【技术实现步骤摘要】
文本内容识别方法、装置、电子设备以及存储介质


[0001]本申请涉及计算机
,特别涉及一种文本内容识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着计算机视觉技术的发展,利用图像处理技术,对目标对象进行识别的应用场景越来越多。在一些应用场景中,可以通过图像处理技术对指示对象(如手指、词典笔等)所指示的目标对象进行识别。例如,在指尖查词的场景中,用户可以用手指在读物上指出待识别的字词,利用图像处理技术,可以对用户手指所指示的字词进行识别,从而辅助用户进行阅读或生词学习等。然而,传统方式中,对目标对象的识别的准确性不高,而且整体耗时较长,识别效率较低。

技术实现思路

[0003]基于此,本申请提供一种文本内容识别方法、装置、电子设备及存储介质,可以在更小的时间周期内响应用户行为的变化并做出反馈,提高了文本内容识别方法的精准性以及效率。
[0004]作为本申请实施例的第一方面,提供一种文本内容识别方法,包括以下步骤:
[0005]获取当前采集的视频帧图像,在所述视频帧图像中确定指尖位置;
[0006]若所述指尖位置在预设的第一检测时间段内为稳定状态,根据所述指尖位置,确定所述视频帧图像的文字识别候选区域,对所述文字识别候选区域进行文本检测;
[0007]若在所述第一检测时间段之后的第二检测时间段内,所述指尖位置仍然为稳定状态,获得文本检测结果,其中,所述文本检测结果包括文本区域以及所述文本区域对应的文本类型;
[0008]按照所述文本类型对应的文本识别方法,对所述文本区域进行识别,获得所述文本区域的文本识别结果。
[0009]作为本申请实施例的第二方面,提供了一种文本内容识别装置,包括:
[0010]指尖定位模块,用于获取当前采集的视频帧图像,在所述视频帧图像中确定指尖位置;
[0011]文本识别候选区域获取模块,用于若所述指尖位置在预设的第一检测时间段内为稳定状态,根据所述指尖位置,确定所述视频帧图像的文字识别候选区域,对所述文字识别候选区域进行文本检测;
[0012]文本检测模块,用于若在所述第一检测时间段之后的第二检测时间段内,所述指尖位置仍然为稳定状态,获得文本检测结果,其中,所述文本检测结果包括文本区域以及所述文本区域对应的文本类型;
[0013]文本识别模块,用于按照所述文本类型对应的文本识别方法,对所述文本区域进行识别,获得所述文本区域的文本识别结果。
[0014]作为本申请实施例的第三方面,提供了一种电子设备,包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如第一方面所述的文本内容识别方法的步骤。
[0015]作为本申请实施例的第四方面,提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本内容识别方法的步骤。
[0016]本申请实施例获取当前采集的视频帧图像,在所述视频帧图像中确定指尖位置;若所述指尖位置在预设的第一检测时间段内为稳定状态,在根据所述指尖位置,确定所述视频帧图像的文字识别候选区域,对所述文字识别候选区域进行文本检测时,同时在第二检测时间段内对指尖位置进行再次稳定性判断,可以在更小的时间周期内响应用户行为的变化并做出反馈,获得更加准确的文字识别候选区域,从而获得更加准确的文本区域,而且对文字识别候选区域进行文本检测,获得文本区域以及文本类型,针对不同文本类型采用相应的文本识别模型来进行文本识别,降低了文本识别的耗时,提高文本识别的效率以及准确度。
[0017]为了更好地理解和实施,下面结合附图详细说明本申请。
附图说明
[0018]图1为本申请第一实施例提供的文本内容识别方法的应用环境;
[0019]图2为本申请第一实施例提供的文本内容识别方法的流程示意图;
[0020]图3为本申请第二实施例提供的文本内容识别方法中S2的流程示意图;
[0021]图4为本申请第三实施例提供的文本内容识别方法中S2的流程示意图;
[0022]图5为本申请第四实施例提供的文本内容识别方法中S2的流程示意图;
[0023]图6为本申请第五实施例提供的文本内容识别方法中S3的流程示意图;
[0024]图7为本申请第六实施例提供的文本内容识别方法中S3的流程示意图;
[0025]图8为本申请第一实施例提供的文本内容识别方法中S4的流程示意图;
[0026]图9为本申请第七实施例提供的文本内容识别方法的流程示意图;
[0027]图10为本申请第一实施例提供的文本内容识别方法中S4的流程示意图;
[0028]图11为本申请第八实施例提供的文本内容识别装置的结构示意图;
[0029]图12为本申请第九实施例提供的电子设备的结构示意图。
具体实施方式
[0030]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例做进一步地详细描述。其中,下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。
[0031]应当明确,以下描述的实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。基于本申请实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0032]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。
在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况;字符“/”一般表示前后关联对象是一种“或”的关系。
[0033]应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语,而且,这些术语仅用来区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。取决于语境,本申请所使用的词语“如果”/“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0034]本申请文本内容识别方法可以由文本内容识别方法设备执行(以下简称识别设备),该文本内容识别方法设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。文本内容识别方法设备所指向的硬件,本质上均是指计算机设备,例如,文本内容识别方法设备可以是电脑、手机、平板或智能交互平板等智能设备。
[0035]请参阅图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本内容识别方法,其特征在于,包括如下步骤:获取当前采集的视频帧图像,在所述视频帧图像中确定指尖位置;若所述指尖位置在预设的第一检测时间段内为稳定状态,根据所述指尖位置,确定所述视频帧图像的文字识别候选区域,对所述文字识别候选区域进行文本检测;若在所述第一检测时间段之后的第二检测时间段内,所述指尖位置仍然为稳定状态,获得文本检测结果,其中,所述文本检测结果包括文本区域以及所述文本区域对应的文本类型;按照所述文本类型对应的文本识别方法,对所述文本区域进行识别,获得文本识别结果。2.根据权利要求1所述的文本内容识别方法,其特征在于,所述获得文本检测结果,包括步骤:将所述文字识别候选区域输入至预设的文本检测模型,对所述文字识别候选区域进行文本检测,获得所述文字识别候选区域中的初始文本区域以及初始文本区域对应的文本类型,其中,所述初始文本区域包括若干个字符;采用寻求最小外接多边形的方式,对所述初始文本区域的各个所述字符进行扩展,获得所述初始文本区域中各个所述字符的扩展区域,作为所述文本区域。3.根据权利要求1所述的文本内容识别方法,其特征在于,还包括训练所述文本检测模型的步骤,该步骤包括:获得若干个训练样本图像以及训练样本图像对应的标签数据,其中,所述标签数据包括各个所述训练样本图像的初始目标文本区域以及初始目标文本区域对应的文本类型;将若干个所述训练样本图像输入至所述文本检测模型,获得各个所述训练样本图像的初始样本文本区域,以及初始样本文本区域对应的文本类型;根据各个所述训练样本图像对应的初始样本文本区域以及初始目标文本区域,计算文本区域损失,根据各个所述训练样本图像的初始样本文本区域对应的文本类型以及初始目标文本区域对应的文本类型,计算文本类型损失,结合所述文本区域损失以及文本类型损失,对所述文本检测模型进行训练,获得目标文本检测模型。4.根据权利要求1所述的文本内容识别方法,其特征在于,所述按照所述文本类型对应的文本识别方法,对所述文本区域进行识别,获得文本识别结果,包括步骤:根据所述文本类型以及预设的文本类型与文本识别模型的对应关系,获得所述文本类型对应的文本识别模型;根据所述文本区域以及文本类型对应的文本识别模型,对所述文本区域进行识别,获得文本识别结果。5.根据权利要求1所述的文本内容识别方法,其特征在于,还包括步骤:若所述指尖位置在所述第一检测时间段之后的第二检测时间段内不为稳定状态,丢弃所述文本检测结果,返回获取当前采集的视频帧图像,在所述视频帧图像中确定指尖位置的步骤。6.根据权利要求1所述的文本内容识别方法,其特征在于,还包括步骤:若所述指尖位置在预设的第一检测时间段内不为稳定状态,返回获取当前采集的视频帧图像,在所述视频帧图像中确定指尖位置的步骤。
7.根据权利要求1至6中任一项权利要求所述的文本内容识别方法,其特征在于,还包括判断所述指尖位置在预设的第一检测时间段内为稳定状态的步骤,该步骤包括:获取所述视频帧图像的下一帧的第一相邻视频帧图像,以及所述第...

【专利技术属性】
技术研发人员:潘潇林建民
申请(专利权)人:广州视琨电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1