文字检测方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:25691270 阅读:17 留言:0更新日期:2020-09-18 21:02
本申请公开了一种文字检测方法、装置、电子设备和计算机可读存储介质,所述方法包括:对待检测图像进行单字检测,得到单字视觉特征和单字位置信息,根据所述单字视觉特征和所述单字位置信息,确定单字连接关系,根据所述单字连接关系确定序列化的文字检测结果。本申请通过借助卷积神经网络的强大特征表征能力,能够自动学习到单字之间的连接关系,避免了复杂的规则设计,提高了文字检测模型的泛化能力,同时将单字检测和单字连接关系的预测统一到一个框架,复用单字检测过程中生成的视觉特征等信息,避免了低效的人工特征选择方式。

【技术实现步骤摘要】
文字检测方法、装置、电子设备和计算机可读存储介质
本申请涉及文字检测
,具体涉及一种文字检测方法、装置、电子设备和计算机可读存储介质。
技术介绍
光学字符识别(OpticalCharacterRecognition,简称OCR)指的是通过视觉技术,对图像中的文字进行检测、提取和识别的一系列技术,是计算机视觉领域的一个重要研究方向。一套完整的OCR识别方案不仅应该能够有效识别图片中的文字,还应当有能力将字符识别的结果进行结构化输出。现有的OCR识别方案主要包括两种:(1)串识别:以文字行为检测和识别对象,是目前的主流技术方案;(2)单字识别:以单字为检测和识别对象,目前较少使用。专利技术人发现,现有的两种识别方案无法很好的处理非限定场景下的图片,例如,基于文字行的识别方案难以处理文字行之间存在交叠的情况,而基于单字的识别方案难以做到结构化输出。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的文字检测方法、装置、电子设备和计算机可读存储介质。依据本申请的第一方面,提供了一种文字检测方法,包括:对待检测图像进行单字检测,得到单字视觉特征和单字位置信息;根据所述单字视觉特征和所述单字位置信息,确定单字连接关系;根据所述单字连接关系确定序列化的文字检测结果。可选地,所述根据所述单字视觉特征和所述单字位置信息,确定单字连接关系包括:利用文字检测模型的卷积层对所述单字位置信息进行卷积处理,得到单字空间特征;根据所述单字空间特征和所述单字视觉特征,确定所述单字连接关系。可选地,所述根据所述单字视觉特征和所述单字位置信息,确定单字连接关系包括:利用所述文字检测模型的融合层对所述单字空间特征和所述单字视觉特征进行融合;利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系。可选地,所述利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系包括:利用所述文字检测模型的全连接层确定各单字节点之间的二元连接关系,得到多个二元连接关系对;确定多个所述二元连接关系对之间的相同单字节点;根据所述相同单字节点生成各所述单字节点之间的三元连接关系对,根据所述三元连接关系对得到所述单字连接关系。可选地,所述根据所述单字连接关系确定序列化的文字检测结果包括:对各所述二元连接关系对进行遍历;根据遍历结果输出序列化的所述文字检测结果。可选地,所述文字检测模型通过如下方法训练得到:获取原始图像并将所述原始图像输入所述文字检测模型的卷积层,得到所述原始图像的单字空间特征和单字视觉特征;将所述单字空间特征和单字视觉特征融合后输入所述文字检测模型的全连接层进行分类,得到所述单字连接关系和对应的分类损失;根据所述分类损失对所述文字检测模型的参数进行优化。可选地,所述方法还包括:对所述序列化的文字检测结果进行文字识别,得到文字识别结果。依据本申请的第二方面,提供了一种文字检测装置,所述装置包括:检测单元,用于对待检测图像进行单字检测,得到单字视觉特征和单字位置信息;第一确定单元,用于根据所述单字视觉特征和所述单字位置信息,确定单字连接关系;第二确定单元,用于根据所述单字连接关系确定序列化的文字检测结果。可选地,所述第一确定单元还用于:利用文字检测模型的卷积层对所述单字位置信息进行卷积处理,得到单字空间特征;根据所述单字空间特征和所述单字视觉特征,确定所述单字连接关系。可选地,所述第一确定单元还用于:利用所述文字检测模型的融合层对所述单字空间特征和所述单字视觉特征进行融合;利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系。可选地,所述第一确定单元还用于:利用所述文字检测模型的全连接层确定各单字节点之间的二元连接关系,得到多个二元连接关系对;确定多个所述二元连接关系对之间的相同单字节点;根据所述相同单字节点生成各所述单字节点之间的三元连接关系对,根据所述三元连接关系对得到所述单字连接关系。可选地,所述第二确定单元还用于:对各所述二元连接关系对进行遍历;根据遍历结果输出序列化的所述文字检测结果。可选地,所述文字检测模型通过如下方法训练得到:获取原始图像并将所述原始图像输入所述文字检测模型的卷积层,得到所述原始图像的单字空间特征和单字视觉特征;将所述单字空间特征和单字视觉特征融合后输入所述文字检测模型的全连接层进行分类,得到所述单字连接关系和对应的分类损失;根据所述分类损失对所述文字检测模型的参数进行优化。可选地,所述装置还包括:对所述序列化的文字检测结果进行文字识别,得到文字识别结果。依据本申请的第三方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的文字检测方法。依据本申请的第四方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的文字检测方法。由上述可知,本申请的技术方案,对待检测图像进行单字检测,得到单字视觉特征和单字位置信息,根据所述单字视觉特征和所述单字位置信息,确定单字连接关系,根据所述单字连接关系确定序列化的文字检测结果。通过本申请,借助卷积神经网络的强大特征表征能力,能够自动学习到单字之间的连接关系,避免了复杂的规则设计,提高了文字检测模型的泛化能力,同时将单字检测和单字连接关系的预测统一到一个框架,复用单字检测过程中生成的视觉特征等信息,避免了低效的人工特征选择方式。上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了现有技术中的两种文字识别方案的示例图;图2示出了现有技术中的一种改进的文字识别方案的示例图;图3示出了根据本申请一个实施例的文字识别方法的流程示意图;图4示出了根据本申请一个实施例的确定单字连接关系的流程示意图;图5示出了根据本申请另一个实施例的确定单字连接关系的流程示意图;图6示出了根据本申请一个实施例的文字识别效果比较图;图7示出了根据本申请一个实施例的文字识别装置的结构示意图;图8示出了根据本申请一个本文档来自技高网...

【技术保护点】
1.一种文字检测方法,其特征在于,包括:/n对待检测图像进行单字检测,得到单字视觉特征和单字位置信息;/n根据所述单字视觉特征和所述单字位置信息,确定单字连接关系;/n根据所述单字连接关系确定序列化的文字检测结果。/n

【技术特征摘要】
1.一种文字检测方法,其特征在于,包括:
对待检测图像进行单字检测,得到单字视觉特征和单字位置信息;
根据所述单字视觉特征和所述单字位置信息,确定单字连接关系;
根据所述单字连接关系确定序列化的文字检测结果。


2.根据权利要求1所述的文字检测方法,其特征在于,所述根据所述单字视觉特征和所述单字位置信息,确定单字连接关系包括:
利用文字检测模型的卷积层对所述单字位置信息进行卷积处理,得到单字空间特征;
根据所述单字空间特征和所述单字视觉特征,确定所述单字连接关系。


3.根据权利要求2所述的文字检测方法,其特征在于,所述根据所述单字视觉特征和所述单字位置信息,确定单字连接关系包括:
利用所述文字检测模型的融合层对所述单字空间特征和所述单字视觉特征进行融合;
利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系。


4.根据权利要求3所述的文字检测方法,其特征在于,所述利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系包括:
利用所述文字检测模型的全连接层确定各单字节点之间的二元连接关系,得到多个二元连接关系对;
确定多个所述二元连接关系对之间的相同单字节点;
根据所述相同单字节点生成各所述单字节点之间的三元连接关系对,根据所述三元连接关系对得到所述单字连接关系。


5.根据权利要求4所述的文字检测方法,其特征在于,所述根据所述单字连接关系确定序列化的文字检...

【专利技术属性】
技术研发人员:王雷刘曦张睿
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1