文本检测方法、装置和电子设备制造方法及图纸

技术编号：29049957 阅读：10 留言：0更新日期：2021-06-26 06:11

本公开公开了文本检测方法、装置和电子设备，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习技术领域。具体实现方案为：根据待检测图片和训练好的文本检测模型生成多个预测文本框的角点坐标；采用非极大值抑制算法对所述多个预测文本框的角点坐标进行处理，得到过滤文本框的角点坐标；根据所述多个预测文本框的角点坐标和所述过滤文本框的角点坐标，从所述过滤文本框和所述多个预测文本框中筛选出多个候选文本框；根据所述多个候选文本框生成目标文本框。由此，能够提高网络感受野，进而增强文本检测效果，尤其增强长文本检测效果，适用于光学字符识别等文本检测应用场景。适用于光学字符识别等文本检测应用场景。适用于光学字符识别等文本检测应用场景。

全部详细技术资料下载

【技术实现步骤摘要】
文本检测方法、装置和电子设备

[0001]本公开涉及计算机
，尤其涉及一种文本检测方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]文本检测相较于普通的目标检测，主要区别在于文本检测中检测框需要覆盖整个文本的长度，且评判标准也和普通的目标检测不同，因此通用的目标检测方法可能不适用于文本检测。相关技术中的文本检测方法，网络感受野较小，难以覆盖整个长文本，影响文本检测效果。

技术实现思路

[0003]提供了一种文本检测方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据第一方面，提供了一种文本检测方法，包括：根据待检测图片和训练好的文本检测模型生成多个预测文本框的角点坐标；采用非极大值抑制算法对所述多个预测文本框的角点坐标进行处理，得到过滤文本框的角点坐标；根据所述多个预测文本框的角点坐标和所述过滤文本框的角点坐标，从所述过滤文本框和所述多个预测文本框中筛选出多个候选文本框；根据所述多个候选文本框生成目标文本框。
[0005]根据第二方面，提供了一种文本检测装置，包括：第一生成模块，用于根据待检测图片和训练好的文本检测模型生成多个预测文本框的角点坐标；处理模块，用于采用非极大值抑制算法对所述多个预测文本框的角点坐标进行处理，得到过滤文本框的角点坐标；筛选模块，用于根据所述多个预测文本框的角点坐标和所述过滤文本框的角点坐标，从所述过滤文本框和所述多个预测文本框中筛选出多个候选文本框；第二生成模块，用于根据所述多个候选文本框生成目标文本框。
[...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法，包括：根据待检测图片和训练好的文本检测模型生成多个预测文本框的角点坐标；采用非极大值抑制算法对所述多个预测文本框的角点坐标进行处理，得到过滤文本框的角点坐标；根据所述多个预测文本框的角点坐标和所述过滤文本框的角点坐标，从所述过滤文本框和所述多个预测文本框中筛选出多个候选文本框；根据所述多个候选文本框生成目标文本框。2.根据权利要求1所述的方法，其中，所述根据所述多个预测文本框的角点坐标和所述过滤文本框的角点坐标，从所述过滤文本框和所述多个预测文本框中筛选出多个候选文本框，包括：根据所述多个预测文本框的角点坐标和所述过滤文本框的角点坐标，计算所述预测文本框和所述过滤文本框的面积重叠度；将所述面积重叠度大于预设的重叠度阈值的所述预测文本框和所述过滤文本框，确定为所述候选文本框。3.根据权利要求1所述的方法，其中，所述根据所述多个候选文本框生成目标文本框，包括：根据所述多个候选文本框的角点坐标生成每个角点对应的坐标点集合；根据所述坐标点集合中多个坐标点的位置集中度，筛选出所述坐标点集合中的多个候选坐标点；根据所述坐标点集合中所述多个候选坐标点的坐标确定目标坐标点的坐标；根据每个角点对应的所述目标坐标点的坐标生成所述目标文本框。4.根据权利要求3所述的方法，其中，所述根据所述坐标点集合中所述多个候选坐标点的坐标确定目标坐标点的坐标，包括：将所述坐标点集合中所述多个候选坐标点的坐标中出现次数最多的候选坐标点的坐标，确定为所述目标坐标点的坐标；或者，计算所述坐标点集合中所述多个候选坐标点对应的第一中心点的坐标，并将所述第一中心点的坐标确定为所述目标坐标点的坐标。5.根据权利要求3所述的方法，其中，所述根据所述坐标点集合中各坐标点的位置集中度，筛选出所述坐标点集合中的候选坐标点，包括：计算所述坐标点集合对应的第二中心点的坐标；根据所述坐标点集合中多个坐标点的坐标和所述第二中心点的坐标，计算所述坐标点集合中每个坐标点与所述第二中心点之间的第一距离；将所述坐标点集合中所述第一距离小于对应角点的经验误差距离的所述坐标点，确定为所述候选坐标点。6.根据权利要求5所述的方法，其中，所述计算所述坐标点集合对应的第二中心点的坐标之前，还包括：根据所述坐标点集合中多个坐标点的坐标和过滤文本框的对应角点的坐标，计算所述坐标点集合中每个坐标点与所述过滤文本框的对应角点之间的第二距离；将所述坐标点集合中所述第二距离大于对应角点的所述经验误差距离的坐标点作为
孤立点去除，或者，将所述坐标点集合中所述第二距离最大的目标占比的坐标点作为孤立点去除，得到去除孤立点后的坐标点集合。7.根据权利要求6所述的方法，还包括：获取样本检测图片对应的样本实际文本框的角点坐标和多个样本预测文本框的角点坐标；根据所述样本实际文本框的角点坐标和所述多个样本预测文本框的角点坐标，计算每个角点对应的所述样本预测文本框和所述样本实际文本框之间的第三距离；将每个角点对应的多个所述第三距离的平均值确定为所述经验误差距离。8.根据权利要求7所述的方法，还包括：将所述每个角点对应的多个所述第三距离中大于所述经验误差距离的占比，确定为所述目标占比。9.一种文本检测装置，包括：第一生成模块，用于根据待检测图片和训练好的文本检测模型生成多个预测文本框的角点坐标；处理模块，用于采用非极大值抑制算法对所述多个预测文本框的角点坐标进行处理，得到过滤文本框的角点坐标；筛选模块，用于根据所述多个预测文本框的角点坐标和所述过滤文本框的角点坐标，从所述过滤文本框和所述多个预测文本框中筛选出...

【专利技术属性】
技术研发人员：王鹏，谢群义，黄聚，钦夏孟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人