文本检测方法、装置、设备及存储介质制造方法及图纸

技术编号：35752910 阅读：19 留言：0更新日期：2022-11-26 18:59

本申请提供一种文本检测方法、装置、设备及存储介质，涉及图像处理领域。该处理方法包括：获取待检测图像，待检测图像中包括结构化文本，待检测图像的结构化文本包括多个字段；基于待检测图像和文本检测模型，检测待检测图像中的每个字段的位置；其中，文本检测模型是基于N个类别的样本图像训练得到，N个类别样本图像是对M个样本图像聚类后得到，样本图像中包括结构化文本，样本图像中的结构化文本包括多个字段，N个类别的样本图像中不同类别的样本图像里的字段的位置分布不同，N个类别中每个类别的样本图像的数量均大于第一阈值，N和M均为为大于或等于2的整数。该方法适用于结构化文本检测过程中，用于提高对结构化文本检测的准确性。的准确性。的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本检测方法、装置、设备及存储介质

[0001]本申请涉及图像处理领域，尤其涉及一种文本检测方法、装置、设备及存储介质。

技术介绍

[0002]结构化文本是指具有一定布局结构的文本。例如，身份证、护照、票据、以及驾驶证等。当前在日常生活中或办公领域都存在着从包括结构化文本的图像中提取字符信息的需求。例如，从发票图像中提取发票的金额、日期；从身份证图像中提取身份证的姓名、身份证号等。
[0003]目前的从包括结构化文本的图像中提取字符信息的方案一般为包括两大部分：结构化文本检测、以及字符内容识别。其中，结构化文本检测可以通过基于深度学习的检测模型来实现。
[0004]但是，利用深度学习模型进行结构化文本检测在存在多种布局结构下可能检测不准确。

技术实现思路

[0005]基于上述技术问题，本申请提供一种文本检测方法、装置、设备及存储介质，可以将带有字段位置标注的样本图像划分为不同的种类，并对不同种类的带有字段位置标注的样本图像进行均衡处理，可以得到比例均衡的不同类别的训练样本，提高深度学习模型在多种布局结构下对结构化文本的检测准确率。
[0006]第一方面，本申请提供一种文本检测方法，该方法包括：获取待检测图像，待检测图像中包括结构化文本，待检测图像的结构化文本包括多个字段；基于待检测图像和文本检测模型，检测待检测图像中的每个字段的位置；其中，文本检测模型是基于N个类别的样本图像训练得到，N个类别样本图像是对M个样本图像聚类后得到，样本图像中包括结构化文本，样本图像中的结构化文本包...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法，其特征在于，所述方法包括：获取待检测图像，所述待检测图像中包括结构化文本，所述待检测图像的结构化文本包括多个字段；基于所述待检测图像和文本检测模型，检测所述待检测图像中的每个字段的位置；其中，所述文本检测模型是基于N个类别的样本图像训练得到，所述N个类别样本图像是对M个样本图像聚类后得到，所述样本图像中包括结构化文本，所述样本图像中的结构化文本包括多个字段，所述N个类别的样本图像中不同类别的样本图像里的字段的位置分布不同，所述N个类别中每个类别的样本图像的数量均大于第一阈值，N和M均为为大于或等于2的整数。2.根据权利要求1所述的方法，其特征在于，在所述获取待检测图像之前，所述方法还包括：获取M个样本图像，所述M个样本图像中的每个样本图像中标记有至少两个字段的位置；根据所述每个样本图像中标记的至少两个字段的位置关系，将所述M个样本图像分为N个类别；对目标类别的样本图像进行过采样，以增加所述目标类别的样本图像的数量，所述目标类别的样本图像是所述N个类别的样本图像中样本图像数量小于所述第一阈值的一个类别的样本图像；基于过采样后的所述N个类别的样本图像，训练得到所述文本检测模型。3.根据权利要求2所述的方法，其特征在于，所述根据所述每个样本图像中标记的所述至少两个字段的位置关系，将所述M个样本图像分为N个类别，包括：对所述每个样本图像中标记的所述至少两个字段之间的位置关系进行编码，得到与所述每个样本图像对应的特征向量；对与所述M个样本图像对应的M个特征向量进行多次聚类处理，以将所述M个特征向量分为N个类别；基于所述N个类别的特征向量确定所述N个类别的样本图像。4.根据权利要求3所述的方法，其特征在于，针对所述多次聚类中的第一次聚类，所述对与所述M个样本图像对应的M个特征向量进行多次聚类处理，包括：对所述M个特征向量进行聚类处理，将所述M个特征向量分为C个类别；计算所述C个类别的特征向量的类间特征向量距离、以及所述C个类别中每个类别的特征向量的类内特征向量距离；根据所述类间特征向量距离和所述类内特征向量距离，确定所述第一次聚类的聚类评分。5.根据权利要求4所述的方法，其特征在于，针对多次聚类，所述对与所述M个样本图像对应的M个特征向量进行多次聚类处理，以将所述M个特征向量分为N个类别，包括：若所述多次聚类对应的多个聚类评分连续下降的次数达到第二阈值，则将聚类评分下降之前出现聚类评分拐点的聚类结果确定为目标聚类结果；所述目标聚类结果对应的类别数量为N。6.根据权利要求4所述的方法，其特征在于，针对多次聚类，所述对与所述M个样本图像
对应的M个特征向量进行多次聚类处理，以将所述M个特征向量分为N个类别，包括：若所述多次聚类对应的多个聚类评分连续下降的次数未达到第二阈值，且当前聚类的类别数量达到第三阈值，则将聚类得到的类别数量为第三阈值的第k次聚类和得到类别数量为参考阈值的第j次聚类之间的多次聚类中，聚类评分最高的一次聚类结果确定为目标聚类结果；其中，k和j的差值为所述第三阈值，k和j取正整数，所述目标聚类结果对应的类别数量为N。7.根据权利要求2
‑
6任一项所述的方法，其特征在于，若所述第一阈值与所述目标类别的样本图像的数量的差值，大于所述目标类别的样本图像的数量，则所述对所述目标类别的样本图像进行过采样，以增加所述目标类别的样本图像的数量，包括：将所述目标类别的样本图像中的一个或多个样本图像的副本补充进所述目标类别的样本图像中。8.根据权利要求2
‑
6任一项所述的方法，其特征在于，若所述第一阈值与所述目标类别的样本图像的数量的差值，小于或等于所述目标类别的样本图像的数量，则所述对所述目标类别的样本图像进行过采样，以增加所述目标类别的样本的数量，包括：在所述目标类别的样本图像中确定样本子集，所述样本子集包括所述目标类别的样本图像中的至少一个样本图像；计算每个剩余图像对应的特征向量与所述样本子集对应的特征向量之间的特征向量距离；所述剩余图像为所述目标类别的样本图像中除所述样本子集之外的图像；将与所述样本子集对应的特征向量之间的特征向量距离最大的特征向量所对应的剩余图像加入所述样本子集，直至所述样本子集内的样本图像的数量等于所述差值；将所述样本子集补充至所述目标类别的样本图像中。9.根据权利要求8所述的方法，其特征在于，所述剩余图像包括第一剩余图像；所述计算每个剩余图像对应特征向量与所述样本子集对应的特征向量之间的特征向量距离，包括：计算所述第一剩余图像对应特征向量分别与所述样本子集中每个样本图像对应的特征向量之间的特征向量距离，得到所述第一剩余图像对应的多个特征向量距离；将所述多个特征向量距离中最小的一个确定为所述第一剩余图像对应的特征向量与所述样本子集对应的特征向量之...

【专利技术属性】
技术研发人员：许涛，
申请(专利权)人：上海高德威智能交通系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人