一种基于自适应文字框生成与调整的图像划词识别技术制造技术

技术编号：44971452 阅读：2 留言：0更新日期：2025-04-12 01:45

本发明专利技术公开了一种基于自适应文字框生成与调整的图像划词识别技术，属于图像处理与分析技术领域，一种基于自适应文字框生成与调整的图像划词识别技术，它通过一系列的图处理和边界框缩小操作，实现了对复杂OCR输出中字符级别边界框的动态分离和优化，并通过并查集、拓扑排序与R‑Tree索引技术，实现对字符边界的有效调整，避免了字符与字符之间的重叠问题，从而提高了OCR系统在高密度或重叠场景下的识别准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理与分析，更具体地说，涉及一种基于自适应动态框的交互式图像划词定位方法。

技术介绍

1、图片划词功能是指通过ocr(光学字符识别)技术，将图片中的文字识别出来，并在屏幕上高亮显示这些文字，同时提供翻译、解释等功能。这种功能通常由一些翻译软件提供，如网易有道词典。

2、目前，现有的图片划词主要是利用ocr技术主要聚焦在提高文字识别的准确率上，但在处理复杂物体背景期间，由于ocr框检测算法通常基于图像特征和边缘检测，当纸张表面不规则(如褶皱、弯曲)时，这些框往往会出现重叠，可能会导致识别结果和实际文字区域不一致，尤其是在用户需要手动选择某一区域文字时，可能会因为覆盖问题无法选择到精确的区域，甚至偏移出用户期望的区域。

技术实现思路

1、1.要解决的技术问题：

2、针对现有技术中存在的问题，本专利技术的目的在于提供一种基于自适应文字框生成与调整的图像划词识别技术，通过一系列的图处理和边界框缩小操作，实现了对复杂ocr输出中字符级别边界框的动态分离和优化，并通过并查集、拓扑排序与r-tree索引技术，实现对字符边界的有效调整，避免了字符与字符之间的重叠问题，从而提高了ocr系统在高密度或重叠场景下的识别准确性。

3、2.技术方案：

4、为解决上述问题，本专利技术采用如下的技术方案。

5、一种基于自适应文字框生成与调整的图像划词识别技术，包括以下步骤：

6、s1、输入以及预处理图片中的词语级别的边界框

7、s2、对提取出的字符级别边界框进行初步分组，以及优化图像处理的效率；

8、s3、对边界框进行拓扑排序及边界框缩小，消除字符边界框的重叠状态；

9、s4、对边界框进行重叠检测与算法的调整，生成无重叠的新边界框；

10、s5、对每个字符级别的边界框bbox进行动态更新与空间索引，使其无重叠。

11、进一步的改进在于：所述s1步骤中对词语级别的边界框输入与预处理的方法包括：

12、s11、输入：从ocr结果中获得的词语级别的边界框bbox及其对应的文本；

13、s12、目标：将词语级别的边界框细分为字符级边界框，并消除重叠，最终得到清晰、无重叠的字符级边界框。

14、进一步的改进在于：所述s2步骤中对边界框分组与优化的方法包括：

15、s21、使用并查集与stf分组对字符级别边界框进行初步分组，以优化图像处理的效率，时间复杂度为o(n\logn)；

16、s22、依据边界框和文本信息，将词语级别的边界框分割为字符级别的边界框，通过向量计算获得平均变化率。

17、进一步的改进在于：所述s3步骤中的拓扑排序及边界框缩小方法包括：

18、s31、使用双向边结构(通过build_bidirectional_edges函数构建)形成无向图，对出入度为1的节点进行处理；

19、s32、类拓扑排序操作顺序处理出入度为1的节点，检查相邻节点是否重叠。若存在重叠，调用shrink_bbox_to_avoid_overlap函数动态调整边界框，逐步消除重叠；

20、s33、通过check_overlap函数检查节点是否发生重叠；

21、s34、根据重叠情况缩小重叠的边界框，使字符边界框达到无重叠状态。

22、进一步的改进在于：所述s4步骤中的重叠检测方法包括：

23、s41、坐标分离：提取每个边界框的四个顶点坐标；

24、s42、重叠检测：根据轴向计算两个边界框的重叠范围，按中心位置与重叠距离计算缩小目标；

25、s43、缩小边界框：在反轴向调整字符的边界框顶点，使其远离重叠区域，根据中心位置缩小幅度，实现左右或上下方向的缩小，最终生成无重叠的新边界框。

26、进一步的改进在于：所述s5步骤中的动态更新与空间索引方法包括：

27、s51、对每个字符级别的边界框bbox进行动态更新，使其无重叠；

28、s52、基于空间索引r-tree实现查询操作，根据输入坐标(x，y)查找对应字符级边界框，若未找到则返回-1。

29、3.有益效果：

30、采用本专利技术提供的技术方案，与现有技术相比，具有如下有益效果：

31、(1)精确的字符级分离与定位

32、传统ocr方法常在复杂背景、字符间距不均或重叠的情况下出现识别误差，而本技术方案通过将词语级别的边界框细化为字符级别，并结合拓扑排序和并查集的算法，有效区分每个字符的位置，显著提升了字符级别的分离和精度。

33、(2)动态消除重叠，提高识别可靠性

34、本专利技术在字符级边界框检测中，针对重叠问题提供了实时动态调整机制。利用重叠检测算法，自动缩小边界框避免字符间的干扰，不需要人工干预，提升了图像在ocr中的适用性，特别适合复杂文本场景(如褶皱纸张、背景复杂的图片)下的文字提取。

35、(3)高效的图像处理速度

36、本专利技术中通过并查集与空间索引(r-tree)提升处理效率，使重叠检测的时间复杂度优化为o(n\log n)，大大减少了图像处理和边界框调整的计算量，适用于大规模文档图像的快速ocr解析。

37、(4)适应多种场景的泛化能力

38、本专利技术通过设计拓扑排序和反轴向缩小等策略，该方案适用于多种字符排列和间距不一的场景，避免字符与字符之间的重叠，使方案在不同类型的文档、扫描件、照片上均能保持一致的识别性能。

39、(5)基于空间索引的高效查找

40、本专利技术中加入了r-tree空间索引，快速查询字符级边界框，有效提升了特定位置字符查找的速度，使字符定位更为高效。这种空间索引方法对实时ocr应用尤为有益，有助于提高系统的响应速度。

41、综上所述，本技术方案结合了字符分离、重叠消除、边界框调整和高效索引查找，确保ocr在复杂图像场景中的识别准确性和效率，能够显著提升在多变背景、字符拥挤的图片或文档中的表现，是对现有ocr处理技术的重要补充和增强。

42、需要说明的是，本专利技术未介绍的结构由于不涉及本专利技术的设计要点及改进方向，均与现有技术相同或者可采用现有技术加以实现在此不做赘述。

本文档来自技高网...

【技术保护点】

1.一种基于自适应文字框生成与调整的图像划词识别技术，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自适应文字框生成与调整的图像划词识别技术，其特征在于，所述S1步骤中对词语级别的边界框输入与预处理的方法包括：

3.根据权利要求1所述的一种基于自适应文字框生成与调整的图像划词识别技术，其特征在于，所述S2步骤中对边界框分组与优化的方法包括：

4.根据权利要求1所述的一种基于自适应文字框生成与调整的图像划词识别技术，其特征在于，所述S3步骤中的拓扑排序及边界框缩小方法包括：

5.根据权利要求1所述的一种基于自适应文字框生成与调整的图像划词识别技术，其特征在于，所述S4步骤中的重叠检测方法包括：

6.根据权利要求1所述的一种基于自适应文字框生成与调整的图像划词识别技术，其特征在于，所述S5步骤中的动态更新与空间索引方法包括：

【技术特征摘要】

1.一种基于自适应文字框生成与调整的图像划词识别技术，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自适应文字框生成与调整的图像划词识别技术，其特征在于，所述s1步骤中对词语级别的边界框输入与预处理的方法包括：

3.根据权利要求1所述的一种基于自适应文字框生成与调整的图像划词识别技术，其特征在于，所述s2步骤中对边界框分组与优化的方法包括：

4.根据...

【专利技术属性】
技术研发人员：张昶，姜博怀，
申请(专利权)人：成都哈瑞特医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人