一种文本定位方法及装置制造方法及图纸

技术编号:21004438 阅读:23 留言:0更新日期:2019-04-30 21:37
本申请提供了一种文本定位方法及装置,涉及计算机领域,所述方法包括:获取待转换文本的目标文本图像;通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。采用本申请,能够提高文本定位的准确率。

A Text Location Method and Device

【技术实现步骤摘要】
一种文本定位方法及装置
本申请涉及计算机
,特别是涉及一种文本定位方法及装置。
技术介绍
随着无纸化办公的推行,用户需要通过电子设备将图像中的文本信息转换为计算机字符,以便进行编辑,例如,用户可以对纸质文本进行拍摄,得到文本的图像,再通过电子设备将文本的图像转换为目标格式的电子文件。目标格式包括word(文本)、PDF(PortableDocumentFormat,便携式文本格式)、ppt(PowerPoint,演示文稿)等,本专利技术不做限定。电子设备基于光学字符识别技术,将文本的图像包含的文本信息转换为计算机字符的处理过程可以分为:文本区域检测和版面分析与还原两步。在文本区域检测中,电子设备可以识别出文本的图像包含的文字、插图图像、以及表格;在版面分析与还原中,电子设备可以分析文本的版面所包含的插图图像、文字、以及表格之间的相对位置,以使文本对应的电子文件具有相同的版面布局。常见的文本定位方法采用连通域的方式识别文本区域,容易受到图像噪声、墨点、以及水印的影响,导致检测的文本区域不准确,影响基于文本区域进行版面分析还原得到电子文件的转换准确率。因此,常见的文本定位方法的准确率低。
技术实现思路
本申请实施例的目的在于提供一种文本定位方法及装置,以提高文本定位的准确率。具体技术方案如下:第一方面,提供了一种文本定位方法,所述方法包括:获取待转换文本的目标文本图像;通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。可选的,所述获取待转换文本的目标文本图像包括:获取待转换文本的初始文本图像;通过所述初始文本图像的图像数据,判断所述初始文本图像是否包含插入对象的信息;若包含所述插入对象的信息,则确定所述初始文本图像包含的插入对象对应的第三坐标信息、以及去除所述插入对象的目标文本图像;若不包含所述插入对象的信息,则将所述初始文本图像作为目标文本图像。可选的,所述得到文本段图像、以及所述文本段图像对应的第二坐标信息之后,还包括:若包含所述插入对象的信息,则基于所述第二坐标信息和所述第三坐标信息,将预先存储的所述文本段图像包含的各字符和所述插入对象进行存储,得到结构化存储的信息;若不包含所述插入对象的信息,则基于所述第二坐标信息,将预先存储的所述文本段图像包含的各字符进行存储,得到结构化存储的信息。可选的,所述通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息包括:在预设坐标系中,按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像、以及与所述目标文本行图像相邻的文本行图像,所述预设坐标系为以所述目标文本图像的左上角为原点的直角坐标系;基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段,所述第一文本行图像为所述目标文本行图像包含的文本行图像中,纵坐标的数值最大的文本行图像;如果判断结果为是,则将所述目标文本行图像和所述第二文本行图像进行合并,得到新的目标文本行图像;如果判断结果为否,则将所述目标文本行图像作为文本段图像。可选的,所述基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行高比值,并确定所述行高比值是否属于第一预设范围;如果所述行高比值不属于所述第一预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;如果所述行高比值属于所述第一预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行间距,并确定所述行间距是否属于第二预设范围;如果所述行间距不属于所述第二预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;如果所述行间距属于所述第二预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的左侧间距,并确定所述左侧间距是否属于第三预设范围;如果所述左侧间距不属于所述第三预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;如果所述左侧间距属于所述第三预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的右侧间距,并确定所述右侧间距是否属于第四预设范围;如果所述右侧间距属于所述第四预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;如果所述右侧间距不属于所述第四预设范围,则按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段。可选的,所述按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:基于所述目标文本图像包含的文本行图像的第一坐标信息,判断是否存在第三文本行图像,所述第三文本行图像的纵坐标区间与所述第二文本行图像的纵坐标区间重叠;如果不存在,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;如果存在,则判断所述第三文本行图像的纵坐标区间与所述目标文本行图像的纵坐标区间是否重叠;如果判断结果为否,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段。可选的,所述获取待转换文本的初始文本图像包括:获取预先存储的待转换文本的图像;将所述图像输入至预设的旋转文本图片校正算法模型,得到与预设坐标系的坐标轴呈预设的角度的所述待转换文本的初始文本图像。可选的,所述通过预设的段落合并规则、所述文本行图像的第一坐标信息,对所述文本行图像进行合并,得到文本段图像,以及每个文本段图像的第二坐标信息之后,还包括:获取所述文本行图像的文本格式信息,所述文本格式信息包括行高、字号、以及字体;将所述多个文本行图像按照文本格式信息进行分类,得到多个类别的文本行图像;根据预先存储的类别与文本属性的对应关系,确定各类别所述文本行图像对应的文本信息的文本属性,所述文本属性包括标题、正文、以及脚注。第二方面,提供了一种文本定位装置,所述装置包括:第一获取模块,用于获取待转换文本的目标文本图像;第一确定模块,用于通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图本文档来自技高网...

【技术保护点】
1.一种文本定位方法,其特征在于,所述方法包括:获取待转换文本的目标文本图像;通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。

【技术特征摘要】
1.一种文本定位方法,其特征在于,所述方法包括:获取待转换文本的目标文本图像;通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。2.根据权利要求1所述的方法,其特征在于,所述获取待转换文本的目标文本图像包括:获取待转换文本的初始文本图像;基于所述初始文本图像的图像数据,判断所述初始文本图像是否包含插入对象的信息;若包含所述插入对象的信息,则确定所述初始文本图像包含的插入对象对应的第三坐标信息、以及去除所述插入对象的目标文本图像;若不包含所述插入对象的信息,则将所述初始文本图像作为目标文本图像。3.根据权利要求2所述的方法,其特征在于,所述得到文本段图像、以及所述文本段图像对应的第二坐标信息之后,还包括:若包含所述插入对象的信息,则基于所述第二坐标信息和所述第三坐标信息,将预先存储的所述文本段图像包含的各字符和所述插入对象进行存储,得到结构化存储的信息;若不包含所述插入对象的信息,则基于所述第二坐标信息,将预先存储的所述文本段图像包含的各字符进行存储,得到结构化存储的信息。4.根据权利要求1所述的方法,其特征在于,所述通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息包括:在预设坐标系中,按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像、以及与所述目标文本行图像相邻的文本行图像,所述预设坐标系为以所述目标文本图像的左上角为原点的直角坐标系;基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段,所述第一文本行图像为所述目标文本行图像包含的文本行图像中,纵坐标的数值最大的文本行图像;如果判断结果为是,则将所述目标文本行图像和所述第二文本行图像进行合并,得到新的目标文本行图像;如果判断结果为否,则将所述目标文本行图像作为文本段图像。5.根据权利要求4所述的方法,其特征在于,所述基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行高比值,并确定所述行高比值是否属于第一预设范围;如果所述行高比值不属于所述第一预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;如果所述行高比值属于所述第一预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行间距,并确定所述行间距是否属于第二预设范围;如果所述行间距不属于所述第二预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;如果所述行间距属于所述第二预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的左侧间距,并确定所述左侧间距是否属于第三预设范围;如果所述左侧间距不属于所述第三预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;如果所述左侧间距属于所述第三预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的右侧间距,并确定所述右侧间距是否属于第四预设范围;如果所述右侧间距属于所述第四预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;如果所述右侧间距不属于所述第四预设范围,则按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段。6.根据权利要求5所述的方法,其特征在于,所述按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:基于所述目标文本图像包含的文本行图像的第一坐标信息,判断是否存在第三文本行图像,所述第三文本行图像的纵坐标区间与所述第二文本行图像的纵坐标区间重叠;如果不存在,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;如果存在,则判断所述第三文本行图像的横坐标区间与所述目标文本行图像的横坐标区间是否重叠;如果判断结果为否,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段。7.根据权利要求2所述的方法,其特征在于,所述获取待转换文本的初始文本图像包括:获取预先存储的待转换文本的图像;将所述图像输入至预设的旋转文本图片校正算法模型,得到与预设坐标系的坐标轴呈预设的角度的所述待转换文本的初始文本图像。8.根据权利要求1所述的方法,其特征在于,所述通过预设的段落合并规则、所述文本行图像的第一坐标信息,对所述文本行图像进行合并,得到文本段图像,以及每个文本段图像的第二坐标信息之后,还包括:获取所述文本行图像的文本格式信息,所述文本格式信息包括行高、字号、以及字体;将所述多个文本行图像按照文本格式信息进行分类,得到多个类别的文本行图像;根据预先存储的类别与文本属性的对应关系,确定各类别所述文本行图像对应的文本信息的文本属性,所述文本属性包括标题、正文、以及脚注。9.一种文本定位装置,其特征在于,所述装置包括:第一获取模块,用于获取待转换文本的目标文本图像;第一确定模块,用于通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本...

【专利技术属性】
技术研发人员:丁洪利刘天悦詹华年郑磊波
申请(专利权)人:北京金山数字娱乐科技有限公司成都金山互动娱乐科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1