一种适用于文本图像的图像对齐方法技术

技术编号:31980581 阅读:14 留言:0更新日期:2022-01-20 01:37
本发明专利技术涉及图像处理技术领域,具体提供了一种适用于文本图像的图像对齐方法,首先,字段特征提取,分别提取模板图和待对齐图中的字段特征,其次,同义字段对齐,计算模板图与待对齐图中两两字段特征之间的相似度,定位模板图和带对齐图的同名同含义字段,得到配对的字段对,最后,精确配对位置对齐及配对点优选,进而完成图像对齐。与现有技术相比,本发明专利技术的基于字符特征进行关键点提取,相对于传统sift特征,其维度更丰富且具有实际意义,对图像的拍摄环境受限较小,模板图和待对齐图存在拍摄环境差异和畸变情况,仍能保持较好的准确性。仍能保持较好的准确性。仍能保持较好的准确性。

【技术实现步骤摘要】
一种适用于文本图像的图像对齐方法


[0001]本专利技术涉及图像处理
,具体提供一种适用于文本图像的图像对齐方法。

技术介绍

[0002]随着信息技术的普及,数字办公成为必然,数字信息具备的便捷、共享和快速检索的优势越来越显著。在日常生产工作中,海量的票据、文档等被积累下来,其中包括大量的图片数据,有效的对这些图片数据进行自动化的内容提取、结构化和入库归档,成为业界的诉求。
[0003]目前对于票据等具备特定格式的图像内容提取多基于模板和文字识别(OCR技术)的方式进行处理,此种方式依赖于准确的图像对齐技术,即:将待解析图像与模板图像进行对应位置对准,传统的对齐方式多基于特征点的方式,在实际应用中,手机拍摄的图像受拍摄环境的影响,存在着畸变、扭曲等问题,致使配对的特征点存在误差,难以得到理想的对齐效果。

技术实现思路

[0004]本专利技术是针对上述现有技术的不足,提供一种实用性强的适用于文本图像的图像对齐方法。
[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种适用于文本图像的图像对齐方法,首先,字段特征提取,分别提取模板图和待对齐图中的字段特征,其次,同义字段对齐,计算模板图与待对齐图中两两字段特征之间的相似度,定位模板图和带对齐图的同名同含义字段,得到配对的字段对,最后,精确配对位置对齐及配对点优选,进而完成图像对齐。
[0007]进一步的,在字段特征提取中,进一步包括:
[0008]S101、提取字段检测框在图像上的相对位置作为位置特征;
[0009]S102、提取字段中文本内容作为内容特征;
[0010]S103、提取字段邻域内文本框个数及内容作为领域特征。
[0011]进一步的,完成图像位置特征、内容特征和领域特征构建后,则图像的字段特征记为:F={f1,f2,...,f
n
},f
n
表示图像中第一个字段的特征,f
n
={text
pos
,text
rec
,text
nerb
},获得模板图和待对齐的字段特征,分别记为:f
temp
和f
eval

[0012]进一步的,在步骤S101中,文本框位置特征,记为text
pos
,由文本检测算法获取,通过文本检测算法,将获取图像中各个字段的文本包围框坐标;
[0013]将包围框坐标转换为相对位置,将图像分为四个区域,左上、右上、右下、左下,分别记为[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1],相对位置表示当前坐标框在图像中所处的位置。
[0014]进一步的,在步骤S102中,文本框内容特征,记为text
rec
,由文本识别算法获取,其内容为文本框中的文字识别结果。
[0015]进一步的,在步骤S103中,邻域信息,记为text
nerb
,计算当前文本框邻域内文本框的个数及其文字信息,邻域定义为两个字段文本框之间的像素点个数。
[0016]进一步的,在同义字段对齐中,进一步包括:
[0017]S201、计算f
temp
和f
eval
的内容匹配度,取text
rec
特征,内容匹配度为模板图与待对齐图中text
rec
特征的重叠字符数/模板图text
rec
的字数;
[0018]如果相似度大于设定阈值,则进行下一步,代表该阈值可以控制字符识别算法所引入的误差;如果相似度等于1,则直接返回配对成功的字段对。
[0019]S202、对满足阈值的字段对,取text
pos
特征,计算位置相似度,其相似度度量空间采用欧式距离,如果相似度大于设定阈值,则进行下一步;如果相似度小于设定阈值,则跳过该字段对;
[0020]S203、对于满足阈值的字段对,取text
nerb
特征,计算邻域相似度,邻域相似度的计算方式为:重复字段数/模板邻域总字段数;
[0021]如果相似度大于设定阈值,则配对成功,记录该字段对;如果相似度小于设定阈值,则跳过该字段对;
[0022]进一步的,在精确配对位置对齐及配对点优选中,进一步包括:
[0023]对得到的所述字段对,进行字符分割,获取单个字符的中心点,其中,字符位置信息记为char
pos
,char
pos
以键值对形式存储信息;
[0024]字符分割可由字符级文字检测算法获取,字符级文字检测模型以热力图形式输出字符位置信息,此处通过二值化、阈值分割,最终获得单个字符的最小外接矩形,基于最小外接矩形坐标进行裁剪,输入至字符识别模型,得到其字符内容,作为char
pos
的键,将外接矩形的四点坐标进一步转换为中心点坐标,作为char
pos
的值。
[0025]进一步的,计算字段对中配对字段序列的最长匹配序列,分别计算最长匹配序列中字符的中心点,并以其平均值作为最终的配对点位置,最终得到多组配对后的坐标对。
[0026]进一步的,对所述坐标对进行优选,优选标准为:
[0027]遍历所述坐标对,以4个坐标对为一组,作为四边形的顶点,构建四边形,构成的四边形面积最大为最优4个配对点,至此获取了4个最优的坐标对;
[0028]基于获取的4个最优的坐标对计算变换矩阵,完成待对齐图的透视变换,实现图像对齐。
[0029]本专利技术的一种适用于文本图像的图像对齐方法和现有技术相比,具有以下突出的有益效果:
[0030]本专利技术基于字符特征进行关键点提取,相对于传统sift特征,其维度更丰富且具有实际意义,基于字符意义设计的特征配对流程也更准确可控。对图像的拍摄环境受限较小,模板图和待对齐图存在拍摄环境差异和畸变情况,仍能保持较好的准确性。
附图说明
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]附图1是一种适用于文本图像的图像对齐方法流程示意图;
[0033]附图2是一种适用于文本图像的图像对齐方法举例模板图;
[0034]附图3是一种适用于文本图像的图像对齐方法举例待对齐图。
具体实施方式
[0035]为了使本
的人员更好的理解本专利技术的方案,下面结合具体的实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于文本图像的图像对齐方法,其特征在于,首先,字段特征提取,分别提取模板图和待对齐图中的字段特征,其次,同义字段对齐,计算模板图与待对齐图中两两字段特征之间的相似度,定位模板图和带对齐图的同名同含义字段,得到配对的字段对,最后,精确配对位置对齐及配对点优选,进而完成图像对齐。2.根据权利要求1所述的一种适用于文本图像的图像对齐方法,其特征在于,在字段特征提取中,进一步包括:S101、提取字段检测框在图像上的相对位置作为位置特征;S102、提取字段中文本内容作为内容特征;S103、提取字段邻域内文本框个数及内容作为领域特征。3.根据权利要求2所述的一种适用于文本图像的图像对齐方法,其特征在于,完成图像位置特征、内容特征和领域特征构建后,则图像的字段特征记为:F={f1,f2,...,f
n
},f
n
表示图像中第一个字段的特征,f
n
={text
pos
,text
rec
,text
nerb
},获得模板图和待对齐的字段特征,分别记为:f
temp
和f
eval
。4.根据权利要求2所述的一种适用于文本图像的图像对齐方法,其特征在于,在步骤S101中,文本框位置特征,记为text
pos
,由文本检测算法获取,通过文本检测算法,将获取图像中各个字段的文本包围框坐标;进一步的将包围框坐标转换为相对位置,将图像分为四个区域,左上、右上、右下、左下,分别记为[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1],相对位置表示当前坐标框在图像中所处的位置。5.根据权利要求2或4所述的一种适用于文本图像的图像对齐方法,其特征在于,在步骤S102中,文本框内容特征,记为text
rec
,由文本识别算法获取,其内容为文本框中的文字识别结果。6.根据权利要求5所述的一种适用于文本图像的图像对齐方法,其特征在于,在步骤S103中,邻域信息,记为text
nerb
,计算当前文本框邻域内文本框的个数及其文字信息,邻域定义为两个字段文本框之间的像素点个数。7.根据权利要求6所述的一种适用于文本图像的图像对齐方法,其特征在于,在同义字段对齐中,进一步包括:S201...

【专利技术属性】
技术研发人员:伊文超朱利霞李明明
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1