一种基于印刷体模板的手写体分离与定位方法技术

技术编号:21631004 阅读:22 留言:0更新日期:2019-07-17 11:45
本发明专利技术公开了一种基于印刷体模板的手写体分离与定位方法,具体包括以下步骤:(1)图片矫正:将空白模板和含有手写体文本的图片经过二值化处理、轮廓提取和霍夫变换检测矫正图片的倾斜度;(2)手写分离:将含有手写体文本的图片中的手写体和印刷体进行分离得到纯手写体图片;(3)文本定位:对得到纯手写体图片中的手写体文本进行定位;(4)直线检测:检测所述步骤(3)中定位到的手写体文本中是否有直线,若有直线则检测直线的具体位置并输出其坐标值;(5)目标提取:对纯手写体文本进行干扰字符筛选,并将干扰的手写体字符去掉,得到所需的手写体字符。该方法对同时含有印刷体和手写体图片中的手写体部分做出精确定位,提高文本识别系统的精确度。

A Handwriting Separation and Location Method Based on Printed Template

【技术实现步骤摘要】
一种基于印刷体模板的手写体分离与定位方法
本专利技术属于文本图像处理
,尤其是涉及一种基于印刷体模板的手写体分离与定位的方法。
技术介绍
随着科技的发展,随着人工智能的到来,新的一轮技术革命已然开始;计算机已逐步取代了人工的繁重工作。例如,在文本识别领域,由于大量文本信息待处理,传统的人工审阅方式已然无法满足需求;或者学生考试使用的部分自动批阅系统,以及票据、凭据等的识别录入系统,这些不仅节省了由人工参与而浪费的大量时间,同时提高了工作效率。但作为文本识别系统,对其识别的精度一直以来都有很高的要求,也是目前研究的重点;文本识别主要分为手写体识别和印刷体识别两种,考虑到手写体书写的随意性和复杂性等特点,混合识别变的非常有难度,大多数的识别系统都是将其分开进行识别;伴随智能化识别系统的发展,开始逐渐打破了旧的格局,开辟新的天地;文本识别的前提是先对文本进行定位,实际识别应用中文本大多为印刷体和手写体字符的混合,而手写体通常为识别的重点目标,故需提前对待识别的手写体做出精确定位变得至关重要。因此,有必要开发一种基于印刷体模板的手写体分离与定位方法,对同时含有印刷体和手写体图片中的手写体部分做出精确定位,提高文本识别系统的精确度。
技术实现思路
本专利技术要解决的技术问题是,提供一种基于印刷体模板的手写体分离与定位方法,对同时含有印刷体和手写体图片中的手写体部分做出精确定位,提高文本识别系统的精确度。为解决上述技术问题,本专利技术采用的技术方案是:该基于印刷体模板的手写体分离与定位的方法,具体包括以下步骤:(1)图片矫正:将空白模板和含有手写体文本的图片经过二值化处理、轮廓提取和霍夫变换检测矫正图片的倾斜度;(2)手写分离:将含有手写体文本的图片中的手写体和印刷体进行分离得到纯手写体图片;(3)文本定位:对得到所述纯手写体图片中的手写体文本进行定位;(4)直线检测:检测所述步骤(3)中定位到的所述手写体文本中是否有直线,若有直线则采用水平和垂直核卷积技术来检测直线的具体位置并计算输出其坐标值;(5)干扰筛选:对所述纯手写体文本进行干扰字符筛选,并将干扰的手写体字符去掉,得到所需的手写体字符。采用上述技方案,将含有手写体文本的图片以其原始印刷后还没有填写手写体的空白模板为参照进行图像处理分析,采用多种算法结合,实现了手写体与印刷体的定位及分离,同时含有印刷体和手写体图片中的手写体部分做出精确定位;提高了文本识别系统的精确度。其中,步骤(1)中在实际拍摄含有手写体文本的图片时,难免会有一定的倾斜性,因此为了能够完全分离手写体文本内容,需要对含有手写体文本的图片进行矫正;实际从步骤(2)中分离出的纯手写体图片中包含有所有手写体的内容,因此对该纯手写体图片的文本进行定位,则可以得出定位效果图;当空白模板中具有直线如下划线,而下划线属于非文本,无法被检测到,而为了避免在步骤五中因对坐标筛选而导致其上部区域中的手写体文本(目标信息)无法匹配最终被去除掉的风险,故先采用水平和垂直核卷积等技术来检测下划线的具体位置并输出其坐标值。本专利技术进一步改进在于,所述步骤(2)具体包括以下步骤:S21模板匹配:将步骤(1)中的所述空白模板通过至少两种匹配算法利用空白模板的滑动寻找匹配点,将含有手写体文本的图片与所述空白模板进行粗匹配;S22模板裁剪:将步骤S21中的与所述含有手写体文本的图片粗匹配好的所述空白模板进行裁剪,使所述空白模板的大小与所述含有手写体文本的图片的大小相同;S23特征配准:采用尺度不变特征变换的SIFT算法来寻找关键特征点,使所述空白模板与所述含有手写体文本的图片中的文本内容重合,使所述空白模板与所述含有手写体文本的图片配准;S24差异检测:对步骤S23中配准后的所述含有手写体文本的图片,采用不同区域检测算法将其和所述空白模板图片进行对比检测,找出所述空白模板与所述含有手写体文本的图片中的不同区域得到检测结果图,记为图A;S25模板相减:将步骤S23中配准后的所述含有手写体文本的图片,通过对所述空白模板和所述含有手写体文本的图片采用模板灰度处理后得到的值进行直接相减操作,得到相减结果图,记为图B;S26相同检测:将步骤S24得到的图A与步骤S25得到的图B通过异或运算法去掉图片中手写部分的内容,得到图C;S27手写提取:再次将所述图A和图B做或运算得到重叠后的全部文本内容,记作图D;再将图D与图C做相减运算,再经腐蚀处理及高斯去噪后,得到最终的所述纯手写体图片。采用上述技术方案,含有手写体文本的图片以其原始印刷后还没有填写手写体的空白模板为参照进行图像处理分析,但由于图像的不完全匹配以及手写和印刷灰度值的相似性较高,为了避免难以区分,采用空白模板匹配结合特征值寻找出最佳匹配点,实现两张图片内容的最接近重合,再利用空白模板相减原理和相同值的异或消除运算,以及对比增强与图像去噪声算法,可以确保增加手写体和印刷体差异的同时达到完全分离的目的;实现了在提供空白模板的情况下,无需考虑手写体书写的具体位置以及手写体复杂性的特点,均能够对其进行完全分离;其中匹配过程主要是利用空白模板的滑动来寻找最佳匹配点,这个结果虽然不能够达到理想的匹配状态,但是能尽其最大的能力寻找到模板匹配的合适位置,并裁剪出和模板一样大小的图片;实际电子档扫描的图片会存在大小不一的情况,而在模板匹配时,空白模板的图片大小相比含有手写体文本的图片要小,因此需要将模板图片进行裁剪;为了完全重合空白模板与含有手写体文本的图片中的文本部分,达到模板相减后的最佳差异状态,因此需要对图片进行对齐化;采用尺度不变特征变换的SIFT算法来寻找关键特征点,以达到空白模板与含有手写体文本的图片的近似对齐,从而使两张图片配准。作为本专利技术的优选技术方案,所述步骤(1)的所述空白模板和含有手写体文本的图片的印刷体文本内容及文本内容的位置均相同;所属步骤(1)中的所述二值化处理具体过程为:设定全局阈值128,将大于128的像素群像素值设定为白色,将小于128的像素群像素值设定为黑色;所述轮廓提取采用基于边界跟踪的数字化二值图像拓扑分析算法,该基于边界跟踪的数字化二值图像拓扑分析算法确定二值图像边界的围绕关系,从而定位到图像边界;所述霍夫变换检测是对输入的二值图像中的像素点,按照步长分别计算出每个点上的所有可能的直线,同时记录下每条直线经过的点数,按照阈值筛选符合条件的图像,从而达到图像检测的目的,通过霍夫变换检测可以进行直线检测,并根据得到的直线起始和终止的坐标值计算得到其上部的文本区域的坐标值。所属步骤(1)中的二值化处理:设定全局阈值128,将大于128的像素群像素值设定为白色,将小于128的像素群像素值设定为黑色。轮廓提取:采用基于边界跟踪的数字化二值图像拓扑分析算法,该算法确定二值图像边界的围绕关系,即确定外边界、孔边界以及他们的层次关系,由于这些边界和原图的区域具有一一对应关系(外边界对应像素值为1的连通区域,孔边界对应像素值为0的区域),因此我们就可以定位到图像边界。霍夫变换:霍夫变换主要是对输入的二值图像中的像素点,按照步长分别计算出每个点上的所有可能的直线。记录下每条直线经过的点数,按照阈值筛选符合条件的图像,已达到图像检测的目的(如:直线、圆、矩形等),扫描图片本文档来自技高网...

【技术保护点】
1.一种基于印刷体模板的手写体分离与定位方法,其特征在于,具体包括以下步骤:(1)图片矫正:将空白模板和含有手写体文本的图片经过二值化处理、轮廓提取和霍夫变换检测矫正图片的倾斜度;(2)手写分离:将含有手写体文本的图片中的手写体和印刷体进行分离得到纯手写体图片;(3)文本定位:对得到所述纯手写体图片中的手写体文本进行定位;(4)直线检测:检测所述步骤(3)中定位到的所述手写体文本中是否有直线,若有直线则采用水平和垂直核卷积技术来检测直线的具体位置并输出其坐标值;(5)干扰筛选:对所述纯手写体文本进行干扰字符筛选,并将干扰的手写体字符去掉,得到所需的手写体字符。

【技术特征摘要】
1.一种基于印刷体模板的手写体分离与定位方法,其特征在于,具体包括以下步骤:(1)图片矫正:将空白模板和含有手写体文本的图片经过二值化处理、轮廓提取和霍夫变换检测矫正图片的倾斜度;(2)手写分离:将含有手写体文本的图片中的手写体和印刷体进行分离得到纯手写体图片;(3)文本定位:对得到所述纯手写体图片中的手写体文本进行定位;(4)直线检测:检测所述步骤(3)中定位到的所述手写体文本中是否有直线,若有直线则采用水平和垂直核卷积技术来检测直线的具体位置并输出其坐标值;(5)干扰筛选:对所述纯手写体文本进行干扰字符筛选,并将干扰的手写体字符去掉,得到所需的手写体字符。2.根据权利要求1所述的基于印刷体模板的手写体分离与定位的方法,其特征在于,所述步骤(2)具体包括以下步骤:S21模板匹配:将步骤(1)中的所述空白模板通过至少两种匹配算法利用空白模板的滑动寻找匹配点,将含有手写体文本的图片与所述空白模板进行粗匹配;S22模板裁剪:将步骤S21中的与所述含有手写体文本的图片粗匹配好的所述空白模板进行裁剪,使所述空白模板的大小与所述含有手写体文本的图片的大小相同;S23特征配准:采用尺度不变特征变换的SIFT算法来寻找关键特征点,使所述空白模板与所述含有手写体文本的图片中的文本内容重合,使所述空白模板与所述含有手写体文本的图片配准;S24差异检测:对步骤S23中配准后的所述含有手写体文本的图片,采用不同区域检测算法将其和所述空白模板图片进行对比检测,找出所述空白模板与所述含有手写体文本的图片中的不同区域得到检测结果图,记为图A;S25模板相减:将步骤S23中配准后的所述含有手写体文本的图片,通过对所述空白模板和所述含有手写体文本的图片采用模板灰度处理后得到的值进行直接相减操作,得到相减结果图,记为图B;S26相同检测:将步骤S24得到的图A与步骤S25得到的图B通过异或运算法去掉图片中手写部分的内容,得到图C;S27手写提取:再次将所述图A和图B做或运算得到重叠后的全部文本内容,记作图D;再将图D与图C做相减运算,再经腐蚀处理及高斯去噪后,得到最终的所述纯手写体图片。3.根据权利要求2所述的基于印刷体模板的手写体分离与定位的方法,其特征在于,所述步骤(1)的所述空白模板和含有手写体文本的图片的印刷体文本内容及文本内容的位置均相同;所属步骤(1)中的所述二值化处理具体过程为:设定全局阈值128,将大于128的像素群像素值设定为白色,将小于128的像素群像素值设定为黑色;所述轮廓提取采用基于边界跟踪的数字化二值图像拓扑分析算法,该基于边界跟踪的数字化二值图像拓扑分析算法确定二值图像边界的围绕关系,从而定位到图像边界;所述霍夫变换检测是对输入的二值图像中的像素点,按照步长分别计算出每个点上的所有可能的直线,同时记录下每条直线经过的点数,按照阈值筛选符合条件的图像,从而达到图像检测的目的,通过霍夫变换检测可以进行直线检测,并根据得到的直线起始和终止的坐标值计算得到其上部的文本区域的坐标值。4.根据权利要求2所述的基于印刷体模板的手写体分离与定位的方法,其特征在于,所述步骤(3)中文本定位采用EAST深度学习算法进行定位,所述EAST算法是通过全卷积网络FCN和非极大值抑制NMS,消除中间的冗余过程,减少检测时间来对文本图片...

【专利技术属性】
技术研发人员:田博帆吴冬华谢阳
申请(专利权)人:南京红松信息技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1