【技术实现步骤摘要】
一种基于印刷体模板的手写体分离与定位方法
本专利技术属于文本图像处理
,尤其是涉及一种基于印刷体模板的手写体分离与定位的方法。
技术介绍
随着科技的发展,随着人工智能的到来,新的一轮技术革命已然开始;计算机已逐步取代了人工的繁重工作。例如,在文本识别领域,由于大量文本信息待处理,传统的人工审阅方式已然无法满足需求;或者学生考试使用的部分自动批阅系统,以及票据、凭据等的识别录入系统,这些不仅节省了由人工参与而浪费的大量时间,同时提高了工作效率。但作为文本识别系统,对其识别的精度一直以来都有很高的要求,也是目前研究的重点;文本识别主要分为手写体识别和印刷体识别两种,考虑到手写体书写的随意性和复杂性等特点,混合识别变的非常有难度,大多数的识别系统都是将其分开进行识别;伴随智能化识别系统的发展,开始逐渐打破了旧的格局,开辟新的天地;文本识别的前提是先对文本进行定位,实际识别应用中文本大多为印刷体和手写体字符的混合,而手写体通常为识别的重点目标,故需提前对待识别的手写体做出精确定位变得至关重要。因此,有必要开发一种基于印刷体模板的手写体分离与定位方法,对同时含有印刷体和手写体图片中的手写体部分做出精确定位,提高文本识别系统的精确度。
技术实现思路
本专利技术要解决的技术问题是,提供一种基于印刷体模板的手写体分离与定位方法,对同时含有印刷体和手写体图片中的手写体部分做出精确定位,提高文本识别系统的精确度。为解决上述技术问题,本专利技术采用的技术方案是:该基于印刷体模板的手写体分离与定位的方法,具体包括以下步骤:(1)图片矫正:将空白模板和含有手写体文本的图片经过二值 ...
【技术保护点】
1.一种基于印刷体模板的手写体分离与定位方法,其特征在于,具体包括以下步骤:(1)图片矫正:将空白模板和含有手写体文本的图片经过二值化处理、轮廓提取和霍夫变换检测矫正图片的倾斜度;(2)手写分离:将含有手写体文本的图片中的手写体和印刷体进行分离得到纯手写体图片;(3)文本定位:对得到所述纯手写体图片中的手写体文本进行定位;(4)直线检测:检测所述步骤(3)中定位到的所述手写体文本中是否有直线,若有直线则采用水平和垂直核卷积技术来检测直线的具体位置并输出其坐标值;(5)干扰筛选:对所述纯手写体文本进行干扰字符筛选,并将干扰的手写体字符去掉,得到所需的手写体字符。
【技术特征摘要】
1.一种基于印刷体模板的手写体分离与定位方法,其特征在于,具体包括以下步骤:(1)图片矫正:将空白模板和含有手写体文本的图片经过二值化处理、轮廓提取和霍夫变换检测矫正图片的倾斜度;(2)手写分离:将含有手写体文本的图片中的手写体和印刷体进行分离得到纯手写体图片;(3)文本定位:对得到所述纯手写体图片中的手写体文本进行定位;(4)直线检测:检测所述步骤(3)中定位到的所述手写体文本中是否有直线,若有直线则采用水平和垂直核卷积技术来检测直线的具体位置并输出其坐标值;(5)干扰筛选:对所述纯手写体文本进行干扰字符筛选,并将干扰的手写体字符去掉,得到所需的手写体字符。2.根据权利要求1所述的基于印刷体模板的手写体分离与定位的方法,其特征在于,所述步骤(2)具体包括以下步骤:S21模板匹配:将步骤(1)中的所述空白模板通过至少两种匹配算法利用空白模板的滑动寻找匹配点,将含有手写体文本的图片与所述空白模板进行粗匹配;S22模板裁剪:将步骤S21中的与所述含有手写体文本的图片粗匹配好的所述空白模板进行裁剪,使所述空白模板的大小与所述含有手写体文本的图片的大小相同;S23特征配准:采用尺度不变特征变换的SIFT算法来寻找关键特征点,使所述空白模板与所述含有手写体文本的图片中的文本内容重合,使所述空白模板与所述含有手写体文本的图片配准;S24差异检测:对步骤S23中配准后的所述含有手写体文本的图片,采用不同区域检测算法将其和所述空白模板图片进行对比检测,找出所述空白模板与所述含有手写体文本的图片中的不同区域得到检测结果图,记为图A;S25模板相减:将步骤S23中配准后的所述含有手写体文本的图片,通过对所述空白模板和所述含有手写体文本的图片采用模板灰度处理后得到的值进行直接相减操作,得到相减结果图,记为图B;S26相同检测:将步骤S24得到的图A与步骤S25得到的图B通过异或运算法去掉图片中手写部分的内容,得到图C;S27手写提取:再次将所述图A和图B做或运算得到重叠后的全部文本内容,记作图D;再将图D与图C做相减运算,再经腐蚀处理及高斯去噪后,得到最终的所述纯手写体图片。3.根据权利要求2所述的基于印刷体模板的手写体分离与定位的方法,其特征在于,所述步骤(1)的所述空白模板和含有手写体文本的图片的印刷体文本内容及文本内容的位置均相同;所属步骤(1)中的所述二值化处理具体过程为:设定全局阈值128,将大于128的像素群像素值设定为白色,将小于128的像素群像素值设定为黑色;所述轮廓提取采用基于边界跟踪的数字化二值图像拓扑分析算法,该基于边界跟踪的数字化二值图像拓扑分析算法确定二值图像边界的围绕关系,从而定位到图像边界;所述霍夫变换检测是对输入的二值图像中的像素点,按照步长分别计算出每个点上的所有可能的直线,同时记录下每条直线经过的点数,按照阈值筛选符合条件的图像,从而达到图像检测的目的,通过霍夫变换检测可以进行直线检测,并根据得到的直线起始和终止的坐标值计算得到其上部的文本区域的坐标值。4.根据权利要求2所述的基于印刷体模板的手写体分离与定位的方法,其特征在于,所述步骤(3)中文本定位采用EAST深度学习算法进行定位,所述EAST算法是通过全卷积网络FCN和非极大值抑制NMS,消除中间的冗余过程,减少检测时间来对文本图片...
【专利技术属性】
技术研发人员:田博帆,吴冬华,谢阳,
申请(专利权)人:南京红松信息技术有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。