基于形态学与积分投影的印刷体维吾尔文文档切分方法技术

技术编号:14530323 阅读:158 留言:0更新日期:2017-02-02 12:58
本发明专利技术公开了一种基于形态学与积分投影的印刷体维吾尔文文档切分方法,主要解决现有切分方法中,获取行文档图像时灵活性限制问题,获取单字符图像时这种字符的漏切分问题。其步骤为:(1)输入一幅二值图像;(2)获取行文档图像;(2)获取子单词图像;(4)获取连体段图像;(5)获得只有主体笔画部分的连体段图像;(6)确定只有主体笔画部分连体段图像的基线域;(7)获取单字符图像。本发明专利技术相对于现有的印刷体维吾尔文文档切分方法,获取行文档图像时不设置阈值而更灵活,避免了这种字符的漏切分问题,可以提高印刷体维吾尔文文档切分准确率。

【技术实现步骤摘要】

本专利技术属于光学字符别中的字符切分领域,更进一步涉及光学字符别中字符切分领域中的一种基于形态学与积分投影的印刷体维吾尔文文档切分方法。本专利技术可用于将通过扫描仪扫描后的纸质维吾尔文文档图像,切分成单个维吾尔文字符图像,为基于切分的印刷体维吾尔文文档识别做前提工作。
技术介绍
目前,普遍采用基于切分的印刷体维吾尔文文档识别。因此,从维吾尔文文档图像中准确地切分出维吾尔文字符是印刷体维吾尔文文档识别的前提和基础。但是,由于维吾尔文借用的是阿拉伯文和波斯字母连写的书写形式,属于粘连型拼音文字,形态类似我们中国的草书,其切分极其困难。李晓等人在其发表的论文“基于像素积分投影的切分方法”(计算机技术与发展[J],2012,22:41-44)中提出了一种基于像素积分投影的印刷体维吾尔文文档图像切分方法。该方法的实现步骤是:步骤1,输入预处理后的印刷体维吾尔文文档图像;步骤2,通过计算印刷体维吾尔文文档图像的水平投影从整篇印刷体维吾尔文文档图像切分出每个行文档图像;步骤3,通过计算行文档图像的垂直投影切分出单个维吾尔文单词图像;步骤4,再一次利用垂直投影法从维吾尔文单词中切分出单字符图像。该方法虽然能将整篇维吾尔文文档图像中的行文档图像切分出来,但是该方法仍然存在的不足之处是:该方法在行切分步骤中设定了阈值用于区分是行间距还是行内间距,使得该方法的灵活性受到了限制;在字符切分时,存在一些过切分和漏切分问题,会将形如这样的字符过切分,将形如这样的上下覆盖的字符切分时漏切分。李亚男等人在其发表的论文“一种改进的印刷体维吾尔文投影切分方法”(大连民族学院学报,2014,03:315-318)中提出了一种基于像素积分投影法和连通域搜索法的印刷体维吾尔文文档图像切分方法。该方法的实现步骤是:步骤1,输入预处理后的印刷体维吾尔文文档图像;步骤2,通过计算印刷体维吾尔文文档图像的水平投影从整篇印刷体维吾尔文文档图像切分出每个行文档图像;步骤3,通过连通域标定法实现独立字符或者连体段的切分;步骤4,提取连体段基线以上部分垂直投影从连体段中切分出单字符图像。该方法虽然可以避免存在上下覆盖时的漏切分,但是该方法仍然存在的不足之处是:也会对形如这种字符造成漏切分问题。
技术实现思路
本专利技术的目的在于克服上述已有技术的不足,提出了一种基于形态学与积分投影的印刷体维吾尔文文档切分方法,克服了直接采用水平投影分析法获取行文档图像时灵活性限制的缺点,避免了将这种字符漏切分的问题,可以提高印刷体维吾尔文文档切分的准确率。本专利技术实现上述目的的思路是:首先,输入待切分的印刷体维吾尔文文档图像,采用形态学膨胀对输入的图像进行膨胀处理,得到一幅膨胀图像,对膨胀图像连通域分析,得到行文档图像;其次,通过连通域分析行文档图像,得到子单词图像;然后,通过计算子单词图像的纵横比将子单词图像分类为独立字符图像和连体段图像;最后,针对连体段图像,采用连通域分析法消除附加笔画,确定只有主体笔画的连体段图像的基线域,将只有主体笔画的连体段图像的基线域以及基线域下边界以下的四分之三置白后再垂直投影寻找切分点,得到单字符图像。为了实现上述目的,本专利技术的具体实现步骤如下:(1)输入二值图像:输入一幅无噪声非倾斜且其宽度与高度为2362×3327的印刷体维吾尔文文档二值图像;(2)获取行文档图像:(2a)利用形态学膨胀算法,对输入的二值图像进行膨胀处理,得到印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起的一幅膨胀图像;(2b)采用四邻域种子填充连通域算法,提取膨胀图像的每个连通域;(2c)用每个连通域外接矩形的上边作为每幅行文档图像的上边界,下边作为每幅行文档图像的下边界,得到与每个连通域对应的多幅行文档图像;(3)获取子单词图像:(3a)从多幅行文档图像中选取任意一幅行文档图像;(3b)采用四邻域种子填充连通域算法,依次提取所选取的行文档图像中所有的连通域;(3c)从所选取的行文档图像中所有的连通域中选取任意一个连通域,并搜索与所选连通域相邻的最近连通域;(3d)判断最近连通域是否在所选连通域的关联位置,若是,则执行步骤(3e),否则,执行步骤(3f);(3e)将所选连通域和最近连通域,分别作为印刷体维吾尔文中同一个子单词图像的主体笔画部分和附加笔画部分;(3f)将最近连通域单独作为印刷体维吾尔文中的一个子单词图像;(3g)判断所选取的行文档图像中所有的连通域是否选取完,若是,则执行步骤(3h),否则,执行步骤(3c);(3h)得到所选取行文档图像的所有子单词图像;(3i)判断多幅行文档图像中的每一幅行文档图像是否选取完,若是,则执行步骤(3g),否则,执行步骤(3a);(3g)得到多幅行文档图像中的所有子单词图像;(4)获取连体段图像:(4a)从多幅行文档图像中的所有子单词图像中任意选取一幅子单词图像;(4b)按照下式,计算所选子单词图像的纵横比:ration=wh]]>其中,ration表示所选子单词图像的纵横比,w表示所选子单词图像的宽,h表示所选子单词图像的高;(4c)设定一个阈值T,T=0.72;(4d)判断所选子单词图像的纵横比是否大于等于阈值T,若是,则执行步骤(4e),否则,执行步骤(4f);(4e)将所选子单词图像作为连体段图像;(4f)将所选子单词图像作为独立字符图像;(4g)判断多幅行文档图像中的所有子单词图像是否都选取完,若是,则执行步骤(4h),否则,执行步骤(4a);(4h)得到多幅行文档图像中的所有连体段图像;(5)获取只有主体笔画部分的连体段图像:(5a)从多幅行文档图像中的所有连体段图像中任意选取一幅连体段图像;(5b)消除所选取连体段图像的附加笔画部分,得到只有主体笔画部分的连体段图像;(5c)判断多幅行文档图像中的所有连体段像是否都选取完,若是,则执行步骤(5d),否则,执行步骤(5a);(5d)得到多幅行文档图像中的所有连体段图像中,只有主体笔画部分的连体段图像;(6)确定只有主体笔画部分连体段图像的基线域:(6a)从多幅行文档图像中的所有只有主体笔画部分连体段图像中,选取任意一幅只有主体笔画部分的连体段图像;(6b)提取所选取只有主体笔画部分连体段图像的轮廓,得到所选取的只有主体笔画部分连体段图像的轮廓图像;(6c)按照下式,计算所选取的只有主体笔画部分连体段图像的轮廓图像中每一行对应的水平积分投影:H(i)=Σj=0b-1h(i,j)]]>其中,H(i)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行的水平积分投影,i=0,1,...,a,a表示所选取的只有主体笔画部分连体段图像的轮廓图像的总行数,b表示所选取的只有主体笔画部分连体段图像的轮廓图像的总列数,∑表示求和操作,j表示所选取的只有主体笔画部分连体段图像的轮廓图像中的第j列,j=0,1,...b,h(i,j)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行第j列的像素值;(6d)将水平积分投影H(i)最大时对应的行,作为所选取的只有主体笔画部分连体段图像基线域的上边界bstart,将水平积分投影H(i)次大时对应的行,作为所选取的只有主体笔画部分连体段图像基线域的下边界bend;(6e)按照下式,计算所选取的只有主体笔画部分连本文档来自技高网
...

【技术保护点】
一种基于形态学与积分投影的印刷体维吾尔文文档切分方法,包括以下步骤:(1)输入二值图像:输入一幅无噪声非倾斜且其宽度与高度为2362×3327的印刷体维吾尔文文档二值图像;(2)获取行文档图像:(2a)利用形态学膨胀算法,对输入的二值图像进行膨胀处理,得到印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起的一幅膨胀图像;(2b)采用四邻域种子填充连通域算法,提取膨胀图像的每个连通域;(2c)用每个连通域外接矩形的上边作为每幅行文档图像的上边界,下边作为每幅行文档图像的下边界,得到与每个连通域对应的多幅行文档图像;(3)获取子单词图像:(3a)从多幅行文档图像中选取任意一幅行文档图像;(3b)采用四邻域种子填充连通域算法,依次提取所选取的行文档图像中所有的连通域;(3c)从所选取的行文档图像中所有的连通域中选取任意一个连通域,并搜索与所选连通域相邻的最近连通域;(3d)判断最近连通域是否在所选连通域的关联位置,若是,则执行步骤(3e),否则,执行步骤(3f);(3e)将所选连通域和最近连通域,分别作为印刷体维吾尔文中同一个子单词图像的主体笔画部分和附加笔画部分;(3f)将最近连通域单独作为印刷体维吾尔文中的一个子单词图像;(3g)判断所选取的行文档图像中所有的连通域是否选取完,若是,则执行步骤(3h),否则,执行步骤(3c);(3h)得到所选取行文档图像的所有子单词图像;(3i)判断多幅行文档图像中的每一幅行文档图像是否选取完,若是,则执行步骤(3g),否则,执行步骤(3a);(3g)得到多幅行文档图像中的所有子单词图像;(4)获取连体段图像:(4a)从多幅行文档图像中的所有子单词图像中任意选取一幅子单词图像;(4b)按照下式,计算所选子单词图像的纵横比:ration=wh]]>其中,ration表示所选子单词图像的纵横比,w表示所选子单词图像的宽,h表示所选子单词图像的高;(4c)设定一个阈值T,T=0.72;(4d)判断所选子单词图像的纵横比是否大于等于阈值T,若是,则执行步骤(4e),否则,执行步骤(4f);(4e)将所选子单词图像作为连体段图像;(4f)将所选子单词图像作为独立字符图像;(4g)判断多幅行文档图像中的所有子单词图像是否都选取完,若是,则执行步骤(4h),否则,执行步骤(4a);(4h)得到多幅行文档图像中的所有连体段图像;(5)获取只有主体笔画部分的连体段图像:(5a)从多幅行文档图像中的所有连体段图像中任意选取一幅连体段图像;(5b)消除所选取连体段图像的附加笔画部分,得到只有主体笔画部分的连体段图像;(5c)判断多幅行文档图像中的所有连体段像是否都选取完,若是,则执行步骤(5d),否则,执行步骤(5a);(5d)得到多幅行文档图像中的所有连体段图像中,只有主体笔画部分的连体段图像;(6)确定只有主体笔画部分连体段图像的基线域:(6a)从多幅行文档图像中的所有只有主体笔画部分连体段图像中,选取任意一幅只有主体笔画部分的连体段图像;(6b)提取所选取只有主体笔画部分连体段图像的轮廓,得到所选取的只有主体笔画部分连体段图像的轮廓图像;(6c)按照下式,计算所选取的只有主体笔画部分连体段图像的轮廓图像中每一行对应的水平积分投影:H(i)=Σj=0b-1h(i,j)]]>其中,H(i)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行的水平积分投影,i=0,1,...,a,a表示所选取的只有主体笔画部分连体段图像的轮廓图像的总行数,b表示所选取的只有主体笔画部分连体段图像的轮廓图像的总列数,∑表示求和操作,j表示所选取的只有主体笔画部分连体段图像的轮廓图像中的第j列,j=0,1,...b,h(i,j)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行第j列的像素值;(6d)将水平积分投影H(i)最大时对应的行,作为所选取的只有主体笔画部分连体段图像基线域的上边界bstart,将水平积分投影H(i)次大时对应的行,作为所选取的只有主体笔画部分连体段图像基线域的下边界bend;(6e)按照下式,计算所选取的只有主体笔画部分连体段图像的基线域高度:l=bend‑bstart其中,l表示所选取的只有主体笔画部分连体段图像的基线域高度,bstart表示所选取的只有主体笔画部分连体段图像基线域的上边界,bend表示所选取的只有主体笔画部分连体段图像基线域的下边界;(6e)判断所有的只有主体笔画部分连体段图像是否都选取完,若是,则执行步骤(6f),否则,执行步骤(6a);(6f)得到所有的只有主体笔画部分连体段图像的基线域的高度;(7)获取单字符图像:(7a)从所有的只有主体笔画部分连体段图像中,任意选取一幅只有主体笔画部分连体段图像;(7b)分别将所选取的只有主体笔画部分连体段图像的基线域、...

【技术特征摘要】
1.一种基于形态学与积分投影的印刷体维吾尔文文档切分方法,包括以下步骤:(1)输入二值图像:输入一幅无噪声非倾斜且其宽度与高度为2362×3327的印刷体维吾尔文文档二值图像;(2)获取行文档图像:(2a)利用形态学膨胀算法,对输入的二值图像进行膨胀处理,得到印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起的一幅膨胀图像;(2b)采用四邻域种子填充连通域算法,提取膨胀图像的每个连通域;(2c)用每个连通域外接矩形的上边作为每幅行文档图像的上边界,下边作为每幅行文档图像的下边界,得到与每个连通域对应的多幅行文档图像;(3)获取子单词图像:(3a)从多幅行文档图像中选取任意一幅行文档图像;(3b)采用四邻域种子填充连通域算法,依次提取所选取的行文档图像中所有的连通域;(3c)从所选取的行文档图像中所有的连通域中选取任意一个连通域,并搜索与所选连通域相邻的最近连通域;(3d)判断最近连通域是否在所选连通域的关联位置,若是,则执行步骤(3e),否则,执行步骤(3f);(3e)将所选连通域和最近连通域,分别作为印刷体维吾尔文中同一个子单词图像的主体笔画部分和附加笔画部分;(3f)将最近连通域单独作为印刷体维吾尔文中的一个子单词图像;(3g)判断所选取的行文档图像中所有的连通域是否选取完,若是,则执行步骤(3h),否则,执行步骤(3c);(3h)得到所选取行文档图像的所有子单词图像;(3i)判断多幅行文档图像中的每一幅行文档图像是否选取完,若是,则执行步骤(3g),否则,执行步骤(3a);(3g)得到多幅行文档图像中的所有子单词图像;(4)获取连体段图像:(4a)从多幅行文档图像中的所有子单词图像中任意选取一幅子单词图像;(4b)按照下式,计算所选子单词图像的纵横比:ration=wh]]>其中,ration表示所选子单词图像的纵横比,w表示所选子单词图像的宽,h表示所选子单词图像的高;(4c)设定一个阈值T,T=0.72;(4d)判断所选子单词图像的纵横比是否大于等于阈值T,若是,则执行步骤(4e),否则,执行步骤(4f);(4e)将所选子单词图像作为连体段图像;(4f)将所选子单词图像作为独立字符图像;(4g)判断多幅行文档图像中的所有子单词图像是否都选取完,若是,则执行步骤(4h),否则,执行步骤(4a);(4h)得到多幅行文档图像中的所有连体段图像;(5)获取只有主体笔画部分的连体段图像:(5a)从多幅行文档图像中的所有连体段图像中任意选取一幅连体段图像;(5b)消除所选取连体段图像的附加笔画部分,得到只有主体笔画部分的连体段图像;(5c)判断多幅行文档图像中的所有连体段像是否都选取完,若是,则执行步骤(5d),否则,执行步骤(5a);(5d)得到多幅行文档图像中的所有连体段图像中,只有主体笔画部分的连体段图像;(6)确定只有主体笔画部分连体段图像的基线域:(6a)从多幅行文档图像中的所有只有主体笔画部分连体段图像中,选取任意一幅只有主体笔画部分的连体段图像;(6b)提取所选取只有主体笔画部分连体段图像的轮廓,得到所选取的只有主体笔画部分连体段图像的轮廓图像;(6c)按照下式,计算所选取的只有主体笔画部分连体段图像的轮廓图像中每一行对应的水平积分投影:H(i)=Σj=0b-1h(i,j)]]>其中,H(i)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行的水平积分投影,i=0,1,...,a,a表示所选取的只有主体笔画部分连体段图像的轮廓图像的总行数,b表示所选取的只有主体笔画部分连体段图像的轮...

【专利技术属性】
技术研发人员:卢朝阳王小弟李静郎潇艾合买提·阿卜力皮孜
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1