基于形态学与积分投影的印刷体维吾尔文文档切分方法技术

技术编号：14530323 阅读：170 留言：0更新日期：2017-02-02 12:58

本发明专利技术公开了一种基于形态学与积分投影的印刷体维吾尔文文档切分方法，主要解决现有切分方法中，获取行文档图像时灵活性限制问题，获取单字符图像时这种字符的漏切分问题。其步骤为：(1)输入一幅二值图像；(2)获取行文档图像；(2)获取子单词图像；(4)获取连体段图像；(5)获得只有主体笔画部分的连体段图像；(6)确定只有主体笔画部分连体段图像的基线域；(7)获取单字符图像。本发明专利技术相对于现有的印刷体维吾尔文文档切分方法，获取行文档图像时不设置阈值而更灵活，避免了这种字符的漏切分问题，可以提高印刷体维吾尔文文档切分准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于光学字符别中的字符切分领域，更进一步涉及光学字符别中字符切分领域中的一种基于形态学与积分投影的印刷体维吾尔文文档切分方法。本专利技术可用于将通过扫描仪扫描后的纸质维吾尔文文档图像，切分成单个维吾尔文字符图像，为基于切分的印刷体维吾尔文文档识别做前提工作。
技术介绍
目前，普遍采用基于切分的印刷体维吾尔文文档识别。因此，从维吾尔文文档图像中准确地切分出维吾尔文字符是印刷体维吾尔文文档识别的前提和基础。但是，由于维吾尔文借用的是阿拉伯文和波斯字母连写的书写形式，属于粘连型拼音文字，形态类似我们中国的草书，其切分极其困难。李晓等人在其发表的论文“基于像素积分投影的切分方法”(计算机技术与发展[J]，2012，22:41-44)中提出了一种基于像素积分投影的印刷体维吾尔文文档图像切分方法。该方法的实现步骤是：步骤1，输入预处理后的印刷体维吾尔文文档图像；步骤2，通过计算印刷体维吾尔文文档图像的水平投影从整篇印刷体维吾尔文文档图像切分出每个行文档图像；步骤3，通过计算行文档图像的垂直投影切分出单个维吾尔文单词图像；步骤4，再一次利用垂直投影法从维吾尔文单词中切分出单字符图像。该方法虽然能将整篇维吾尔文文档图像中的行文档图像切分出来，但是该方法仍然存在的不足之处是：该方法在行切分步骤中设定了阈值用于区分是行间距还是行内间距，使得该方法的灵活性受到了限制；在字符切分时，存在一些过切分和漏切分问题，会将形如这样的字符过切分，将形如这样的上下覆盖的字符切分时漏切分。李亚男等人在其发表的论文“一种改进的印刷体维吾尔文投影切分方法”(大连民族学院学报，2014,...

【技术保护点】
一种基于形态学与积分投影的印刷体维吾尔文文档切分方法，包括以下步骤：(1)输入二值图像：输入一幅无噪声非倾斜且其宽度与高度为2362×3327的印刷体维吾尔文文档二值图像；(2)获取行文档图像：(2a)利用形态学膨胀算法，对输入的二值图像进行膨胀处理，得到印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起的一幅膨胀图像；(2b)采用四邻域种子填充连通域算法，提取膨胀图像的每个连通域；(2c)用每个连通域外接矩形的上边作为每幅行文档图像的上边界，下边作为每幅行文档图像的下边界，得到与每个连通域对应的多幅行文档图像；(3)获取子单词图像：(3a)从多幅行文档图像中选取任意一幅行文档图像；(3b)采用四邻域种子填充连通域算法，依次提取所选取的行文档图像中所有的连通域；(3c)从所选取的行文档图像中所有的连通域中选取任意一个连通域，并搜索与所选连通域相邻的最近连通域；(3d)判断最近连通域是否在所选连通域的关联位置，若是，则执行步骤(3e)，否则，执行步骤(3f)；(3e)将所选连通域和最近连通域，分别作为印刷体维吾尔文中同一个子单词图像的主体笔画部分和附加笔画部分；(3f)将最近连通...

【技术特征摘要】
1.一种基于形态学与积分投影的印刷体维吾尔文文档切分方法，包括以下步骤：(1)输入二值图像：输入一幅无噪声非倾斜且其宽度与高度为2362×3327的印刷体维吾尔文文档二值图像；(2)获取行文档图像：(2a)利用形态学膨胀算法，对输入的二值图像进行膨胀处理，得到印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起的一幅膨胀图像；(2b)采用四邻域种子填充连通域算法，提取膨胀图像的每个连通域；(2c)用每个连通域外接矩形的上边作为每幅行文档图像的上边界，下边作为每幅行文档图像的下边界，得到与每个连通域对应的多幅行文档图像；(3)获取子单词图像：(3a)从多幅行文档图像中选取任意一幅行文档图像；(3b)采用四邻域种子填充连通域算法，依次提取所选取的行文档图像中所有的连通域；(3c)从所选取的行文档图像中所有的连通域中选取任意一个连通域，并搜索与所选连通域相邻的最近连通域；(3d)判断最近连通域是否在所选连通域的关联位置，若是，则执行步骤(3e)，否则，执行步骤(3f)；(3e)将所选连通域和最近连通域，分别作为印刷体维吾尔文中同一个子单词图像的主体笔画部分和附加笔画部分；(3f)将最近连通域单独作为印刷体维吾尔文中的一个子单词图像；(3g)判断所选取的行文档图像中所有的连通域是否选取完，若是，则执行步骤(3h)，否则，执行步骤(3c)；(3h)得到所选取行文档图像的所有子单词图像；(3i)判断多幅行文档图像中的每一幅行文档图像是否选取完，若是，则执行步骤(3g)，否则，执行步骤(3a)；(3g)得到多幅行文档图像中的所有子单词图像；(4)获取连体段图像：(4a)从多幅行文档图像中的所有子单词图像中任意选取一幅子单词图像；(4b)按照下式，计算所选子单词图像的纵横比：ration=wh]]>其中，ration表示所选子单词图像的纵横比，w表示所选子单词图像的宽，h表示所选子单词图像的高；(4c)设定一个阈值T，T＝0.72；(4d)判断所选子单词图像的纵横比是否大于等于阈值T，若是，则执行步骤(4e),否则，执行步骤(4f)；(4e)将所选子单词图像作为连体段图像；(4f)将所选子单词图像作为独立字符图像；(4g)判断多幅行文档图像中的所有子单词图像是否都选取完，若是，则执行步骤(4h)，否则，执行步骤(4a)；(4h)得到多幅行文档图像中的所有连体段图像；(5)获取只有主体笔画部分的连体段图像：(5a)从多幅行文档图像中的所有连体段图像中任意选取一幅连体段图像；(5b)消除所选取连体段图像的附加笔画部分，得到只有主体笔画部分的连体段图像；(5c)判断多幅行文档图像中的所有连体段像是否都选取完，若是，则执行步骤(5d)，否则，执行步骤(5a)；(5d)得到多幅行文档图像中的所有连体段图像中，只有主体笔画部分的连体段图像；(6)确定只有主体笔画部分连体段图像的基线域：(6a)从多幅行文档图像中的所有只有主体笔画部分连体段图像中，选取任意一幅只有主体笔画部分的连体段图像；(6b)提取所选取只有主体笔画部分连体段图像的轮廓，得到所选取的只有主体笔画部分连体段图像的轮廓图像；(6c)按照下式，计算所选取的只有主体笔画部分连体段图像的轮廓图像中每一行对应的水平积分投影：H(i)=Σj=0b-1h(i,j)]]>其中，H(i)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行的水平积分投影，i＝0,1,...,a，a表示所选取的只有主体笔画部分连体段图像的轮廓图像的总行数，b表示所选取的只有主体笔画部分连体段图像的轮...

【专利技术属性】
技术研发人员：卢朝阳，王小弟，李静，郎潇，艾合买提·阿卜力皮孜，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人