文本分析方法、装置、终端和计算机可读存储介质制造方法及图纸

技术编号:27568007 阅读:30 留言:0更新日期:2021-03-09 22:13
本发明专利技术提供了一种文本分析方法、装置、终端和计算机可读存储介质,其中,文本分析方法包括:对文本图像进行水平投影和垂直投影,生成水平投影数据和垂直投影数据,根据水平投影数据和垂直投影数据确定字符的位置信息;根据位置信息识别字符,根据识别结果统计出文本图像中的文字个数。通过本发明专利技术的技术方案能够准确定位文本图像中的各个字符,根据字符的位置进行对字符进行识别和统计,字数统计结果准确度高,抗干扰能力强。抗干扰能力强。抗干扰能力强。

【技术实现步骤摘要】
文本分析方法、装置、终端和计算机可读存储介质


[0001]本专利技术涉及图像处理领域,具体而言,涉及一种文本分析方法、一种文本分析装置、一种终端和一种计算机可读存储介质。

技术介绍

[0002]人工智能相关技术在各个领域中的应用越来越广泛,在教育领域中,学生考试成绩分析系统能有效提取学生考试题目和老师的批改信息智能化的完成学生考试试卷的分析,自动生成反应出学生个人学习情况的用户画像。最终输出学生学习考试情况分析报告,帮助学生、老师以及家长提升学生成绩。语文作为初中以及高中重要考试科目,其中的作文的分数占总分比例相对较大,因而对作文答题情况的详细分析也是很有必要的。学生写作字数是否达标是考试中评分的一个基本要求。如何在学生考试成绩分析系统中完成字数自动统计任务,成为亟待解决的技术问题。
[0003]另外,整个说明书对
技术介绍
的任何讨论,并不代表该
技术介绍
一定是所属领域技术人员所知晓的现有技术,整个说明书中的对现有技术的任何讨论并不代表该现有技术一定是广泛公知的或一定构成本领域的公知常识。

技术实现思路

[0004]本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。
[0005]为此,本专利技术的一个目的在于提出了一种文本分析方法。
[0006]本专利技术的另一个目的在于提出了一种文本分析装置。
[0007]本专利技术的又一个目的在于提出了一种终端。
[0008]本专利技术的又一个目的在于提出了一种计算机可读存储介质。
[0009]在本专利技术的第一方面的技术方案中,提出了一种文本分析方法,包括:对文本图像进行水平投影和垂直投影,生成水平投影数据和垂直投影数据,其中,文本包含多个字符,字符包括文字和/或限定文字位置的线段;根据水平投影数据确定文本图像中的文本在水平方向上的坐标区域,以及根据垂直投影数据确定文本图像中的文本在垂直方向上的坐标区域,其中,水平方向上的坐标区域对应字符的上边界和下边界,垂直方向上的坐标区域对应字符的左边界和右边界,根据上边界、下边界、左边界和右边界确定字符的位置信息;根据位置信息识别字符,根据识别结果统计出文本图像中的文字个数。
[0010]在该技术方案中,通过对文本图像进行水平投影和垂直投影,确定文本图像中的字符或者字符的框线的坐标,从而完成字符定位,根据字符定位对每个字符进行分析,进而确定文本图像的文字个数。相较于传统的文字识别方法,本申请基于投影数据确定字符的位置,根据字符位置进行文字识别,在扫描图像质量较差的情况下依旧能够保持较高的文字识别率,具有较高的识别准确度。此外,根据投影结果确定每个字符的位置后,将文本图像拆分为多个子图进行识别,能够最大程度地降低干扰信息对文字识别过程的干扰,提高识别效率和准确度。
[0011]另外,根据本专利技术上述实施例的文本分析方法,还可以具有如下附加的技术特征:
[0012]在上述任一技术方案中,可选地,根据位置信息识别字符,根据识别结果统计出文本图像中的文字个数,具体包括:计算出文本图像的像素值均值;根据字符的位置信息确定文本框,计算出文本框内的像素值均值;根据文本图像的像素值均值以及文本框内的像素值均值,确定文本框内包含文字,记录文字个数。
[0013]在该技术方案中,检测文本图像的像素值均值,根据文本图像的像素值均值设定像素阈值,再对每个文本框的像素值均值进行检测,若文本框的均值大于像素阈值,说明该文本框中含有文字。此外,还能够通过检测文本框中黑色目标的面积与设定阈值做比较来确定文本框中是否含有文字。对每个文本框进行像素值检测以确定文本框中是否含有文字,提高文字个数统计的准确度。
[0014]在上述任一技术方案中,可选地,还包括:根据颜色定位文本图像中的干扰信息并删除干扰信息。
[0015]在该技术方案中,干扰信息一般会与文本重叠,影响文字个数统计结果,通过颜色信息准确提取干扰信息并进行删除,能够提升文字个数统计准确度。
[0016]在上述任一技术方案中,可选地,干扰信息为叠加在文本上的批改痕迹,则根据颜色定位文本图像中的干扰信息并删除干扰信息,具体包括:
[0017]根据批改痕迹的颜色在文本图像中识别出批改痕迹,读取批改笔迹的轮廓,将轮廓的内部填充为白色。
[0018]在该技术方案中,对文本图像颜色空间进行转换,切换到HSV颜色空间中,以提取出批改痕迹,使用白色像素覆盖干扰信息,提高文字个数统计准确度。此外,也可以通过估计轮廓临近像素值的方法填充,以删除干扰信息。
[0019]在上述任一技术方案中,可选地,还包括:根据文本图像中的定位标记进行倾斜校正;或者根据文本图像中的直线线段的方向进行倾斜校正。
[0020]在该技术方案中,文本图像倾斜会影响投影结果,根据定位标记(定位块)校正图像消除倾斜,或者根据文本图像中的直线段的方向进行方向校正以调整图像姿态,有利于后续的位置信息获取,使其识别效率有了较大提升。
[0021]在上述任一技术方案中,可选地,还包括:检测文本图像中的空白区域;根据空白区域分割文本图像,以确定文本图像的版面,其中,文本图像包括一个或多个版面。
[0022]在该技术方案中,根据文本图像中的空白区域确定版面,对于具有多版面的文本图像具有更好的识别效果,将文本图像分割为多个版面进行识别也有助于提升识别效率。
[0023]在上述任一技术方案中,可选地,统计出文本图像中的文字个数,具体包括:根据文本的段落书写规范、题目书写规范和标点符号情况优化统计过程,具体优化步骤包括一下任一项或其组合:默认每段文字的首行前两格为空;默认段落最后一行未被填满的情况下会存在空白格;默认文本题目在第一版面的第一行;默认文本最后一行之后的位置为空白行;标点符号计算在文字总数中或标点符合不视为文字。
[0024]在该技术方案中,通过多种预设步骤减少不必要的识别步骤,提升了字数统计的准确度。
[0025]在本专利技术的第二方面的技术方案中,提出了一种文本分析装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,程序被处理器执行时实现如上述任一
项技术方案的文本分析方法的步骤。该文本分析装置包括如上述任一项技术方案的文本分析方法的全部有益效果,在此不再赘述。
[0026]在本专利技术的第三方面的技术方案中,提出了一种终端,包括:上述第二方面技术方案所述的文本分析装置。该终端包括如上述任一项技术方案的文本分析方法的全部有益效果,在此不再赘述。
[0027]在本专利技术的第四方面的技术方案中,提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时,实现如上述任一项技术方案所述的文本分析方法的步骤。
[0028]本专利技术的附加方面和优点将在下面的描述部分中变得明显,或通过本专利技术的实践了解到。
附图说明
[0029]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0030]图1示出了根据本专利技术的一个实施例的文本分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分析方法,其特征在于,包括:对文本图像进行水平投影和垂直投影,生成水平投影数据和垂直投影数据,其中,所述文本包含多个字符,所述字符包括文字和/或限定所述文字位置的线段;根据所述水平投影数据确定所述文本图像中的文本在水平方向上的坐标区域,以及根据所述垂直投影数据确定所述文本图像中的文本在垂直方向上的坐标区域,其中,所述水平方向上的坐标区域对应所述字符的上边界和下边界,所述垂直方向上的坐标区域对应所述字符的左边界和右边界,根据所述上边界、所述下边界、所述左边界和所述右边界确定所述字符的位置信息;根据所述位置信息识别所述字符,根据识别结果统计出所述文本图像中的文字个数。2.根据权利要求1所述的文本分析方法,其特征在于,所述根据所述位置信息识别所述字符,根据识别结果统计出所述文本图像中的文字个数,具体包括:计算出所述文本图像的像素值均值;根据所述字符的位置信息确定文本框,计算出文本框内的像素值均值;根据所述文本图像的像素值均值以及所述文本框内的像素值均值,确定所述文本框内包含文字,记录文字个数。3.根据权利要求1所述的文本分析方法,其特征在于,还包括:根据颜色定位所述文本图像中的干扰信息并删除所述干扰信息。4.根据权利要求3所述的文本分析方法,其特征在于,所述干扰信息为叠加在文本上的批改痕迹,则所述根据颜色定位所述文本图像中的干扰信息并删除所述干扰信息,具体包括:根据所述批改痕迹的颜色在所述文本图像中识别出所述批改痕...

【专利技术属性】
技术研发人员:贺涛曾志辉
申请(专利权)人:深圳中兴网信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1