本发明专利技术提供一种基于文件扫描的文字识别方法、终端及存储装置,该基于文件扫描的文字识别方法包括:S101:根据每个字符的位置获取字符所在的行、段落及行、段落的位置信息;S102:根据字符的字高获取字符渲染后的字宽,对字高进行修正,并根据修正后的字高获取段落中每一个字符的大小;S103:合并段落中的行文本,计算段落的行高,根据段落的位置信息、字符的大小以及段落的行高输出扫描的文字。本发明专利技术能够对文稿上的文字位置进行正确识别,并正确还原出文稿的文本段落,还可以按每个段落的位置、行高、字体大小等信息进行排版,无需编辑即可实现对原文档排版结构的保留以及文本段落的获取,操作简单、耗时短,工作量少。工作量少。工作量少。
【技术实现步骤摘要】
基于文件扫描的文字识别方法、终端及存储装置
[0001]本专利技术涉及在文字扫描领域,尤其涉及一种基于文件扫描的文字识别方法、终端及存储装置。
技术介绍
[0002]当前,计算机输入法主要有五笔输入法、拼音输入法、手写输入法等类型。当我们进行资料收集时,经常需要将大量纸质文档中的文字录入计算机中,如果通过上述几种输入法进行录入,费时又费力。目前,文件扫描是实现文字录入的有效工具。现有技术中,文件扫描通常借助光学字符识别(OCR,Optical Character Recognition)技术,将需要的文字拍摄为图像,然后对图像进行识别,即可实现快速录入。
[0003]但是,使用OCR功能进行文字识别后,在输出扫描的文件时存在以下两个缺陷:
[0004]1、输出TXT文件时,每次识别只能把单词合并成字符串段落,再把段落拼接上换行符,输出到TXT文件中。这种方法,只能获得文字内容,而丢失文字中字体大小、段落缩进、段落行高以及段落之间的间距,无法完整复原原有文档排版结构。
[0005]2.输出PDF文件时,每次识别只能把单词对应的区域内容填充为背景颜色,再把每个单词文本根据区域大小填充到区域内,最后输出到PDF文件。这种方法没有把文本合并为完整段落,实际是独立的文字行,不能执行段落复制。
[0006]为了使输出的文档贴近原文档,还需要根据被扫描的文档对输出的文件做进一步编辑,操作繁琐,耗时长,提高了扫描成本。
技术实现思路
[0007]为了克服现有技术的不足,本专利技术提出一种基于文件扫描的文字识别方法、智能终端以及存储装置,根据字符的位置获取位于同一行、同一段的字符以及行、段落的位置信息,并根据字符的字高获取字符渲染后的字宽,利用该字宽、行宽以及字高对字高进行修正,从而获取文件的排版和段落信息,能够对文稿上的文字位置进行正确识别,并正确还原出文稿的文本段落,还可以按每个段落的位置、行高、字体大小等信息进行排版,无需编辑即可实现对原文档排版结构的保留以及文本段落的获取,操作简单、耗时短,减少了工作量。
[0008]为解决上述问题,本专利技术采用的一个技术方案为:一种基于文件扫描的文字识别方法,所述基于文件扫描的文字识别方法包括:S101:获取每个字符的位置,根据所述位置获取所述字符所在的行、段落,并获取所述行、段落的位置信息;S102:获取字符的字高,根据所述字高获取所述字符渲染后的字宽,通过所述字宽、字符所在行的宽度以及字高对所述字高进行修正,并根据修正后的字高获取所述段落中每一个字符的大小;S103:合并段落中的行文本,计算所述段落的行高,根据所述段落的位置信息、字符的大小以及段落的行高输出扫描的文字。
[0009]进一步地,所述根据所述位置获取所述字符所在的行、段落的步骤具体包括:根据
所述位置获取位于同一行/同一段落的字符,根据所述行获取位于同一段落的字符或根据所述段落获取位于同一行的字符。
[0010]进一步地,所述根据所述位置获取位于同一行的字符的步骤具体包括:根据所述位置获取所述字符在垂直于行方向上的排序,根据所述排序遍历所述字符,判断所述字符与上一个字符在垂直于行方向上的距离以及高度差是否均小于第一预设值;若是,则确定所述字符与上一个字符位于同一行;若否,则确定所述字符与上一个字符不位于同一行。
[0011]进一步地,所述根据所述行获取位于同一段落的字符的步骤具体包括:根据所述行在垂直于行方向上的排序遍历所述行,判断所述行与上一行的在垂直于行方向上的距离以及高度差均满足预设条件;若是,则确定所述行与上一行位于同一段落;若否,则确定所述行与上一行不位于同一段落。
[0012]进一步地,所述根据所述字高获取所述字符渲染后的字宽的步骤具体包括:根据所述字高、所述字符对应的字体获取所述字符渲染后的字宽。
[0013]进一步地,所述通过所述字宽、字符所在行的行宽以及字高对所述字高进行修正的步骤具体包括:通过公式A=min(lineFontSize*width/contentWidth,lineFontSize)获取修正后的字高,其中,A为修正后的字高,lineFontSize为字高,width为字符所在行的行宽,contentWidth为字符渲染后的字宽。
[0014]进一步地,所述合并段落中的行文本的步骤具体包括:根据所述行在垂直于行方向上的排序拼接所述段落中的行文本,在行文本之间插入分隔符,并根据行与段落在行方向的距离差确定所述段落的缩进。
[0015]进一步地,所述根据所述段落的位置信息、字符的大小以及段落的行高输出扫描的文字的步骤具体包括:通过输出文件的尺寸获取缩放比例,根据所述段落在垂直于行方向的坐标大小按序合并所述段落形成文本,并基于所述位置信息、字符的大小以及段落的行高将所述文本以缩放比例绘制到输出文件上。
[0016]基于相同的专利技术构思,本专利技术还提出一种智能终端,智能终端包括:处理器、存储器,所述存储器存储有计算机程序,所述处理器通过所述计算机程序执行如上所述的基于文件扫描的文字识别方法。
[0017]基于相同的专利技术构思,本专利技术又提出一种存储装置,存储装置存储有程序数据,所述程序数据被用于执行如上所述的基于文件扫描的文字识别方法。
[0018]相比现有技术,本专利技术的有益效果在于:根据字符的位置获取位于同一行、同一段的字符以及行、段落的位置信息,并根据字符的字高获取字符渲染后的字宽,利用该字宽、行宽以及字高对字高进行修正,进而获取段落中字符的大小、行高,从而获取文件的排版和段落信息,能够对文稿上的文字位置进行正确识别,并正确还原出文稿的文本段落,还可以按每个段落的位置、行高、字体大小等信息进行排版,无需编辑即可实现对原文档排版结构的保留以及文本段落的获取,操作简单、耗时短,减少了工作量。
附图说明
[0019]图1为本专利技术基于文件扫描的文字识别方法一实施例的流程图;
[0020]图2为未使用本专利技术基于文件扫描的文字识别方法输出的文件一实施例的示意图;
[0021]图3为使用本专利技术基于文件扫描的文字识别方法输出的文件一实施例的示意图;
[0022]图4为本智能终端一实施例的结构图;
[0023]图5为本专利技术存储装置一实施例的结构图。
具体实施方式
[0024]下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
[0025]本文中术语“包括”,“包含”或其任何其他变体旨在覆盖非排他性包括,使得包括步骤列表的过程或方法不仅包括那些步骤,而且可以包括未明确列出或此类过程或方法固有的其他步骤。同样,在没有更多限制的情况下,以“包含...一个”开头的一个或多个设备或子系统,元素或结构或组件也不会没有更多限制,排除存在其他设备或其他子系统或其他元素或其他结构或其他组件或其他设备或其他子系统或其他元素或其他结构或其他组件。在整个说明书中,短语“在一本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于文件扫描的文字识别方法,其特征在于,所述基于文件扫描的文字识别方法包括:S101:获取每个字符的位置,根据所述位置获取所述字符所在的行、段落,并获取所述行、段落的位置信息;S102:获取字符的字高,根据所述字高获取所述字符渲染后的字宽,通过所述字宽、字高以及字符所在行的行宽对所述字高进行修正,并根据修正后的字高获取所述段落中每一个字符的大小;S103:合并段落中的行文本,计算所述段落的行高,根据所述段落的位置信息、字符的大小以及段落的行高输出扫描的文字。2.如权利要求1所述的基于文件扫描的文字识别方法,其特征在于,所述根据所述位置获取所述字符所在的行、段落的步骤具体包括:根据所述位置获取位于同一行/同一段落的字符,根据所述行获取位于同一段落的字符或根据所述段落获取位于同一行的字符。3.如权利要求2所述的基于文件扫描的文字识别方法,其特征在于,所述根据所述位置获取位于同一行的字符的步骤具体包括:根据所述位置获取所述字符在垂直于行方向上的排序,根据所述排序遍历所述字符,判断所述字符与上一个字符在垂直于行方向上的距离以及高度差是否均小于第一预设值;若是,则确定所述字符与上一个字符位于同一行;若否,则确定所述字符与上一个字符不位于同一行。4.如权利要求2所述的基于文件扫描的文字识别方法,其特征在于,所述根据所述行获取位于同一段落的字符的步骤具体包括:根据所述行在垂直于行方向上的排序遍历所述行,判断所述行与上一行的在垂直于行方向上的距离以及高度差均满足预设条件;若是,则确定所述行与上一行位于同一段落;若否,则确定所述行与上一行不位于同一段落。5.如权利要求1所述的基于文件扫描的文字识别方法,其特征在于,所述根据所述字...
【专利技术属性】
技术研发人员:黄宽议,李高飞,余振中,
申请(专利权)人:广州维梦科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。