基于文件扫描的文字识别方法、终端及存储装置制造方法及图纸

技术编号：31569892 阅读：33 留言：0更新日期：2021-12-25 11:09

本发明专利技术提供一种基于文件扫描的文字识别方法、终端及存储装置，该基于文件扫描的文字识别方法包括：S101：根据每个字符的位置获取字符所在的行、段落及行、段落的位置信息；S102：根据字符的字高获取字符渲染后的字宽，对字高进行修正，并根据修正后的字高获取段落中每一个字符的大小；S103：合并段落中的行文本，计算段落的行高，根据段落的位置信息、字符的大小以及段落的行高输出扫描的文字。本发明专利技术能够对文稿上的文字位置进行正确识别，并正确还原出文稿的文本段落，还可以按每个段落的位置、行高、字体大小等信息进行排版，无需编辑即可实现对原文档排版结构的保留以及文本段落的获取，操作简单、耗时短，工作量少。工作量少。工作量少。

全部详细技术资料下载

【技术实现步骤摘要】
基于文件扫描的文字识别方法、终端及存储装置

[0001]本专利技术涉及在文字扫描领域，尤其涉及一种基于文件扫描的文字识别方法、终端及存储装置。

技术介绍

[0002]当前，计算机输入法主要有五笔输入法、拼音输入法、手写输入法等类型。当我们进行资料收集时，经常需要将大量纸质文档中的文字录入计算机中，如果通过上述几种输入法进行录入，费时又费力。目前，文件扫描是实现文字录入的有效工具。现有技术中，文件扫描通常借助光学字符识别(OCR，Optical Character Recognition)技术，将需要的文字拍摄为图像，然后对图像进行识别，即可实现快速录入。
[0003]但是，使用OCR功能进行文字识别后，在输出扫描的文件时存在以下两个缺陷：
[0004]1、输出TXT文件时，每次识别只能把单词合并成字符串段落，再把段落拼接上换行符，输出到TXT文件中。这种方法，只能获得文字内容，而丢失文字中字体大小、段落缩进、段落行高以及段落之间的间距，无法完整复原原有文档排版结构。
[0005]2.输出PDF文件时，每次识别只能把单词对应的区域内容填充为背景颜色，再把每个单词文本根据区域大小填充到区域内，最后输出到PDF文件。这种方法没有把文本合并为完整段落，实际是独立的文字行，不能执行段落复制。
[0006]为了使输出的文档贴近原文档，还需要根据被扫描的文档对输出的文件做进一步编辑，操作繁琐，耗时长，提高了扫描成本。

技术实现思路

[0007]为了克服现有技术的不足，本专利技术提出一...

【技术保护点】

【技术特征摘要】
1.一种基于文件扫描的文字识别方法，其特征在于，所述基于文件扫描的文字识别方法包括：S101：获取每个字符的位置，根据所述位置获取所述字符所在的行、段落，并获取所述行、段落的位置信息；S102：获取字符的字高，根据所述字高获取所述字符渲染后的字宽，通过所述字宽、字高以及字符所在行的行宽对所述字高进行修正，并根据修正后的字高获取所述段落中每一个字符的大小；S103：合并段落中的行文本，计算所述段落的行高，根据所述段落的位置信息、字符的大小以及段落的行高输出扫描的文字。2.如权利要求1所述的基于文件扫描的文字识别方法，其特征在于，所述根据所述位置获取所述字符所在的行、段落的步骤具体包括：根据所述位置获取位于同一行/同一段落的字符，根据所述行获取位于同一段落的字符或根据所述段落获取位于同一行的字符。3.如权利要求2所述的基于文件扫描的文字识别方法，其特征在于，所述根据所述位置获取位于同一行的字符的步骤具体包括：根据所述位置获取所述字符在垂直于行方向上的排序，根据所述排序遍历所述字符，判断所述字符与上一个字符在垂直于行方向上的距离以及高度差是否均小于第一预设值；若是，则确定所述字符与上一个字符位于同一行；若否，则确定所述字符与上一个字符不位于同一行。4.如权利要求2所述的基于文件扫描的文字识别方法，其特征在于，所述根据所述行获取位于同一段落的字符的步骤具体包括：根据所述行在垂直于行方向上的排序遍历所述行，判断所述行与上一行的在垂直于行方向上的距离以及高度差均满足预设条件；若是，则确定所述行与上一行位于同一段落；若否，则确定所述行与上一行不位于同一段落。5.如权利要求1所述的基于文件扫描的文字识别方法，其特征在于，所述根据所述字...

【专利技术属性】
技术研发人员：黄宽议，李高飞，余振中，
申请(专利权)人：广州维梦科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人