一种文献文字检测和识别的方法技术

技术编号：23558801 阅读：29 留言：0更新日期：2020-03-25 04:15

本发明专利技术提供的一种文献文字检测和识别的方法，通过获取文献图片，并建立训练数据集；创建第一检测模型和第一识别模型，并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练，得到训练好的第二检测模型和第二识别模型；根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别，提高了准确度和效率。

A method of document character detection and recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种文献文字检测和识别的方法
本专利技术涉及图像识别
，特别涉及一种文献文字检测和识别的方法。
技术介绍
目前中文OCR技术通常先检测出整个图片中的所有文字区域，然后提取文字特征、根据文字特征来识别这部分内容对应的文字。在对文献利用OCR技术进行数字化，制作成电子书时，不仅要利用OCR技术检测识别文字，还需要遵循原书的排版，为此需确定每个文字在图片中的具体坐标。此外，部分种类的文献通常还会出现繁体字，或者存在图片污渍、字体模糊，拍摄照片位置偏差严重等问题，导致准确度低。因此，需要一种准确度高的文献文字检测和识别的方法。
技术实现思路
(一)要解决的技术问题为了解决现有技术的上述问题，本专利技术提供一种准确度高且效率高的文献文字检测和识别的方法。(二)技术方案为了达到上述目的，本专利技术采用的主要技术方案包括：一种文献文字检测和识别的方法，包括步骤：S1、获取文献图片，并建立训练数据集；S2、创建第一检测模型和第一识别模型，并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练，得到训练好的第二检测模型和第二识别模型；S3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。(三)有益效果本专利技术的有益效果在于：通过获取文献图片，并建立训练数据集；创建第一检测模型和第一识别模型，并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练，得到训练好的第二检测模型和第二识别模型；...

【技术保护点】
1.一种文献文字检测和识别的方法，其特征在于，包括步骤：/nS1、获取文献图片，并建立训练数据集；/nS2、创建第一检测模型和第一识别模型，并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练，得到训练好的第二检测模型和第二识别模型；/nS3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。/n

【技术特征摘要】
1.一种文献文字检测和识别的方法，其特征在于，包括步骤：
S1、获取文献图片，并建立训练数据集；
S2、创建第一检测模型和第一识别模型，并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练，得到训练好的第二检测模型和第二识别模型；
S3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。

2.根据权利要求1所述的文献文字检测和识别的方法，其特征在于，步骤S1具体为：
获取不同版式的文献图片，并建立第一检测数据集和第一识别数据集。

3.根据权利要求2所述的文献文字检测和识别的方法，其特征在于，步骤S1还包括：
分别对所述第一检测数据集和第一识别数据集中的图片进行标记，得到第二检测数据集和第二识别数据集。

4.根据权利要求1所述的文献文字检测和识别的方法，其特征在于，步骤S2具体为：
创建第一神经网络YOLOV3检测模型和第一神经网络GoogLeNet识别模型，并通过所述训练数据集分别对所述第一神经网络YOLOV3检测模型和第一神经网络GoogLeNet识别模型进行训练，得到训练好的第二神经网络YOLOV3检测模型和第二神经网络GoogLeNet...

【专利技术属性】
技术研发人员：张雄，
申请(专利权)人：福建两岸信息技术有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人