一种印章文字的识别方法以及系统技术方案

技术编号:32785149 阅读:14 留言:0更新日期:2022-03-23 19:44
本发明专利技术提供了一种印章文字的识别方法以及系统,所述识别方法包括:对印章检测得到印章切片图像,依次进行分类预测、去噪、文字检测以及文字识别的步骤,然后输出文字识别结果;对检测得到的印章切片图像进行特征提取得到特征向量,与印章底库进行相似度计算后输出匹配结果信息TopN,最后将匹配结果TopN与文字识别结果进行相似度计算,根据逻辑判断输出最终的印章文字信息。本发明专利技术的识别方法提出了一套印章文字识别的流程,结合图片特征模板匹配与文字识别实现印章文字的精确识别。文字识别实现印章文字的精确识别。文字识别实现印章文字的精确识别。

【技术实现步骤摘要】
一种印章文字的识别方法以及系统


[0001]本专利技术涉及印章文字处理领域,具体而言,涉及一种印章文字的识别方法以及系统。

技术介绍

[0002]印章作为一种标记信物,在各级国家部门、组织机构以及企事业单中有着举足轻重的地位。尤其是在金融公司、银行和政府事业单位中,印章使用的次数最为频繁,而与之对应的带有印章的文件也就更为多种多样且数量巨大,随之而来的识别处理带有印章的文件所需要的人力也就愈加庞大,这使得相关工作人员工作效率大大降低。随着图像处理技术发展,光学字符识别(Optical Character Recognition,OCR)等技术也取得了巨大的发展,OCR技术能对文本资料的图像文件进行分析识别处理,获取文字及版面信息,即将图像中的文字进行识别,并以文本的形式返回。同时随着电子化与无纸化办公的进一步普及,印章电子化也成为一种趋势。如果能够使用图像处理与光学字符识别的相关技术对中文印章内的文字进行检测与识别,使用机器快速地对印章的内容进行检测与分类,可以有效地提高文档分类的效率与准确率,节省人力,具有巨大的应用价值。
[0003]现有技术中的印章文字识别的难点在于:(1)文档中盖章的背景多种多样,这些噪声对印章上的文字识别造成很大干扰;(2)印章样式多样,对不同样式印章的文字识别是一个难点。
[0004]有鉴于此,特提出本专利技术。

技术实现思路

[0005]有鉴于此,本专利技术公开了一种印章文字的识别方法以及系统,该识别方法提出了一套印章文字识别的流程,结合图片特征模板匹配与文字识别实现印章文字的精确识别。
[0006]具体地,本专利技术是通过以下技术方案实现的:
[0007]第一方面,本专利技术公开了一种印章文字的识别方法,所述方法包括:
[0008]对印章检测得到印章切片图像,依次进行分类预测、去噪、文字检测以及文字识别的步骤,然后输出文字识别结果;
[0009]对检测得到的印章切片图像进行特征提取得到特征向量,与印章底库进行相似度计算后输出匹配结果信息TopN。
[0010]第二方面,本专利技术公开了一种印章文字的识别系统,包括:
[0011]文字识别模块:用于对印章检测得到印章切片图像,依次进行分类预测、去噪、文字检测以及文字识别的步骤,然后输出文字识别结果;
[0012]特征匹配模块:用于对检测得到的印章切片图像进行特征提取得到特征向量,与印章底库进行相似度计算后输出匹配结果信息TopN。
[0013]第三方面,本专利技术公开了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述印章文字识别的方法的步骤。
[0014]第四方面,本专利技术公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述印章文字识别方法的步骤。
[0015]本专利技术结合特征匹配结合印章文字识别得到印章文字信息。在印章场景下优化文字识别功能:其一,包容印章多样性,目标检测和印章文字检测方法兼容不同颜色、不同形状的印章目标;其二,针对复杂的印章背景,在文字识别中进行去除背景噪声处理,排除噪声干扰;同时考虑图像特征的优势,采用印章匹配方法共同实现印章文字识别。且本专利技术方法的应用不限于某一具体样式和颜色的印章,对复杂的背景噪声干扰有很好的鲁棒性,因而能适应不同样式的印章文字信息的提取,彻底提高了繁杂印章信息处理的效率和智能化水平。
[0016]本专利技术的方法其实是分成两个分支共同完成最终的目的。
[0017]分支一为文字识别流程,(1)文字识别包容印章样式的多样性,对输入的印章进行分类然后采用不同的文字检测方法精准定位文字区域坐标,为文字识别提供一个全面的文字信息区域。(2)针对印章的背景噪声对文字识别产生的干扰,在印章文字检测前对印章图像进行去噪处理,这给文字识别准确度提供了一个保障。
[0018]分支二为印章特征匹配。考虑到图像本身的特征有很好的区分度,本方法采用图像特征匹配的方法输出最大概率的匹配结果。通过卷积神经网络模型提取印章切片图像的特征向量与底库对应的特征向量进行比较,计算图像与底库特征向量之间的距离,用最小距离法判定所属类别。两各分支分别输出文字识别结果和匹配结果,经过逻辑判断得到最终的文字信息。
附图说明
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020]图1为本专利技术实施例提供的印章文字的识别方法的流程示意图;
[0021]图2为本专利技术实施例提供的印章文字的识别系统的结构示意图;
[0022]图3为本专利技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0023]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0024]在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0025]应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这
些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0026]本专利技术公开了一种印章文字的识别方法,所述方法包括:
[0027]对印章检测得到印章切片图像,依次进行分类预测、去噪、文字检测以及文字识别的步骤,然后输出文字识别结果;
[0028]对检测得到的印章切片图像进行特征提取得到特征向量,与印章底库进行相似度计算后输出匹配结果信息TopN。
[0029]图1为本专利技术实施例公开的印章文字的识别方法的流程图,参照图1所示,所述方法包括如下步骤:
[0030]步骤1为印章检测。首先对图像中印章进行检测,本专利技术使用yolov4进行印章目标检测,得到印章切片图像,再进行下一步印章分类。
[0031]步骤2为印章分类。对步骤1得到的印章图像进行分类。由于方章与圆(椭圆)章的文字条方向多有不同,为精确定位印章文字信息会采用不同的方法对不同类型的印章进行文字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种印章文字的识别方法,其特征在于,包括如下步骤:对印章检测得到印章切片图像,依次进行分类预测、去噪、文字检测以及文字识别的步骤,然后输出文字识别结果;对检测得到的印章切片图像进行特征提取得到特征向量,与印章底库进行相似度计算后输出匹配结果信息TopN。2.根据权利要求1所述的印章文字的识别方法,其特征在于,与印章底库进行相似度计算的方法包括:若存在TopN分数大于Thr1,则将符合该阈值的标签列表与所述文字识别结果进行相似度计算,否则输出文字识别结果;将符合阈值的n个标签与所述文字识别结果计算最小编辑距离,排序获得n个相似度分数CTopN,若存在CTopN分数大于Thr2,则输出CTopN中的CTop1的标签信息,否则输出文字识别结果。3.根据权利要求1所述的印章文字的识别方法,其特征在于,特征提取的过程中先对特征提取模型进行训练,训练的基本网络结构采用孪生网络,并使用triple loss进行训练参数调整。4.根据权利要求1所述的印章文字的识别方法,其特征在于,所述分类预测采用VGG16二分类网络模型进行。...

【专利技术属性】
技术研发人员:王琦琦陈鸣姬晴晴
申请(专利权)人:金科览智科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1