一种文字识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:22167845 阅读:20 留言:0更新日期:2019-09-21 10:58
本申请公开了一种文字识别方法、装置、电子设备及存储介质,选取一张与待识别图片具有相同特征的图片作为模板图片,并根据选取规则,在模板图片上框选多个参照点。根据模板图片上的识别区域的位置,将待识别图片切割成多个图片块,并进行文字识别;在校验图片块上的文字信息与识别区域上的文字段信息相同的情况下,实现待识别图片的结构化文字提取,提高文字识别的准确率和效率。可见,本发明专利技术提供的方法、装置、电子设备及存储介质,可以实现对特定类型的图像文本的识别,识别效率更高。

A Character Recognition Method, Device, Electronic Equipment and Storage Media

【技术实现步骤摘要】
一种文字识别方法、装置、电子设备及存储介质
本申请涉及图像识别
,尤其涉及一种文字识别方法、装置、电子设备及存储介质。
技术介绍
公司员工在进行社交时会交换名片,公司在日常经营中也会产生大量票据,而名片和票据均为纸质形式,积累过多纸质名片和票据,存储起来占用空间,且既易丢失,又不便于目标名片或目标票据的查找。为了便于查看和保存,可将纸质名片和票据上的姓名、公司、身份证号和电话等文字信息进行识别并存储在终端中,以便于在需要时能够及时获取到相关信息。现有技术中,通常采用样本对比的识别方式来识别名片或票据上的文字信息,具体的方法包括:预先准备一个样本,并将样本上指定位置的文字框选出来,形成识别模板;再将纸质名片或票据扫描成图片,将待识别图片与识别模板进行对比,在待识别图片上的某个信息与框选位置对应的文字匹配时,该匹配的信息即为待识别图片的文字识别结果。但是,通过样本对比的识别方式进行文字识别时,需利用识别模板上的框选位置与待识别图片的全部区域进行匹配,由于匹配过程中需要进行大量的数据处理,所以会导致识别文字时花费的时间较长。
技术实现思路
本申请提供了一种文字识别方法、装置、电子设备及存储介质,以解决现有的识别方法识别效率低的问题。第一方面,本申请提供了一种文字识别方法,包括以下步骤:选择与待识别图片的特征相对应的模板图片;在所述模板图片上框选数个参照点;根据所述模板图片上的识别区域的位置,对所述待识别图片进行切割,得到多个图片块,所述识别区域为模板图片上的与待识别图片具有相同特征的区域;识别所述图片块上的文字信息;对比所述文字信息与参照点对应的识别区域上的文字段信息;在所述文字信息和文字段信息对应的文字相同的情况下,提取所述待识别图片上的文字。进一步地,所述参照点位于所述模版图片和待识别图片中的共同且位置不变的文字段处;且所述参照点位于所述模板图片的边缘和四个拐角处;且所述参照点位于所述模板图片上出现一次的文字段所在位置;且所述参照点的数量为大于等于4个;且同一所述参照点对应的文字在同一行且相邻。进一步地,根据所述模板图片上的识别区域的位置,对所述待识别图片进行切割,得到多个图片块的过程,包括:在所述模板图片上建立二维坐标系,确定每个识别区域的坐标;所述识别区域包括模板图片与待识别图片共同具有的文字段信息;根据每个所述识别区域的坐标位置,对待识别图片进行切割,得到多个图片块;其中,每个所述图片块上包括一种识别区域对应的文字段信息。进一步地,所述在文字信息和文字段信息对应的文字相同的情况下,提取所述待识别图片上的文字的过程,包括:在文字信息和文字段信息对应的文字相同的情况下,确定当前图片块为可识别图片块;根据所述可识别图片块的所在位置,确定对应的待识别位置,提取所述待识别图片的待识别位置上的文字。进一步地,还包括:根据所述参照点对待识别图片进行扭正处理,使所述待识别图片与模板图片的形状、尺寸大小相同。进一步地,还包括:对所述待识别图片进行图像增强处理,以调整所述待识别图片的光亮、对比度和曝光度。第二方面,本专利技术实施例提供了一种文字识别装置,包括:模板图片选取模块,用于选择与待识别图片的特征相对应的模板图片;参照点框选模块,用于在所述模板图片上框选数个参照点;切割模块,用于根据所述模板图片上的识别区域的位置,对所述待识别图片进行切割,得到多个图片块,所述识别区域为模板图片上的与待识别图片具有相同特征的区域;文字识别模块,用于识别所述图片块上的文字信息;信息对比模块,用于对比所述文字信息与参照点对应的识别区域上的文字段信息;文字提取模块,用于在所述文字信息和文字段信息对应的文字相同的情况下,提取所述待识别图片上的文字。进一步地,所述参照点框选模块的特征包括:所述参照点位于所述模版图片和待识别图片中的共同且位置不变的文字段处;且所述参照点位于所述模板图片的边缘和四个拐角处;且所述参照点位于所述模板图片上出现一次的文字段所在位置;且所述参照点的数量为大于等于4个;且同一所述参照点对应的文字在同一行且相邻。进一步地,所述切割模块,包括:坐标系建立单元,用于在所述模板图片上建立二维坐标系,确定每个识别区域的坐标;所述识别区域包括模板图片与待识别图片共同具有的文字段信息;切割单元,用于根据每个所述识别区域的坐标位置,对待识别图片进行切割,得到多个图片块;其中,每个所述图片块上包括一种识别区域对应的文字段信息。进一步地,所述文字提取模块,包括:可识别图片块确定单元,在文字信息和文字段信息对应的文字相同的情况下,确定当前图片块为可识别图片块;文字提取单元,用于根据所述可识别图片块的所在位置,确定对应的待识别位置,提取所述待识别图片的待识别位置上的文字。进一步地,还包括:扭正模块,用于根据所述参照点对待识别图片进行扭正处理,使所述待识别图片与模板图片的形状、尺寸大小相同。进一步地,还包括:图像处理模块,用于对所述待识别图片进行图像增强处理,以调整所述待识别图片的光亮、对比度和曝光度。第三方面,本专利技术实施例提供了一种电子设备,包括:存储器,用于存储程序指令;处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面所述的文字识别方法。第四方面,本专利技术实施例提供了一种存储介质,所述可读存储介质中存储有计算机程序,当文字识别装置的至少一个处理器执行所述计算机程序时,文字识别装置执行第一方面所述的文字识别方法。由以上技术方案可知,本专利技术实施例提供的一种文字识别方法、装置、电子设备及存储介质,选取一张与待识别图片具有相同特征的图片作为模板图片,并根据选取规则,在模板图片上框选多个参照点。根据模板图片上的识别区域的位置,将待识别图片切割成多个图片块,并进行文字识别;在校验图片块上的文字信息与识别区域上的文字段信息相同的情况下,实现待识别图片的结构化文字提取,提高文字识别的准确率和效率。可见,本专利技术提供的方法、装置、电子设备及存储介质,可以实现对特定类型的图像文本的识别,识别效率更高。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的文字识别方法的流程图;图2为本专利技术实施例提供的参照点的设置位置示意图;图3为本专利技术实施例提供的对待识别图片进行切割的方法流程图;图4为本专利技术实施例提供的建立坐标系的模板图片的示意图;图5为本专利技术实施例提供的提取待识别图片上的文字的方法流程图;图6为本专利技术实施例提供的扭正前的模板图片和待识别图片的对比示意图;图7为本专利技术实施例提供的扭正后的模板图片和待识别图片的对比示意图;图8为本专利技术实施例提供的文字识别装置的结构框图;图9为本专利技术实施例提供的电子设备的硬件结构示意图。具体实施方式图1为本专利技术实施例提供的文字识别方法的流程图。本专利技术实施例提供的一种文字识别方法,用于识别特定的一类具有固定格式的文档,例如票据、卡证、身份证等,实现对各种票据、卡证、身份证的字段名和字段值对应提取识别。该方法的执行主体可为安装OCR(OpticalCharacterRecognition,光学字符识别)软件的测试设备,如台式电脑、笔记本电脑等。参见图1,本文档来自技高网...

【技术保护点】
1.一种文字识别方法,其特征在于,包括以下步骤:选择与待识别图片的特征相对应的模板图片;在所述模板图片上框选数个参照点;根据所述模板图片上的识别区域的位置,对所述待识别图片进行切割,得到多个图片块,所述识别区域为模板图片上的与待识别图片具有相同特征的区域;识别所述图片块上的文字信息;对比所述文字信息与参照点对应的识别区域上的文字段信息;在所述文字信息和文字段信息对应的文字相同的情况下,提取所述待识别图片上的文字。

【技术特征摘要】
1.一种文字识别方法,其特征在于,包括以下步骤:选择与待识别图片的特征相对应的模板图片;在所述模板图片上框选数个参照点;根据所述模板图片上的识别区域的位置,对所述待识别图片进行切割,得到多个图片块,所述识别区域为模板图片上的与待识别图片具有相同特征的区域;识别所述图片块上的文字信息;对比所述文字信息与参照点对应的识别区域上的文字段信息;在所述文字信息和文字段信息对应的文字相同的情况下,提取所述待识别图片上的文字。2.根据权利要求1所述的方法,其特征在于,所述参照点位于所述模版图片和待识别图片中的共同且位置不变的文字段处;且所述参照点位于所述模板图片的边缘和四个拐角处;且所述参照点位于所述模板图片上出现一次的文字段所在位置;且所述参照点的数量为大于等于4个;且同一所述参照点对应的文字在同一行且相邻。3.根据权利要求1所述的方法,其特征在于,根据所述模板图片上的识别区域的位置,对所述待识别图片进行切割,得到多个图片块的过程,包括:在所述模板图片上建立二维坐标系,确定每个识别区域的坐标;所述识别区域包括模板图片与待识别图片共同具有的文字段信息;根据每个所述识别区域的坐标位置,对待识别图片进行切割,得到多个图片块;其中,每个所述图片块上包括一种识别区域对应的文字段信息。4.根据权利要求1所述的方法,其特征在于,所述在文字信息和文字段信息对应的文字相同的情况下,提取所述待识别图片上的文字的过程,包括:在文字信息和文字段信息对应的文字相同的情况下,确定当前图片块为可识别图片块;根据所述可识别图片块的所在位置,确定对应的待识别位置,提取所述待识别图片的待识别位置上的文字。5.根据权利要求1所述的方法,其特征在于,还包括:根据所述参照点对待识别图片进行扭正处理,使所述待识别图片与模板图片的形状、尺寸大小相同。6.根据权利要求1所述的方法,其特征在于,还包括:对所述待识别图片进行图像增强处理,以调整所述待识别图片的光亮、对比度和曝光度。7.一种文字识别装置,其特征在于,包括:模板图片选取模块,用于选择与待识别图片的特征相对应的模板图片;参照点框选模块,用于在所述模板图片上框选数个参照点;切割模块,用于根据所述模板图片上的识别区域的位置,对所述待识别图片...

【专利技术属性】
技术研发人员:张学军史忠伟
申请(专利权)人:五八有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1