一种自定义票据的识别方法、设备及介质技术

技术编号:32133727 阅读:21 留言:0更新日期:2022-01-29 19:38
本申请公开了一种自定义票据的识别方法、设备及介质,方法包括:接收票据模板图像,并根据票据模板图像确定参照字段、识别字段区域;并从识别模型库中确定对应的指定识别模型,并匹配对应的高频词汇,以通过高频词汇对识别结果进行修正;构建自定义票据识别模板,并将自定义票据识别模板进行分类存储;接收识别服务请求,并根据识别服务请求,在对应的启动端口加载自定义票据识别模板;接收自定义票据,并通过自定义票据识别模板对自定义票据图像进行识别处理,得到识别结果。对此类票据在保证一定识别精度基础上,极大降低了开发时长,可以使用户快速得到所需求的识别模板。以使用户快速得到所需求的识别模板。以使用户快速得到所需求的识别模板。

【技术实现步骤摘要】
一种自定义票据的识别方法、设备及介质


[0001]本申请涉及图像识别领域,具体涉及一种自定义票据的识别方法、设备及介质。

技术介绍

[0002]随着现代企业的发展,越来越多的企业会根据自身业务或行政流程设计多种专用于内部记录或上报的自定义单据。企业中需要填报的自定义单据很多,在工作人员对收取的自定义单据进行汇总时,通常采用手写的方式进行记录,很容易导致汇总记录不准确,同时浪费人力资源的情况。
[0003]因此,企业通常采用单据识别技术来代替人力,进行单据识别并汇总。然而,能实现单据识别的现有技术中,只能支持对固定类型的单据进行识别,难以满足实际需求。
[0004]此外,识别模型开发平台在对自定义单据对应的识别模型开发时,存在开发周期长的问题,当企业的自定义单据类型较多时,开发平台难以快速开发出自定义单据对应的识别模型。

技术实现思路

[0005]为了解决上述问题,即为了解决工作人员通过手写方式汇总单据,容易导致汇总记录不准确、浪费人力资源的问题,以及通过智能识别的方式对自定义单据进行识别难以满足实际需求,以及开发平台难以在短时间内开发得到大量自定义单据对应的识别模型的问题,本申请提出了一种自定义票据的识别方法、设备及介质,包括:一方面,本申请提供了一种自定义票据的识别方法,包括:接收票据模板图像,并根据所述票据模板图像确定对应的参照字段、识别字段区域;根据所述参照字段、所述识别字段区域,从识别模型库中确定对应的指定识别模型,并为所述指定识别模型匹配对应的高频词汇,以通过所述高频词汇对识别结果进行修正,其中,所述高频词汇为所述参照字段以及所述识别字段区域中出现频率大于预设阈值的词汇;根据所述票据模板图像、所述参照字段、所述识别字段区域、所述指定识别模型以及所述高频词汇,构建自定义票据识别模板,并将所述自定义票据识别模板进行分类存储;接收识别服务请求,并根据所述识别服务请求,在对应的启动端口加载所述自定义票据识别模板;接收自定义票据图像,并通过所述自定义票据识别模板对所述自定义票据图像进行识别处理,得到识别结果。
[0006]在一个示例中,接收自定义票据图像,并通过所述自定义票据识别模板对所述自定义票据图像进行识别处理,得到识别结果之前,所述方法还包括:对所述自定义票据图像进行图像优化处理,所述图像优化处理至少包括:去噪、锐化、调整亮度、平滑缩放;对所述自定义票据图像进行第一位置检测,并根据检测结果对所述自定义票据进行第一预设角度旋转处理;对所述自定义票据图像进行文本区域检测,以得到多个文本区域,并根据所述多个文本区域对所述自定义票据图像进行裁剪,得到与所述多个文本区域相同数量的多个子图像;对所述多个子图像进行第二位置检测,并根据检测结果对所述多个子图像进行第二预设角度旋转处理;确定所述多个子图像分别对应的留白区域,并对所述留白区域进行裁
剪,所述留白区域为不包含文本的区域。
[0007]在一个示例中,接收自定义票据图像,并通过所述自定义票据识别模板对所述自定义票据图像进行识别处理,得到识别结果,具体包括:接收自定义票据图像,并通过所述指定识别模型对所述自定义票据图像进行第一识别,得到多个第一识别后的字段;将所述多个第一识别后的字段与所述参照字段进行比对,得到多个相同字段,并根据预设分配策略为所述多个相同字段分组,得到多组相同字段;根据所述参照字段中的预设基准点对所述多组相同字段分别进行透视校正处理,并对多个透视结果进行整合处理,得到透视处理后的自定义票据图像;为所述票据模板图像以及所述透视处理后的自定义票据图像,构建相同的坐标系,并通过所述识别字段区域在所述票据模板图像中的坐标,确定所述透视处理后的自定义票据图像中的待识别区域;通过所述指定识别模型对所述待识别区域进行第二识别,得到多个第二识别后的字段;根据所述高频词汇对所述第二识别后的字段进行修正,得到识别结果。
[0008]在一个示例中,根据所述票据模板图像、所述参照字段、所述识别字段区域、所述指定识别模型以及所述高频词汇,构建自定义票据识别模板,并将所述自定义票据识别模板进行分类存储之后,所述方法还包括:接收部署指令,并根据所述部署指令读取所述自定义票据识别模板,以生成指定识别模型配置文件以及识别服务配置文件,所述指定识别模型配置文件至少包括所述指定识别模型的参数信息,所述识别服务配置文件至少包括所述票据模板图像、所述参照字段、所述识别字段区域以及所述高频字段分别对应的参数信息;根据预存的端口启动策略,得到所述自定义票据识别模板的启动端口,并将所述启动端口存储至所述指定识别模型配置文件以及所述识别服务配置文件中;根据所述指定识别模型配置文件获取所述指定识别模型的所需显存,并将所述显存对应的调取指令以及所述指定识别模型配置文件的文件位置添加至第一启动脚本;将所述识别服务配置文件的文件位置添加至第二启动脚本。
[0009]在一个示例中,接收识别服务请求,并根据所述识别服务请求,在对应的启动端口加载所述自定义票据识别模板,具体包括:接收识别服务请求,并根据所述识别服务请求,确定对应的所述自定义票据识别模板;运行所述第一启动脚本以及所述第二启动脚本;为所述启动端口分配所述显存的资源,并在所述启动端口处加载所述指定识别模型、所述票据模板图像、所述参照字段、所述识别字段区域以及所述高频字段。
[0010]在一个示例中,将所述识别服务配置文件的文件位置添加至第二启动脚本之后,所述方法还包括:接收停止服务指令,并根据所述停止服务指令将所述第一脚本以及所述第二脚本删除,以及将所述识别模型配置文件以及识别服务配置文件中的内容删除;根据所述停止服务指令,将所述分类存储后的所述自定义票据识别模板从数据库删除,释放存储资源。
[0011]在一个示例中,将所述识别服务配置文件的文件位置添加至第二启动脚本之后,所述方法还包括:接收服务导出指令,并根据所述服务导出指令将所述识别模型配置文件、所述识别服务配置文件、所述第一启动脚本以及所述第二启动脚本进行打包处理,得到打包处理后的启动文件;确定文件下载接口,并将所述打包处理后的启动文件加载至所述文件下载接口。
[0012]在一个示例中,所述方法还包括:获取内存以及显存的占用情况,以及获取所述指
定识别模型的运行数量,以及获取所述自定义票据识别模板的运行状态;根据所述占用情况、所述运行数量以及所述运行状态,构建动态图表,并将所述动态图表发送至前端设备,以通过所述前端设备展示。
[0013]另一方面,本申请还提供了一种自定义票据的识别设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如下指令:接收票据模板图像,并根据所述票据模板图像确定对应的参照字段、识别字段区域;根据所述参照字段、所述识别字段区域,从识别模型库中确定对应的指定识别模型,并为所述指定识别模型匹配对应的高频词汇,以通过所述高频词汇对识别结果进行修正,其中,所述高频词汇为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自定义票据的识别方法,其特征在于,包括:接收票据模板图像,并根据所述票据模板图像确定对应的参照字段、识别字段区域;根据所述参照字段、所述识别字段区域,从识别模型库中确定对应的指定识别模型,并为所述指定识别模型匹配对应的高频词汇,以通过所述高频词汇对识别结果进行修正,其中,所述高频词汇为所述参照字段以及所述识别字段区域中出现频率大于预设阈值的词汇;根据所述票据模板图像、所述参照字段、所述识别字段区域、所述指定识别模型以及所述高频词汇,构建自定义票据识别模板,并将所述自定义票据识别模板进行分类存储;接收识别服务请求,并根据所述识别服务请求,在对应的启动端口加载所述自定义票据识别模板;接收自定义票据图像,并通过所述自定义票据识别模板对所述自定义票据图像进行识别处理,得到识别结果。2.根据权利要求1所述的一种自定义票据的识别方法,其特征在于,接收自定义票据图像,并通过所述自定义票据识别模板对所述自定义票据图像进行识别处理,得到识别结果之前,所述方法还包括:对所述自定义票据图像进行图像优化处理,所述图像优化处理至少包括:去噪、锐化、调整亮度、平滑缩放;对所述自定义票据图像进行第一位置检测,并根据检测结果对所述自定义票据进行第一预设角度旋转处理;对所述自定义票据图像进行文本区域检测,以得到多个文本区域,并根据所述多个文本区域对所述自定义票据图像进行裁剪,得到与所述多个文本区域相同数量的多个子图像;对所述多个子图像进行第二位置检测,并根据检测结果对所述多个子图像进行第二预设角度旋转处理;确定所述多个子图像分别对应的留白区域,并对所述留白区域进行裁剪,所述留白区域为不包含文本的区域。3.根据权利要求1所述的一种自定义票据的识别方法,其特征在于,接收自定义票据图像,并通过所述自定义票据识别模板对所述自定义票据图像进行识别处理,得到识别结果,具体包括:接受自定义票据图像,并通过所述指定识别模型对所述自定义票据图像进行第一识别,得到多个第一识别后的字段;将所述多个第一识别后的字段与所述参照字段进行比对,得到多个相同字段,并根据预设分配策略为所述多个相同字段分组,得到多组相同字段;根据所述参照字段中的预设基准点对所述多组相同字段分别进行透视校正处理,并对多个透视结果进行整合处理,得到透视处理后的自定义票据图像;为所述票据模板图像以及所述透视处理后的自定义票据图像,构建相同的坐标系,并通过所述识别字段区域在所述票据模板图像中的坐标,确定所述透视处理后的自定义票据图像中的待识别区域;通过所述指定识别模型对所述待识别区域进行第二识别,得到多个第二识别后的字
段;根据所述高频词汇对所述第二识别后的字段进行修正,得到识别结果。4.根据权利要求1所述的一种自定义票据的识别方法,其特征在于,根据所述票据模板图像、所述参照字段、所述识别字段区域、所述指定识别模型以及所述高频词汇,构建自定义票据识别模板,并将所述自定义票据识别模板进行分类存储之后,所述方法还包括:接收部署指令,并根据所述部署指令读取所述自定义票据识别模板,以生成指定识别模型配置文件以及识别服务配置文件,所述指定识别模型配置文件至少包括所述指定识别模型的参数信息,所述识别服务配置文件至少包括所述票据模板图像、所述参照字段、所述识别字段区域以及所述高频字段分别对应的参数信息;根据预存的端口启动策略,得到所述自定义票据识别模板的启动端口,并将所述启动端口存储至所述指定识别模型配置文件以及所述识别服务配置文件中;根据所述指定识别模型配置文件获取所述指定识别模型的所需显存,并将所述显存对应的调取指令以及所述指定识别模型配置文件的文件位置添加至第一启动脚本;将所述识别服务配置文件的文件位置添加至第二启动脚...

【专利技术属性】
技术研发人员:王雪飞
申请(专利权)人:浪潮通用软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1