System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及核电厂文档光学字符识别,尤其涉及一种核电厂文档光学字符识别系统和方法。
技术介绍
1、随着数字化核电建设的不断推进,各种核电业务流程实现电子化,核电文档业务数据作为一种数据资产被记录和应用,核电文档管理流程涵盖从文件的形成、传输、管理、归档、保管、利用及鉴定、处置的全过程,通过技术手段或信息系统实施全过程的管理域监控。但是,在基于云计算的核电信息化文档系统不断的发展迭代过程中,仍然存在以下问题,在应用文档信息化系统之前,文档管理采用柜架式保存,目前虽然核电厂采用了文档管理信息化系统,但是之前的文档资料本身仍以纸质形式存在,文档管理员要将纸质文档资料手工录入系统,为了将这些数量巨大、种类繁多的工作报告、许可证等核电文档输入计算机系统,需要进行相应的数据录入工作。
2、在现阶段,传统的手工录入仍然是主要的工作方式,需要投入大量的成本和时间,不仅提高了运营成本,而且录入速度也难以提升,错误率也很难降低,对提高业务处理时效、提升核电文档业务处理效率带来了负面影响。当前ocr技术分为基于传统算法与深度学习的方法,由于核电文档种类多、文档的分布复杂等原因,现有技术针对核电文档录入场景ocr文本分割与识别准确率不高。
技术实现思路
1、本专利技术的目的在于提供一种核电厂文档光学字符识别系统和方法,解决传统系统和方法依赖人工录入、后续处理较多,无法满足实际需求的问题。
2、为了实现上述目的,本专利技术提供如下技术方案:
3、一种核电厂文档光学字符识
4、请求接收模块:用于对用户通过终端发送的数据进行分析;
5、数据解析模块:用于对用户发送的图片数据信息进行解析;
6、核电文档图像预处理模块:用于对图像格式的数据进行预处理;
7、字符识别模块:用于对进行预处理后的核电文档图像进行字符识别。
8、核电厂文档光学字符识别系统还包括查询答复模块:用于答复用户输入信息,若用户输入信息满足要求,经过文本识别得到相应格式的返回数据后,向请求终端发送对应格式文件,完核电文档光学字符识别;若用户输入文档信息不满足要求,则返回错误提示。
9、进一步地,请求接收模块对图片base64编码、请求数量、大小、返回格式等属性进行分析并处理。
10、进一步地,数据解析模块对用户发送的图片数据信息进行解析,并将图片base64编码格式转换为图像格式。
11、进一步地,预处理包括二值化处理、平滑去噪处理、倾斜校正处理。
12、进一步地,字符识包括文本识别、表格识别,文本识别采用gru神经网络与ctc解码机制结合的神经网络模型提取文本区域图像中的具体文本内容,表格识别采用既定模板的形式,用户设定自定义识别模板,根据文本识别出的内容及顺序,向表格中填入识别后的文本信息,根据接收请求的返回格式,将识别内容转换为相应格式。
13、一种核电厂文档光学字符识别方法,包括以下步骤:
14、步骤1:接收用户发送的寻找核电文档光学字符识别请求,读取文件属性,根据文件属性对请求进行分析并处理,若出现文件类型不符合、文件数量过多、文件大小过大情况,则进入步骤5;
15、步骤2:如果请求接收模块中文件属性满足要求,响应请求,读取用户发送的核电文件属性信息,并对用户发送的图片数据信息进行解析,并将图片base64编码格式转换为图像格式;
16、步骤3:读取核电文档图像,对图像格式的数据进行预处理;
17、步骤4:对进行预处理后的核电文档图像进行字符识别;
18、步骤5:若用户输入信息满足要求,经过文本识别得到相应格式的返回数据后,向请求终端发送对应格式文件,完核电文档光学字符识别;若用户输入文档不满足要求,则返回错误提示。
19、步骤1中,文件属性包括图片编码、图片数量、图片大小、识别方式、返回类型。
20、步骤3中,依次对核电文档图像进行二值化处理、平滑去噪处理、倾斜校正处理,基于给定的核电文档图像,对图像进行全局二值化处理。
21、进一步地,采用图像平滑去噪方法,采用均值滤波模板,对图像中的噪声进行去除。
22、进一步地,图像倾斜校正处理对于平面倾斜,先利用roberts算子进行图像的边缘检测,利用radon变换法找到倾斜角度,再利用仿射变换进行旋转。
23、步骤4中,字符识别包括文本识别、表格识别,若用户请求中,识别方式选择了文本识别,则使用gru神经网络与ctc解码机制结合的神经网络模型提取文本区域图像中的具体文本内容,若用户请求中,识别方式选择了表格识别,则根据既定模板,根据文本识别识别出的内容及顺序,向模板表格中填入识别后的文本信息,根据接收请求的返回格式,将识别内容转换为相应格式。
24、与现有技术相比,本专利技术提供的核电厂文档光学字符识别系统和方法具有以下有益效果:
25、本申请基于gru神经网络与ctc解码机制的核电厂文档光学字符识别方法,通过核电文档图像数据对神经网络模型进行训练,并通过ctc解码机制,一方面,在核电厂厂内环境下,文字监测图像受摄像头位置不固定、背景信息复杂、厂内工况变化等各种因素影响,从而导致红外触发相机监测到的图像存在着误触发现象,导致服务器终端对图像进行分类时不能准确识别。另一方面,由于核电厂图像公开数据集少、处理数据量大,本专利技术针对现有gru神经网络在图像处理方面存在的不足进行改进,引入了ctc解码机制,能对图像进行有效特征提取,大幅提升了gru电路在核电厂光学字符识别方面的准确率。
26、本专利技术提出了基于gru神经网络与ctc解码机制的光学字符识别方法及系统,改善了传统方法人工图片录入及模型泛化能力弱的问题,在核电光学字符识别领域,引入了gru神经网络与ctc解码机制,提高核电光学字符识别系统的效率及增强核电领域ocr模型通用性。
本文档来自技高网...【技术保护点】
1.一种核电厂文档光学字符识别系统,其特征在于,包括:
2.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,还包括查询答复模块:用于答复用户输入信息,若用户输入信息满足要求,经过文本识别得到相应格式的返回数据后,向请求终端发送对应格式文件,完核电文档光学字符识别;若用户输入文档信息不满足要求,则返回错误提示。
3.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,请求接收模块对图片base64编码、请求数量、大小、返回格式等属性进行分析并处理。
4.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,数据解析模块对用户发送的图片数据信息进行解析,并将图片base64编码格式转换为图像格式。
5.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,预处理包括二值化处理、平滑去噪处理、倾斜校正处理。
6.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,字符识包括文本识别、表格识别,文本识别采用GRU神经网络与CTC解码机制结合的神经网络模型提取文本区域图像中的具体文本内容,表
7.一种核电厂文档光学字符识别方法,其特征在于,包括以下步骤:
8.根据权利要求7所述的核电厂文档光学字符识别系统,其特征在于,步骤1中,文件属性包括图片编码、图片数量、图片大小、识别方式、返回类型。
9.根据权利要求7所述的核电厂文档光学字符识别系统,其特征在于,步骤3中,依次对核电文档图像进行二值化处理、平滑去噪处理、倾斜校正处理,基于给定的核电文档图像,对图像进行全局二值化处理。
10.根据权利要求9所述的核电厂文档光学字符识别系统,其特征在于,采用图像平滑去噪方法,采用均值滤波模板,对图像中的噪声进行去除。
11.根据权利要求7所述的核电厂文档光学字符识别系统,其特征在于,图像倾斜校正处理对于平面倾斜,先利用Roberts算子进行图像的边缘检测,利用Radon变换法找到倾斜角度,再利用仿射变换进行旋转。
12.根据权利要求7所述的核电厂文档光学字符识别系统,其特征在于,步骤4中,字符识别包括文本识别、表格识别,若用户请求中,识别方式选择了文本识别,则使用GRU神经网络与CTC解码机制结合的神经网络模型提取文本区域图像中的具体文本内容,若用户请求中,识别方式选择了表格识别,则根据既定模板,根据文本识别识别出的内容及顺序,向模板表格中填入识别后的文本信息,根据接收请求的返回格式,将识别内容转换为相应格式。
...【技术特征摘要】
1.一种核电厂文档光学字符识别系统,其特征在于,包括:
2.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,还包括查询答复模块:用于答复用户输入信息,若用户输入信息满足要求,经过文本识别得到相应格式的返回数据后,向请求终端发送对应格式文件,完核电文档光学字符识别;若用户输入文档信息不满足要求,则返回错误提示。
3.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,请求接收模块对图片base64编码、请求数量、大小、返回格式等属性进行分析并处理。
4.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,数据解析模块对用户发送的图片数据信息进行解析,并将图片base64编码格式转换为图像格式。
5.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,预处理包括二值化处理、平滑去噪处理、倾斜校正处理。
6.根据权利要求1所述的核电厂文档光学字符识别系统,其特征在于,字符识包括文本识别、表格识别,文本识别采用gru神经网络与ctc解码机制结合的神经网络模型提取文本区域图像中的具体文本内容,表格识别采用既定模板的形式,用户设定自定义识别模板,根据文本识别出的内容及顺序,向表格中填入识别后的文本信息,根据接收请求的返回格式,将识别内容转换为相应格式。
7.一种核...
【专利技术属性】
技术研发人员:李志昂,李杰,陈武,汪骥宇,任增朋,李武平,
申请(专利权)人:核动力运行研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。