System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于环境影响评价、神经网络、深度学习、ocr识别,具体涉及一种环境评价报告表格文字识别提取方法及装置。
技术介绍
1、环评报告书,全称环境影响报告书,又称环境评价报告,是由具有相应环境影响评价资质的单位,对可能造成重大环境影响的建设项目编制的,对产生的环境影响进行全面评价的环境影响评价文件。
2、现阶段,在环保部门对项目环境影响报告书进行审核时,项目环评单位提交的报告书中依据项目类型不同,包含大量的污染物排放数据表格以及其他环境影响数据表格。通常一份环评影响报告扫描件有几百甚至上千页,其中表格数据通常在百个以上。这些页面需要专业人员根据提交内容,结合具体国家标准和行业标准依次进行核验,一方面使得环评工作人员的工作量增加,工作效率较低,另一方面也给项目审批时效带来了影响,进而影响项目实施进度。利用大模型进行机器辅助核验能够快速准确的进行项目环境影响报告书审核,但是在大模型进行机器辅助核验之前需要具有结构化的表格识别内容。对于具有几百甚至上千页的环评影响报告扫描件,如何高效的进行文字识别提取成为亟待解决的技术问题。
技术实现思路
1、为此,本专利技术提供一种环境评价报告表格文字识别提取方法及装置,能够从环境评价报告书中识别提取表格,并按表格单元格对表格文字提取识别,进而对提取识别内容进行结构化输出,以为进一步利用大模型进行机器辅助核验奠定基础。
2、为了实现上述目的,本专利技术提供如下技术方案:一种环境评价报告表格文字识别提取方法,包括以下步骤:
>3、根据预设的行业分类标准,获取指定行业环境评价报告书扫描件中环境评价数据表格的报告数据样本,利用所述报告数据样本构建指定行业的环境评价数据表格的图片数据集;
4、对指定行业的环境评价数据表格的图片数据集进行数据预处理,将数据预处理后的环境评价数据表格的图片数据集划分为第一训练集和第一验证集;
5、建立基于环境评价报告书的表格识别神经网络模型,利用所述第一训练集对所述表格识别神经网络模型进行训练,利用所述第一验证集对所述表格识别神经网络模型进行验证,生成训练验证完毕的所述表格识别神经网络模型;
6、利用训练完毕的所述表格识别神经网络模型对环境评价报告书扫描件进行识别,获取环境评价报告书中的表格定位和表格行列定位;
7、根据环境评价报告书中的表格定位和表格行列定位信息,对环境评价报告书中的表格单元格进行图像分割,得到分割后的环境评价报告书中表格单元格图像;
8、利用分割后的环境评价报告书中表格单元格图像,建立环境评价报告书中表格单元格图像的图片数据集,并将表格单元格图像的图片数据集划分为第二训练集和第二验证集;
9、建立基于环境评价报告书的字符识别神经网络模型,利用所述第二训练集对所述字符识别神经网络模型进行训练,利用所述第二验证集对所述字符识别神经网络模型进行验证,生成训练验证完毕的所述字符识别神经网络模型;
10、利用训练验证完毕的所述字符识别神经网络模型,对环境评价报告书中的每个单元格进行文字识别,得到每个单元格的文字识别结果,对每个单元格的文字识别结果进行数据矫正和清洗;
11、利用环境评价报告书中的表格定位和表格行列定位信息,及每个单元格的文字识别结果,对文字识别结果的识别内容进行结构化输出和存储。
12、作为环境评价报告表格文字识别提取方法优选方案,对指定行业的环境评价数据表格的图片数据集进行的数据预处理包括灰度归一化处理;
13、灰度归一化处理的公式为:
14、;
15、式中,为归一化处理后的单个图像像素的灰度值,为原始图像中待处理单个图像像素的灰度值,为待处理图像的最小灰度值,为待处理图像的最大灰度值,为待处理图像区间范围的最大值,为待处理图像区间范围的最小值。
16、作为环境评价报告表格文字识别提取方法优选方案,对指定行业的环境评价数据表格的图片数据集进行的数据预处理还包括数据增强处理;数据增强处理包括对指定行业的环境评价数据表格的图片数据集中的图片进行随机缩放、中心裁剪、随机水平翻转、图像去噪、二值化、和边缘检测操作中的至少一种。
17、作为环境评价报告表格文字识别提取方法优选方案,建立基于环境评价报告书的表格识别神经网络模型过程中,所述表格识别神经网络模型采用可变形cnn的快速卷积神经网络和特征金字塔网络混合模型,可变形cnn的快速卷积神经网络和特征金字塔网络混合模型的表达公式为:
18、 ;
19、式中,*为卷积运算, f为滤波器, i为图像, k定义为滤波器大小的1/2,h为图像高度,w为图像宽度, i, j为定义执行卷积的位置,定义为垂直偏移,定义为水平偏移。
20、作为环境评价报告表格文字识别提取方法优选方案,建立基于环境评价报告书的字符识别神经网络模型过程中,所述字符识别神经网络模型使用深度残差网络模型作为特征提取器,并对所述字符识别神经网络模型进行批量归一化,对所述字符识别神经网络模型进行批量归一化的公式为:
21、;
22、式中,为批量归一化的输出值,为批量归一化的输入值,为指定批次中所有样本的均值,为指定批次中所有样本的方差,ϵ为避免除零设置的常数;
23、对所述字符识别神经网络模型进行批量归一化后,还包括对批量归一化后的结果进行线性转换和平移:
24、;
25、式中,为线性转换和平移后的输出值,γ和β均为可学习参数。
26、作为环境评价报告表格文字识别提取方法优选方案,建立基于环境评价报告书的字符识别神经网络模型过程中,还包括对所述字符识别神经网络模型进行dropout正则化:
27、y=mask * x;
28、式中,y为模型输出参数值; x为模型输入参数值,mask是一个由布尔值 0 和 1 组成的向量,表示每个神经元是否被“剪枝”;
29、mask=bernoulli(p,n);
30、式中, bernoulli是二元随机变量离散概率分布函数,p为概率,n为神经元的层数,bernoulli(p,n)即表示以概率 p 采样出大小为 n 的向量。
31、作为环境评价报告表格文字识别提取方法优选方案,获取环境评价报告书中的表格定位和表格行列定位过程中:
32、获取表格内的单元格相对坐标信息,将单元格相对坐标信息整理输出为结构化数据,结构化数据的表达式为[x0,y0,x1,y1,position];
33、通过递归算法分析单元格的位置,形成position定位信息,position表示为附加本文档来自技高网...
【技术保护点】
1.一种环境评价报告表格文字识别提取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种环境评价报告表格文字识别提取方法,其特征在于,对指定行业的环境评价数据表格的图片数据集进行的数据预处理包括灰度归一化处理;
3.根据权利要求1所述的一种环境评价报告表格文字识别提取方法,其特征在于,对指定行业的环境评价数据表格的图片数据集进行的数据预处理还包括数据增强处理;数据增强处理包括对指定行业的环境评价数据表格的图片数据集中的图片进行随机缩放、中心裁剪、随机水平翻转、图像去噪、二值化、和边缘检测操作中的至少一种。
4.根据权利要求1所述的一种环境评价报告表格文字识别提取方法,其特征在于,建立基于环境评价报告书的表格识别神经网络模型过程中,所述表格识别神经网络模型采用可变形CNN的快速卷积神经网络和特征金字塔网络混合模型,可变形CNN的快速卷积神经网络和特征金字塔网络混合模型的表达公式为:
5.根据权利要求1所述的一种环境评价报告表格文字识别提取方法,其特征在于,建立基于环境评价报告书的字符识别神经网络模型过程中,所述字符识别神经网
6.根据权利要求5所述的一种环境评价报告表格文字识别提取方法,其特征在于,建立基于环境评价报告书的字符识别神经网络模型过程中,还包括对所述字符识别神经网络模型进行Dropout正则化:
7.根据权利要求1所述的一种环境评价报告表格文字识别提取方法,其特征在于,获取环境评价报告书中的表格定位和表格行列定位过程中:
8.一种环境评价报告表格文字识别提取装置,其特征在于,包括:
9.根据权利要求8所述的一种环境评价报告表格文字识别提取装置,其特征在于,所述表格图片数据集处理模块中,对指定行业的环境评价数据表格的图片数据集进行的数据预处理包括灰度归一化处理;
10.根据权利要求8所述的一种环境评价报告表格文字识别提取装置,其特征在于,所述表格识别神经网络模型构建模块中:
...【技术特征摘要】
1.一种环境评价报告表格文字识别提取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种环境评价报告表格文字识别提取方法,其特征在于,对指定行业的环境评价数据表格的图片数据集进行的数据预处理包括灰度归一化处理;
3.根据权利要求1所述的一种环境评价报告表格文字识别提取方法,其特征在于,对指定行业的环境评价数据表格的图片数据集进行的数据预处理还包括数据增强处理;数据增强处理包括对指定行业的环境评价数据表格的图片数据集中的图片进行随机缩放、中心裁剪、随机水平翻转、图像去噪、二值化、和边缘检测操作中的至少一种。
4.根据权利要求1所述的一种环境评价报告表格文字识别提取方法,其特征在于,建立基于环境评价报告书的表格识别神经网络模型过程中,所述表格识别神经网络模型采用可变形cnn的快速卷积神经网络和特征金字塔网络混合模型,可变形cnn的快速卷积神经网络和特征金字塔网络混合模型的表达公式为:
5.根据权利要求1所述的一种环境评价报告表格文字识别提取方法,其特征在于,建立基于...
【专利技术属性】
技术研发人员:戴祥麟,徐晓平,陈慧,王芳,孙国浩,
申请(专利权)人:应辉环境科技服务烟台有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。