System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及光学字符识别,尤其是指一种电力施工企业资质证照核查方法及应用。
技术介绍
1、随着对安全生产的高度重视,需要坚持不断完善电力安全监管体系和监管机制,以高水平电力安全保障能源高质量发展,来营造安全可靠的电力供应环境。但电网安全风险管控平台以企业与人员安全准入作为生产安全的首道关卡,面临着各类生产检修、施工作业现场点多面广,作业队伍繁杂,企业与相关人员的资质材料众多,人工进行企业和人员资料的录入、审核工作繁琐,安全管控难度大,难以避免主观疏漏等情况。因此,企业与人员安全准入具体面临以下两方面迫切的智能化管理需求:一是企业与人员准入智能化管理,对企业营业执照、相关作业资质证书、和作业人员身份证、保险单、体检单、作业资格证书等证明材料,实现关键字段识别与自动填写,解决用户人工重复、低效、工作量大的问题。二是企业与人员准入异常实时告警:对企业资质、法人、作业人员的证明材料的人名一致性,证件有效期,证件等级是否满足作业要求进行自动判别,实时对异常情况进行记录和预警,有效降低主观疏漏的情况。
2、在技术应用方面,现有电力施工企业资质智能识别技术多采用文字识别技术ocr,将光学字符转变为计算机能够识别的文本字符,从而识别出文字信息进行更深层次的操作,但由于中文字符拥有庞大的字符集,其字型结构也较为复杂,因此中文字符的识别技术更加困难。其次,非结构化数据处理确实存在格式错误、内容缺失、页面污染、字体模糊、内容重叠等挑战,增加了数据处理的难度和复杂性。
3、综上所述,现有的资质核查方法对电力施工企业资质智能识别
技术实现思路
1、为此,本专利技术所要解决的技术问题在于克服现有技术中由于资质真早设计字符复杂且有非结构化数据,导致无法准确对资质证照进行识别的问题。
2、为解决上述技术问题,本专利技术提供了一种电力施工企业资质证照核查方法,包括:
3、构建不同类别资质证照的数据集,得到多个匹配数据集;
4、获取待识别资质证照的图像,作为待匹配图像;
5、获取待匹配图像的所表示的资质证照的类别,并以该类别对应的匹配数据集,作为当前匹配数据集;
6、将双向lstm作为识别器集成到tesseract引擎中,获取改进tesseract引擎,并进行预训练,获取预先训练好的改进tesseract引擎;
7、利用预先训练好的改进tesseract引擎对待匹配图像进行页面布局分析,得到待匹配图像的图片区域、文字区域与表格区域;
8、对待匹配图像的文字区域进行识别,获取待匹配图像中的待匹配文字信息;
9、若在匹配数据集中,有与待匹配图像中的待匹配文字信息相匹配的数据,则判定该待识别资质证照核查通过;反之,则判定该待识别资质证照核查不通过。
10、优选地,所述不同类别资质证照包括企业的营业执照与安全生产许可证,以及作业人员的身份证、特种作业操作证、社保凭证、保险单与体检单。
11、优选地,改进tesseract引擎利用基于制表位检测的页面布局分析方法对待匹配图像进行页面布局分析;所述基于制表位检测的页面布局分析方法包括自下而上和自上而下的混合布局。
12、优选地,所述对待匹配图像的文字区域进行识别,获取待匹配图像中的待匹配文字信息,包括:
13、利用双向lstm遍历待匹配图像的文字区域中的每个字符;
14、获取所有满足预设条件的字符,存入字符列表;
15、对所有不满足预设条件的字符,利用最佳优先搜索算法再次遍历,进行字符片段重组后,存入字符列表;
16、将字符列表中所有的字符,作为待匹配图像中的待匹配文字信息;
17、所述预设条件包括预设字符清晰度、预设字体与预设字符大小。
18、优选地,利用预先训练好的改进tesseract引擎对待匹配图像进行页面布局分析前,还包括对待匹配图像进行图像预处理,包括:
19、利用cximage图像处理库对待匹配图像进行二值化、去噪与归一化;
20、利用基于文本行的倾斜检测算法来校正倾斜的待匹配图像。
21、优选地,数据集采用有向无环单词图格式存储。
22、优选地,若待识别资质证照核查不通过,则对该待识别资质证照进行人工核查。
23、优选地,预先训练好的改进tesseract引擎的获取,包括:
24、获取资质证照样本集,并进行分类,获取多种类别的数据样本集;
25、利用改进tesseract引擎对所有的资质证照进行页面布局分析,得到对应的的图片区域、文字区域与表格区域;
26、利用改进tesseract引擎将每个资质证照的图片区域转换为多个特征向量,并对所有特征向量进行序列预测,获取所有特征向量的预测标签;利用联结时序分类算法,将所有特征向量的预测标签分布转换为标签序列,得到每个资质证照图片区域的标签序列,构成标签序列样本集;
27、基于数据样本集与标签序列样本集,构造出训练样本集;
28、利用训练样本集对改进tesseract引擎进行训练,直至损失函数收敛,获取预先训练好的改进tesseract引擎。
29、优选地,所述损失函数,表示为:
30、
31、其中,x表示数据样本集,y表示标签序列样本集,s表示训练样本集;类算法得到的标签序列的时间片长度,t表示第t个时间片,1≤t≤t;b-1(1)表示输出的后验概率为1的所有路径的集合。
32、本专利技术实施例还提供了一种如上述所述的电力施工企业资质证照核查方法在电力施工管控区域准入闸机识别领域的应用。
33、本专利技术的上述技术方案相比现有技术具有以下有益效果:
34、本专利技术所述的电力施工企业资质证照核查方法,在tesseract引擎中集成了双向lstm,对页面布局分析获取的文字区域进行搜索,来获取资质证照中的文字信息,使得在识别文本时不只是识别当前单个字符,而会将之前出现的字符关联构成词语或语句来识别,在预测时也不只是预测单独的标签,而是预测一系列的对象标签;不仅加快了tesseract引擎训练复杂语言的速度,还明显提高了对文字区域中字符的识别准确性;基于准确识别出的资质证照文字信息,来识别该资质证照是否存储于已经构建的数据库中,进而判断是否通过识别,提高了资质证照识别准确性,进一步促进了安全管控的智能化、规范化与常态化,且通过智能识别判断,解决用户人工重复、低效、工作量大的问题,保证了电力施工管控区域工作现场的安全生产。
本文档来自技高网...【技术保护点】
1.一种电力施工企业资质证照核查方法,其特征在于,包括:
2.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在于,所述不同类别资质证照包括企业的营业执照与安全生产许可证,以及作业人员的身份证、特种作业操作证、社保凭证、保险单与体检单。
3.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在于,改进Tesseract引擎利用基于制表位检测的页面布局分析方法对待匹配图像进行页面布局分析;所述基于制表位检测的页面布局分析方法包括自下而上和自上而下的混合布局。
4.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在于,所述对待匹配图像的文字区域进行识别,获取待匹配图像中的待匹配文字信息,包括:
5.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在于,利用预先训练好的改进Tesseract引擎对待匹配图像进行页面布局分析前,还包括对待匹配图像进行图像预处理,包括:
6.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在于,数据集采用有向无环单词图格式存储。
7.根据权利要求1
8.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在于,预先训练好的改进Tesseract引擎的获取,包括:
9.根据权利要求8所述的电力施工企业资质证照核查方法,其特征在于,所述损失函数,表示为:
10.一种如权利要求1至9任一项所述的电力施工企业资质证照核查方法在电力施工管控区域准入闸机识别领域的应用。
...【技术特征摘要】
1.一种电力施工企业资质证照核查方法,其特征在于,包括:
2.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在于,所述不同类别资质证照包括企业的营业执照与安全生产许可证,以及作业人员的身份证、特种作业操作证、社保凭证、保险单与体检单。
3.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在于,改进tesseract引擎利用基于制表位检测的页面布局分析方法对待匹配图像进行页面布局分析;所述基于制表位检测的页面布局分析方法包括自下而上和自上而下的混合布局。
4.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在于,所述对待匹配图像的文字区域进行识别,获取待匹配图像中的待匹配文字信息,包括:
5.根据权利要求1所述的电力施工企业资质证照核查方法,其特征在...
【专利技术属性】
技术研发人员:刘兵兵,谷良,宫鑫,冯经伦,何壮壮,白建海,刘秀,安龙,韩蕊娜,高旭瑞,吴菊英,刘泽坤,杜峰,李荣胜,高启东,王瑞雪,
申请(专利权)人:国网山西省电力公司信息通信分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。