本发明专利技术涉及文档检测技术领域,具体公开了一种电子工程文档真实性验证方法和系统,所述方法包括根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;对所有信息进行识别,统计识别结果,生成真实度;上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。本发明专利技术在对电子文档进行识别的过程中,实时生成干扰项,尽量保证识别性能的同时,提高了安全性。提高了安全性。提高了安全性。
【技术实现步骤摘要】
一种电子工程文档真实性验证方法和系统
[0001]本专利技术涉及文档检测
,具体是一种电子工程文档真实性验证方法和系统。
技术介绍
[0002]电子文档(Electronic document)是指人们在社会活动中形成的,以计算机盘片、磁盘和光盘等化学磁性材料为载体的文字材料。依赖计算机系统存取并可在通信网络上传输。它主要包括电子文书、电子信件、电子报表、电子图纸等等。
[0003]电子文档的便捷性一方面在于其便捷性,无论是填写速度还是传输速度;另一方面在于其安全性,对于电子文档的审查可以借助现有的智能识别技术,它与传统的人工识别技术相比,不会“疲劳”,结合人工检测,可以使得电子文档的检测过程更加全面。
[0004]但是,现有的电子文档检测方法大都是基于预设的算法,在这些算法工作的过程中,根据计算机后台的进程运行情况,很容易确定算法的位置及相关的执行特征,使得电子文档的检测方法存在被破译的可能,因此,如何进一步提高安全性是本专利技术技术方案想要解决的技术问题。
技术实现思路
[0005]本专利技术的目的在于提供一种电子工程文档真实性验证方法和系统,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种电子工程文档真实性验证方法,所述方法包括:
[0008]根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;
[0009]根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;
[0010]对所有信息进行识别,统计识别结果,生成真实度;
[0011]上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。
[0012]作为本专利技术进一步的方案:所述根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档的步骤包括:
[0013]建立与各文档接口对应的缓存区;
[0014]将文档接口获取到的含有标签信息的电子工程文档输入所述缓存区,并记录获取时间;
[0015]根据所述文档接口的预设的遍历线程和所述获取时间提取所述缓存区中的电子工程文档;
[0016]根据标签信息遍历预设的模板库,查询对应的基准文件;所述模板库中包括标签信息项和基准文档项。
[0017]作为本专利技术进一步的方案:所述根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
[0018]依次读取基准文件的区域切分网格;所述区域切分网格为矩形网格,其位置信息包括页码和顶点在该页码中的坐标;
[0019]依次提取区域切分网格中的内容,判断内容类型;所述内容类型包括文本类型和图像类型;
[0020]基于所述内容类型在备案的方式库读取查询方式;
[0021]基于所述查询方式提取所述电子工程文档中的信息。
[0022]作为本专利技术进一步的方案:所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
[0023]当所述内容类型为文本类型时,在所述电子工程文档中标记与区域切分网格对应的待检网格;
[0024]根据训练好的文本识别模型提取所述待检网格中的文本内容,将所述文本内容输入预设的字词识别模型,得到文本内容中各字词的类型;所述类型包括虚词、名词和描述词;
[0025]根据文本内容的顺序提取并排列得到的类型,得到文本内容的文本架构;
[0026]根据所述文本架构判定文本内容的正确率;
[0027]根据所述正确率缩放所述待检网络,重复上述内容直至所述正确率达到预设的正确率阈值。
[0028]作为本专利技术进一步的方案:所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
[0029]当所述内容类型为图像类型时,在所述电子工程文档中标记与区域切分网格对应的待检网格;
[0030]根据训练好的图像识别算法定位目标图像,并提取目标图像中的轮廓特征和色值特征;所述轮廓特征用于表征目标图像中的边界位置,所述色值特征用于表征目标图像在预设的遍历方向下的色值参数;
[0031]将所述轮廓特征和所述色值特征输入训练好的简化统计模型,输出图像特征。
[0032]作为本专利技术进一步的方案:所述对所有信息进行识别,统计识别结果,生成真实度的步骤包括:
[0033]读取提取到的信息及其区域切分网格的位置信息;
[0034]根据位置信息查询参考信息,比对所述信息和参考信息,确定第一真实度;
[0035]当所述第一真实度小于预设的真实度阈值时,将信息向人工端发送;
[0036]接收人工端反馈的第二真实度。
[0037]作为本专利技术进一步的方案:所述根据预设的波动生成规则实时生成波动干扰的步骤包括:
[0038]实时监测步骤执行过程中的进程数及其CPU占用率;
[0039]根据所述CPU占用率随机生成虚拟进程;
[0040]其中,所述虚拟进程的进程数与执行过程中的进程数的比值为预设值;多个虚拟进程中仅有一个虚拟进程的CPU占用率达到执行过程中各进程的最大CPU占用率,且随机选
取;所述虚拟进程的执行时间窗为随机值。
[0041]本专利技术技术方案还提供了一种电子工程文档真实性验证系统,所述系统包括:
[0042]基准文档查询模块,用于根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;
[0043]信息提取模块,用于根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;
[0044]真实度生成模块,用于对所有信息进行识别,统计识别结果,生成真实度;
[0045]上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。
[0046]作为本专利技术进一步的方案:所述基准文档查询模块包括:
[0047]缓存区建立单元,用于建立与各文档接口对应的缓存区;
[0048]数据获取单元,用于将文档接口获取到的含有标签信息的电子工程文档输入所述缓存区,并记录获取时间;
[0049]数据提取单元,用于根据所述文档接口的预设的遍历线程和所述获取时间提取所述缓存区中的电子工程文档;
[0050]遍历查询单元,用于根据标签信息遍历预设的模板库,查询对应的基准文件;所述模板库中包括标签信息项和基准文档项。
[0051]作为本专利技术进一步的方案:所述信息提取模块包括:
[0052]网络读取单元,用于依次读取基准文件的区域切分网格;所述区域切分网格为矩形网格,其位置信息包括页码和顶点在该页码中的坐标;
[0053]类型判定单元,用于依次提取区域切分网格中的内容,判断内容类型;所述内容类型包括文本类本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种电子工程文档真实性验证方法,其特征在于,所述方法包括:根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;对所有信息进行识别,统计识别结果,生成真实度;上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。2.根据权利要求1所述的电子工程文档真实性验证方法,其特征在于,所述根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档的步骤包括:建立与各文档接口对应的缓存区;将文档接口获取到的含有标签信息的电子工程文档输入所述缓存区,并记录获取时间;根据所述文档接口的预设的遍历线程和所述获取时间提取所述缓存区中的电子工程文档;根据标签信息遍历预设的模板库,查询对应的基准文件;所述模板库中包括标签信息项和基准文档项。3.根据权利要求1所述的电子工程文档真实性验证方法,其特征在于,所述根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息的步骤包括:依次读取基准文件的区域切分网格;所述区域切分网格为矩形网格,其位置信息包括页码和顶点在该页码中的坐标;依次提取区域切分网格中的内容,判断内容类型;所述内容类型包括文本类型和图像类型;基于所述内容类型在备案的方式库读取查询方式;基于所述查询方式提取所述电子工程文档中的信息。4.根据权利要求3所述的电子工程文档真实性验证方法,其特征在于,所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:当所述内容类型为文本类型时,在所述电子工程文档中标记与区域切分网格对应的待检网格;根据训练好的文本识别模型提取所述待检网格中的文本内容,将所述文本内容输入预设的字词识别模型,得到文本内容中各字词的类型;所述类型包括虚词、名词和描述词;根据文本内容的顺序提取并排列得到的类型,得到文本内容的文本架构;根据所述文本架构判定文本内容的正确率;根据所述正确率缩放所述待检网络,重复上述内容直至所述正确率达到预设的正确率阈值。5.根据权利要求4所述的电子工程文档真实性验证方法,其特征在于,所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:当所述内容类型为图像类型时,在所述电子工程文档中标记与区域切分网格对应的待
检网格;根据训练好的图像识别算法定位目标图像,并提取目标图像中的轮廓特征和色值特征;所述轮廓特征用于表征目标图像中的边界位置,所述色值特征用于...
【专利技术属性】
技术研发人员:王蒙娟,
申请(专利权)人:王蒙娟,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。