System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于OCR识别的文件智能审查系统及审查方法技术方案_技高网

一种基于OCR识别的文件智能审查系统及审查方法技术方案

技术编号:43806305 阅读:6 留言:0更新日期:2024-12-27 13:23
本发明专利技术属于文件审查技术领域,具体的说是一种基于OCR识别的文件智能审查系统及审查方法,包括文本识别模块:所述文本识别模块用于识别文件类型,所述文件类型包括结构化资料文本和非结构化资料文本;非结构化资料文本包括PDF文档或图像文档;OCR处理模块:所述OCR处理模块用于识别非结构化资料文本,并将非结构化资料文本转化为结构化资料文本;特征判别模块:所述特征判别模块用于判别结构化资料文本特征是否符合审查标准特征,所述审查标准特征包括:格式特征、一致性特征、规范性特征、排除性特征;若符合审查标准特征,则对应的文件输出合格信号;否则,对应的文件输出不合格信号。

【技术实现步骤摘要】

本专利技术属于文件审查,具体的说是一种基于ocr识别的文件智能审查系统及审查方法。


技术介绍

1、招标技术规范书作为招标采购技术活动的指导性文件,对于保证技术活动的正确性和一致性具有重要意义,而技术规范书等材料审查是当前电网公司物资部门在统筹开展招标采购管理工作过程中最为重要的环节之一。

2、目前,公司招标技术规范书材料审查主要依靠人工方式开展,审查人员需要花费大量的时间和精力对技术规范书进行逐字逐句的阅读和审查,而且由于人为因素的存在,不同审查人员由于主观等原因可能对同一标准有不同理解,继而按照自己的理解方式进行审查,容易造成审查结果的失准。

3、公司每年都有大批量项目进行招标采购,且各批次招标采购项目多、类型杂,导致技术规范书审查的工作效率和质量因人而异,整体材料审查效果难以得到有效提升与保证。业务需求部门提交的项目技术规范书等招标采购材料往往存在格式不一、材料类型多样等显性问题,例如存在以pdf等图像存储的非结构化格式提交的情况,这对高效开展招标采购材料审查提出了更大挑战。

4、为此,本专利技术提供一种基于ocr识别的文件智能审查系统及审查方法。


技术实现思路

1、为了弥补现有技术的不足,解决
技术介绍
中所提出的至少一个技术问题。

2、本专利技术解决其技术问题所采用的技术方案是:本专利技术所述的一种基于ocr识别的文件智能审查系统,包括:

3、文本识别模块:所述文本识别模块用于识别文件类型,所述文件类型包括结构化资料文本和非结构化资料文本;非结构化资料文本包括pdf文档或图像文档;

4、ocr处理模块:所述ocr处理模块用于识别非结构化资料文本,并将非结构化资料文本转化为结构化资料文本;

5、特征判别模块:所述特征判别模块用于判别结构化资料文本特征是否符合审查标准特征,所述审查标准特征包括:格式特征、一致性特征、规范性特征、排除性特征;

6、若符合审查标准特征,则对应的文件输出合格信号;

7、否则,对应的文件输出不合格信号。

8、优选的,基于文件的特征是否符合审查标准特征具体为:

9、首先对文件进行格式特征判别审查;

10、若文件不符合格式特征,则对应的文件直接输出不合格信号;若文件符合格式特征,则对应的文件继续判别一致性特征审查;

11、若文件不符合一致性特征,则对应的文件直接输出不合格信号;若文件符合一致性特征,则对应的文件继续判别规范性特征审查;

12、若文件不符合规范性特征,则对应的文件直接输出不合格信号;若文件符合规范性特征,则对应的文件继续判别排除性特征审查;

13、若文件不符合排除性特征,则对应的文件直接输出不合格信号;若文件符合排除性特征,则对应的文件输出合格信号;

14、通过将文件按照:格式特征-一致性特征-规范性特征-排除性特征进行审查,若从前往后其中一项出现问题,则对应的文件则直接不合格,不需要将四个特征全部进行审查,能快速的对文件进行审查,提高了审查效率,有利于招标文件的筛分以及制定。

15、优选的,所述格式特征的判别标准如下:

16、收集文件特定的格式标准历史数据,并将特定的格式标准历史数据输入审查模型内;所述格式标准历史数据包括:字体、行间距和段落标记;如pdf或word文档的固定模板,可以通过检查文档的元数据来确定其格式是否符合要求;

17、若审查模型监测输入的文件格式特征不正确,则认为不符合格式特征审查要求,则对应的文件直接输出不合格信号;

18、若审查模型监测输入的文件格式类型正确,则认为符合格式特征审查要求,并继续监测一致性特征;

19、需要说明的是,其中文件格式特征不正确可以理解为,在该招标文件里,其中字体、行间距和段落标记其中一项出现问题时,则直接标记为此招标文件不合格,并且不需要进行后续的其他特征审查,如此提高了审查效率;

20、所述一致性特征的判别标准如下:

21、创建包含所有关键信息字段的清单,所述关键信息包括日期、金额、联系人信息、项目名称和招标编号等,确保这些字段在招标文件的每个部分都被正确填写和一致使用;

22、将输入的文件与创建的清单相对比;

23、若文件中存在不一致的关键信息,则认为不符合一致性特征审查要求,则对应的文件输出不合格信号;

24、若文件中的关键信息全部一致,则符合一致性特征审查要求,并继续进行规范性特征审查;

25、具体的,当招标文件的格式特征符合标准后,则继续进行一致性特征审查,其中若日期、金额、联系人信息、项目名称和招标编号出现问题,则直接判定对应的招标文件不合格,且无需进行后续的特征判定,操作较为方便,且判别速率高;

26、所述规范性特征审查标准如下:

27、制定文件中规范性信息,所述规范性信息包括投标人的资质、业绩等投标人资格要求和评标标准;

28、将输入的文件与规范性信息相对比:

29、若缺少任何必要的条款或条件,则认为不符合规范性特征审查要求,且对应的文件输出不合格信号;

30、若条款或条件符合规范信息,则继续进行排除性特征审查;

31、具体的,当招标文件的格式特征以及一致性特征都合格后,则继续进行规范性特征判别,若规范性特征不合格,则直接输出对应的招标文件不合格,且后续的特征判别无需进行;

32、所述排除性特征审查标准如下:

33、建立包含所有需要排除的敏感词汇列表,这些词汇包括但不限于违反道德标准、法律法规或具有歧视性、倾向性的内容,例如,任何可能指向特定供应商、特定产品或者非法限定供应商的所有制形式、组织形式的词汇都应视为敏感词汇;

34、通过审查模型识别并排除不符合特定标准的文件,例如排除包含特定敏感词汇或不符合道德标准的文件;

35、随着法律法规的更新和市场环境的变化,敏感词汇需要不断更新以适应新的标准和要求;

36、若文件包含任何敏感词汇,则不符合排除性特征审查要求,且对应的文件输出不合格信号;

37、若文件不包含任何敏感词汇,则对应文件输出合格信号。

38、优选的,基于审查模型监测输入的文件包括:

39、将格式特征,一致性特征,规范性特征以及排除性特征建立特征审查规则库,并将特征审查规则库储存于审查模型中;

40、通过审查模型全文检索和特征审查规则库检测文件是否符合审查规则;

41、按照特征审查规则库以及审查模型的全文检索,若文件符合特征审查规则库的特征,则对应的文件合格,若文件不符合特征审查规则库的其中一项特征,则对应的文件不合格,且通过审查模型和特征审查规则库的特征输出对应不合格文件的异常问题。

42、优选的,基于审查模型全文检索具体操作步骤为:

43、s1:将招标材料的文本内容导入审查模型,本文档来自技高网...

【技术保护点】

1.一种基于OCR识别的文件智能审查系统,其特征在于:包括:

2.根据权利要求1所述的一种基于OCR识别的文件智能审查系统,其特征在于:基于审查模型监测输入的文件包括:

3.根据权利要求2所述的一种基于OCR识别的文件智能审查系统,其特征在于:

4.根据权利要求1所述的一种基于OCR识别的文件智能审查系统,其特征在于:

5.根据权利要求4所述的一种基于OCR识别的文件智能审查系统,其特征在于:所述倾斜校正的具体操作步骤为:

6.根据权利要求5所述的一种基于OCR识别的文件智能审查系统,其特征在于:

7.根据权利要求6所述的一种基于OCR识别的文件智能审查系统,其特征在于:基于二值化处理包括:选取灰度化后的图像,设定图像阈值,将选定的阈值应用到灰度图像上,将每个像素值与阈值进行比较;

8.一种基于OCR识别的文件智能审查方法,其特征在于:包括以下步骤:

【技术特征摘要】

1.一种基于ocr识别的文件智能审查系统,其特征在于:包括:

2.根据权利要求1所述的一种基于ocr识别的文件智能审查系统,其特征在于:基于审查模型监测输入的文件包括:

3.根据权利要求2所述的一种基于ocr识别的文件智能审查系统,其特征在于:

4.根据权利要求1所述的一种基于ocr识别的文件智能审查系统,其特征在于:

5.根据权利要求4所述的一种基于ocr识别的文件智能...

【专利技术属性】
技术研发人员:胡波安海军史雷孙道盛沈继芳高莲君甘荣王新儒罗希亮时娟苏雯樊斌王毅张娟李雪何方王治利王晓强
申请(专利权)人:国网甘肃省电力公司兰州供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1