System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及一种基于pdf模糊查询的向量知识库构建方法及装置、设备、介质,属于自然语言处理。
技术介绍
1、pdf文档在当今生活中扮演着重要的角色,被广泛应用于电子文档的交换、共享、存储和阅读,涵盖了商业、教育、科研、技术等各个领域,在应用中保证了信息的可靠性和准确性。
2、目前存在多种pdf文档处理工具,可以用于提取、解析和处理pdf文档中的文本信息,例如pypdf2、pdfplumber、ocrmypdf等。但专利技术人在实际操作中发现处理pdf文档时,会遇见文档中存在表格且表格方向并非正常阅读方向的问题,可能是横向排列或者其他非传统方向。这种情况导致了常规工具无法正确识别和解析表格内容,进而影响了文档的正确读取和处理。在读取的同时会出现文字颠倒、乱码等现象,使用者可能无法正确获取文档中的信息,导致工作效率降低或者出现错误。同时在读取表格时若表格存在合并单元格,则单元格内容无法完全读取,导致部分信息丢失或不完整。这会给用户带来困扰,降低了文档的可用性和可读性。不仅影响了文档处理工具的正常运行,也给使用者带来了不便和困扰。
3、这些问题严重影响了pdf文档的处理和使用体验,在使用工具的时候影响了用户对pdf文档的正常解读和使用,则丢失了pdf文档原有的稳定性等。
4、进一步的,在构建向量知识库的阶段需要正确解读pdf文档以便构建,若处理工具选择不当则无法构建正确的向量知识库。
技术实现思路
1、为解决上述技术问题,本申请的实施例分别提供了一种基于
2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
3、根据本申请实施例的一个方面,提供了一种基于pdf模糊查询的向量知识库构建方法,所述方法包括:
4、响应于输入的pdf文档,对所述pdf文档进行检索;
5、在检索到所述pdf文档中的页面方向不处于设定的页面方向的情况下,确定页面所处页码,对所述页码对应的页面进行旋转,以使所述页面的页面方向与设定的页面方向一致;
6、在检索到所述pdf文档中存在表格的情况下,对所述表格中的字符方向进行判断,若所述表格中的字符方向不处于设定的字符方向的情况下,对所述表格所处页面进行旋转,以使得所述表格中的字符方向与设定的字符方向一致;
7、在所述pdf文档中的所有页面的页面方向均处于设定的页面方向且不存在表格或表格中的字符方向与设定的字符方向一致的情况下,对所述pdf文档中的字符进行提取,得到用于构建向量知识库的文本数据。
8、进一步地,所述设定的页面方向为页面中的字符顺应从左往右的方向。
9、进一步地,所述设定的字符方向为表格中的字符顺应从左往右的方向。
10、进一步地,在得到用于构建向量知识库的文本数据之后,所述方法还包括:
11、将所述文本数据转化为txt文档格式数据,并进行保存。
12、进一步地,所述方法还包括:
13、将输入的pdf文档存储于第一文件夹,处理后的pdf文档存储于第二文件夹,txt文档格式数据存储于第三文件夹,其中处理后的pdf文档为经过页面旋转和表格旋转处理后的pdf文档。
14、进一步地,所述方法还包括:
15、响应于输入的pdf文档,在本地不存在第一文件夹的情况下,自动生成第一文件夹以存储输入的pdf文档;
16、在本地不存在第二文件夹的情况下,自动生成第二文件夹以存储处理后的pdf文档;
17、在本地不存在第三文件夹的情况下,自动生成第三文件夹以存储txt文档格式数据。
18、进一步地,在对所述表格所处页面进行旋转,以使得所述表格中的字符方向与设定的字符方向一致后,所述方法还包括:识别页面旋转后的表格。
19、根据本申请实施例的一个方面,提供了一种基于pdf模糊查询的向量知识库构建装置,包括:
20、文档获取单元,被配置为响应于输入的pdf文档,对所述pdf文档进行检索;
21、第一旋转单元,被配置为在检索到所述pdf文档中的页面方向不处于设定的页面方向的情况下,确定页面所处页码,对所述页码对应的页面进行旋转,以使所述页面的页面方向与设定的页面方向一致;
22、第二旋转单元,被配置为在检索到所述pdf文档中存在表格的情况下,对所述表格中的字符方向进行判断,若所述表格中的字符方向不处于设定的字符方向的情况下,对所述表格所处页面进行旋转,以使得所述表格中的字符方向与设定的字符方向一致;
23、数据转换单元,被配置为在所述pdf文档中的所有页面的页面方向均处于设定的页面方向且不存在表格或表格中的字符方向与设定的字符方向一致的情况下,对所述pdf文档中的字符进行提取,得到用于构建向量知识库的文本数据。
24、根据本申请实施例的一个方面,提供了一种电子设备,包括:控制器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述控制器执行时,使得所述控制器实现上所述的基于pdf模糊查询的向量知识库构建方法。
25、根据本申请实施例的一个方面,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述的基于pdf模糊查询的向量知识库构建方法。
26、根据本申请实施例的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的基于pdf模糊查询的向量知识库构建方法。
27、在本申请的实施例所提供的技术方案中,至少具有以下优点:
28、1、文本提取准确性提高:通过对pdf文档进行合理的旋转处理和合并单元格的拆分操作,本申请提高了文本提取的准确性,降低了文字颠倒、乱码等现象的出现概率,使得提取的文本数据更加准确可靠。
29、2、处理效率提升:本申请通过代码自动化实现了pdf文档的处理和文字提取过程,大大提高了处理效率,减少了人工干预的时间和成本。
30、3、数据转换方便:将提取的文本数据转换为txt文档格式,方便后续的向量知识库构建。这样的数据格式具有普适性和可扩展性,为进一步的数据处理和应用提供了便利。
31、4、提升文档处理本文档来自技高网...
【技术保护点】
1.一种基于PDF模糊查询的向量知识库构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于PDF模糊查询的向量知识库构建方法,其特征在于,所述设定的页面方向为页面中的字符顺应从左往右的方向。
3.根据权利要求1所述的基于PDF模糊查询的向量知识库构建方法,其特征在于,所述设定的字符方向为表格中的字符顺应从左往右的方向。
4.根据权利要求1所述的基于PDF模糊查询的向量知识库构建方法,其特征在于,在得到用于构建向量知识库的文本数据之后,所述方法还包括:
5.根据权利要求4所述的基于PDF模糊查询的向量知识库构建方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的基于PDF模糊查询的向量知识库构建方法,其特征在于,所述方法还包括:
7.根据权利要求4所述的基于PDF模糊查询的向量知识库构建方法,其特征在于,在对所述表格所处页面进行旋转,以使得所述表格中的字符方向与设定的字符方向一致后,所述方法还包括:识别页面旋转后的表格。
8.一种基于PDF模糊查询的向量知识库构建装置,其特征在
9.一种电子设备,其特征在于,包括:控制器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述控制器执行时,使得所述控制器实现权利要求1至7中任一项所述的基于PDF模糊查询的向量知识库构建方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的基于PDF模糊查询的向量知识库构建方法。
...【技术特征摘要】
1.一种基于pdf模糊查询的向量知识库构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于pdf模糊查询的向量知识库构建方法,其特征在于,所述设定的页面方向为页面中的字符顺应从左往右的方向。
3.根据权利要求1所述的基于pdf模糊查询的向量知识库构建方法,其特征在于,所述设定的字符方向为表格中的字符顺应从左往右的方向。
4.根据权利要求1所述的基于pdf模糊查询的向量知识库构建方法,其特征在于,在得到用于构建向量知识库的文本数据之后,所述方法还包括:
5.根据权利要求4所述的基于pdf模糊查询的向量知识库构建方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的基于pdf模糊查询的向量知识库构建方法,其特征在于,所述方法还包括...
【专利技术属性】
技术研发人员:巩文浩,张昊宇,焦子豪,杨洋,张珣,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。