System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据结构化分析领域,具体涉及一种文档表格内容结构化处理方法及相关硬件。
技术介绍
1、目前,许多商业机构依赖于从各种报告和文档中提取数据进行分析和决策支持。这些文档大多数以可携带文件格式(portable document format,pdf)格式存在,其中包含大量的非结构化数据。传统的数据处理过程需要人工手动录入,效率较低。
技术实现思路
1、本申请实施例提供一种文档表格内容结构化处理方法及相关硬件,用于解决如何实现计算机自动对文档中的非结构化数据进行结构化处理的问题。
2、第一方面,本申请实施例提供了一种文档表格内容结构化处理方法,包括:
3、提取文档中的文本和所述文本所在位置,以及识别所述文档中的表格所在位置,根据提取得到的文本、所述文本所在位置和识别得到的表格所在位置生成第一结构化数据;其中,所述第一结构化数据记录了文本和表格在所述文档中的先后顺序,以及同属于同一表格的表格文本的对应关系;
4、采用标题指针对标题列表文件中的标题依次进行遍历,其中:在每次将所述标题指针指示的标题由第一标题更新为第二标题后,对所述第一结构化数据中的文本,采用内容指针从当前指示位置开始向后依次进行遍历,直至所述内容指针遍历到所述第二标题,则将所述第一标题确定为一个目标表格的标题,以及将所述第一结构化数据中位于所述第一标题与所述第二标题之间的表格文本,确定为所述目标表格的表格文本;若所述第一标题为所述标题列表文件中的最后一个标题,则将所述第一结构化数
5、对于每个目标表格,对所述目标表格的表格文本进行解析,得到所述目标表格的数据对象;
6、根据各所述数据对象生成第二结构化数据。
7、这样,通过使用计算机程序自动对文档中的文本和表格进行提取,并通过标题指针和内容指针对从文档中提取到的文本匹配所对应的目标表格,并对目标表格进行解析整理为计算机可直接处理的第二结构化数据,从而能够实现对文档的计算机自动化数据录入,不再需要人工手动处理,提高了对文档处理的效率。
8、可选地,若所述文档包含图片,则所述提取文档中的文本和所述文本所在位置,以及识别所述文档中的表格所在位置,还包括:
9、提取所述文档中的图片;
10、对于每个图片,通过预训练的字符识别模型提取所述图片中的文本和所述文本所在位置,以及通过预训练的版面识别模型提取所述图片中的表格在所述文档中的位置。
11、这样,能够对文档中的图片也进行文本和表格的提取,避免遗漏数据。
12、可选地,在所述采用标题指针对标题列表文件中的标题依次进行遍历之前,所述方法还包括:
13、通过预设第一提问模板,将所述第一结构化数据中的非表格文本输入至大语言模型llm中,接收所述llm输出的所述第一结构化数据中的待定标题;
14、将各所述待定标题中符合预设标题特征的待定标题,组成所述标题列表文件;
15、其中,所述预设标题特征包括如下至少一项:
16、预设字体、预设字号、预设字形、预设文字标记。
17、这样,可以利用llm的推理能力动态分析其中的标题,并且考虑到现阶段llm在回答问题时的准确度一般,因此可以通过预设标题特征对待定标题进行进一步地检验,以便筛除llm回答中错误的待定标题,保留下正确的待定标题来得到标题列表文件。
18、作为一种可选的实施方式,所述对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象,包括:
19、在预设表格结构信息中匹配与所述目标表格的标题对应的目标表格结构;
20、根据所述目标表格结构对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象。
21、这样,针对文档的不同表格布局,可以通过相应配置对应的预设表格结构信息来进行配置,从而能够有效处理各种复杂的表格数据。这种模块化的设计也有利于后续集成和扩展。
22、作为一种可选的实施方式,所述对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象,包括:
23、通过预设第二提问模板,将所述目标表格的目标文本输入至llm中,接收所述llm输出的数据对象。
24、这样,可以利用llm的推理能力直接进行数据结构化处理,实施方式较为简单。
25、作为一种可选的实施方式,所述对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象,包括:
26、将所述目标表格的目标文本和所述目标文本在所述文档中的位置输入预训练的表格解析模型,得到所述表格解析模型输出的关系矩阵和各目标文本属于表格表头或表格信息项的分类结果;所述关系矩阵表征各目标文本相互之间是否存在从属逻辑关系;
27、根据所述关系矩阵和各所述分类结果生成数据对象。
28、更进一步地,所述根据所述关系矩阵和各所述分类结果生成数据对象,包括:
29、通过预设第三提问模板将各所述表格表头输入至llm中,接收所述llm输出的按照逻辑关系重新排序的各表格表头;
30、根据所述关系矩阵,结合按照逻辑关系重新排序的各表格表头,生成数据对象。
31、更进一步地,所述表格解析模型依次包括输入层、变压器transformer层、特征提取层和输出层;所述输出层包括分类输出模块和关系判定输出模块;所述分类输出模块包括第一分类层;所述关系判定输出模块依次包括点乘层和第二分类层;
32、所述将所述目标表格的目标文本和所述目标文本在所述文档中的位置输入预训练的表格解析模型,得到所述表格解析模型输出的关系矩阵和各目标文本属于表格表头或表格信息项的分类结果,包括:
33、通过所述输入层将所述目标表格中的各个目标文本分别嵌入为组合向量,通过所述transformer层分别编码各所述组合向量为特征向量,通过所述特征提取层将得到的n个特征向量拼接为第一特征矩阵后,通过所述第一分类层将所述第一特征矩阵转化为n维分类向量;其中,n为所述各个目标文本的数量,所述n维分类向量中的每个元素表示:相应目标文本属于所述表格表头或所述表格内容信息项的分类结果;所述组合向量中的部分元素是通过对所述目标文本在所述文档中的位置嵌入得到;
34、通过所述点乘层将所述第一特征矩阵与所述第一特征矩阵的转置矩阵点乘得到n×n维第二特征矩阵,将所述第二特征矩阵输入至所述第二分类层得到n×n×2维度的第三特征矩阵,将所述第三特征矩阵降维生成n×n×1维度的所述关系矩阵;
35、其中,对于第二特征矩阵中的任一矩阵元素,所述矩阵元素同时对应两个目标文本;对于第二特征矩阵中的任一矩阵元素,所述矩阵元素对应于所述第三特征矩阵中的2个新增维度分别表示第一概率和第二概率,其中第一概率为所述矩阵元素对应的两个目标文本之间存在从属关系的概率,第二概率为所述本文档来自技高网...
【技术保护点】
1.一种文档表格内容结构化处理方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,若所述文档包含图片,则所述提取文档中的文本和所述文本所在位置,以及识别所述文档中的表格所在位置,还包括:
3.如权利要求1所述的方法,其特征在于,在所述采用标题指针对标题列表文件中的标题依次进行遍历之前,所述方法还包括:
4.如权利要求1所述的方法,其特征在于,所述对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象,包括:
5.如权利要求1所述的方法,其特征在于,所述对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象,包括:
6.如权利要求1所述的方法,其特征在于,所述对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象,包括:
7.如权利要求6所述的方法,其特征在于,所述根据所述关系矩阵和各所述分类结果生成数据对象,包括:
8.如权利要求6或7所述的方法,其特征在于,所述表格解析模型依次包括输入层、变压器Transformer层、特征提取层和输出层;所述输出层包括分类输出模
9.如权利要求8所述的方法,其特征在于,所述目标文本在所述文档中的位置为所述目标文本在所述文档中占用矩形区域的角的坐标信息;
10.一种文档表格内容结构化处理装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括:
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-9中任一项所述的方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如权利要求1-9中任一项所述的方法。
...【技术特征摘要】
1.一种文档表格内容结构化处理方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,若所述文档包含图片,则所述提取文档中的文本和所述文本所在位置,以及识别所述文档中的表格所在位置,还包括:
3.如权利要求1所述的方法,其特征在于,在所述采用标题指针对标题列表文件中的标题依次进行遍历之前,所述方法还包括:
4.如权利要求1所述的方法,其特征在于,所述对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象,包括:
5.如权利要求1所述的方法,其特征在于,所述对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象,包括:
6.如权利要求1所述的方法,其特征在于,所述对所述目标表格的目标文本进行解析,得到所述目标表格的数据对象,包括:
7.如权利要求6所述的方法,其特征在于,所述根据所述关系矩阵和各所述分类结果生成数据对象,包括:
8.如权利要求6或7所述的方法...
【专利技术属性】
技术研发人员:罗奕康,聂砂,戴菀庭,刘海,郑江,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。