System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于大模型知识增强的工业表格数据识别方法及程序产品技术_技高网

用于大模型知识增强的工业表格数据识别方法及程序产品技术

技术编号:43049893 阅读:5 留言:0更新日期:2024-10-22 14:33
本发明专利技术公开了一种用于大模型知识增强的工业复杂表格图像处理方法及程序产品,首先识别和定位工业文件中的表格区域,提取出仅包含表格内容的数据块;然后提取表格边框的横向和竖向框线,推理出所有单元格的坐标,恢复表格结构;接着将识别出的内容与单元格坐标进行匹配,形成“单元格内容+坐标”格式的数据;随后将复杂表格中的合并单元格拆分为最小单元格,进行文本化表示;之后利用大模型对文本化表格中的单元格内容进行分类,区分为键类型或值类型,并存储于向量数据库中;最后通过向量相似度匹配和检索增强生成技术实现与向量数据库中表格数据内容的问答。本发明专利技术有效提高了大模型在处理和理解工业复杂表格数据时的效率和准确性。

【技术实现步骤摘要】

本专利技术属于人工智能和计算机科学,涉及大模型知识增强与表格数据识别技术,具体涉及一种用于大模型知识增强的工业复杂表格的数据识别方法及程序产品。


技术介绍

1、目前,大模型(large language models,llms)技术在处理纯文本信息方面已经较为成熟,借助自然语言处理技术,llms可以直接利用文本数据进行训练和推理。然而,在工业领域,知识文件中不仅包含文本信息,还包括大量的表格等复杂数据形式,现有的大模型领域知识增强技术在处理工业复杂表格方面仍存在诸多挑战和不足。

2、不同于文本类信息可以直接被大模型所利用,表格类信息不仅包含数据内容,还包含复杂的表格结构,所以如何在大模型领域知识增强中实现对表格类信息的检索是当前行业的一大难点。工业复杂表格通常具有多层次结构的表头和大量合并的单元格,单元格之间具有复杂的关联,在表格内容查询时通常需要多次查询不同层级的表头才能够定位到需要查询的表格值,不利于对表格信息的提取和利用。

3、为了使大模型能够学习领域知识文档中的表格信息,行业内一般采用将特定的表格内容按照模板提取,将其转化为文本问答对并参与大模型训练,但是该类方法不具有泛化性,需要在处理不同格式的表格时重新更换模板,导致操作繁琐且效率低下。同时,大模型表格问答类任务的大多数数据集均为区分出表头和表格内容的数据集,大模型可以依据更多的表格信息进行回答。但是在表格信息提取的过程中,并不存在可以区别单元格类别的流程。并且这些数据集中的文本表格通常也都保留了表格的结构内容,也就意味着大模型在依据表格内容进行回答前仍然需要实现对表格结构的理解。

4、综上所述,现有的大模型知识增强技术在处理工业复杂表格时面临诸多挑战,包括表格结构的复杂性、表格内容的多样性以及现有方法的泛化性不足等问题。如何在大模型领域知识增强中实现对表格类信息的高效检索和利用,是亟待解决的技术问题。


技术实现思路

1、(一)专利技术目的

2、针对现有技术在处理工业复杂表格时存在的上述缺陷和不足,本专利技术提出了一种用于大模型知识增强的工业表格的数据识别方法及程序产品。通过自然语言处理技术将领域文件中的复杂表格数据转换为大模型容易理解的文本格式数据,使大模型可以利用这些文本数据对领域相关的问题进行更好的回答,并通过采用表格框线优化延长等技术手段提高表格结构识别的准确性,通过应用细粒度的表格内容表示方法,在保留表格结构信息的同时提高大模型对表格内容的理解能力,从而实现对工业复杂表格的高效处理和利用,显著提升大模型在领域知识增强中的表现。

3、(二)技术方案

4、为实现该专利技术目的,解决其技术问题,本专利技术采用如下技术方案:

5、本专利技术的第1个目的在于提供一种用于大模型知识增强的工业表格的数据识别方法,用于从包含表格的工业文件中提取和表示表格内容数据,以提高大模型对这些数据的理解和利用,所述方法包括如下步骤:

6、ss1.工业表格数据获取:利用文件解析工具从输入的工业文件中识别和定位表格区域,从文件页面中提取出仅包含表格内容的数据块;

7、ss2.工业表格结构获取:利用线条检测算法提取表格边框的所有横向和竖向框线,利用表格边框的横竖框线交点推理出所有单元格的坐标,确认每一个单元格的位置和边界,恢复表格的结构;

8、ss3.工业表格内容获取:根据步骤ss2中获得的单元格坐标,并通过识别表格数据块中的表格内容,按照单元格坐标对识别出的表格内容进行匹配并存储,形成“单元格内容+坐标”格式的组合数据;

9、ss4.工业表格数据文本化:通过延长表格中的横竖框线至表格边界,将原始复杂表格中的合并单元格进行拆分,使其拆分成表格中的最小单元格,以最小单元格的形式对表格数据进行文本化表示;

10、ss5.工业表格数据细粒度表示:利用大模型对文本化表格中的每一个单元格内容进行内容分类以区分单元格内容属于键类型或值类型,通过细粒度键值对的形式表示表格数据,并将其存储进向量数据库中;

11、ss6.工业表格问答检索增强:当用户提出针对表格内容的提问时,将提问内容转换为向量格式,通过向量相似度匹配并结合rag检索增强生成技术,实现与向量数据库中细粒度的表格数据内容进行问答。

12、本专利技术的第2个目的在于提供一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备用于执行上述用于大模型知识增强的工业表格的数据识别方法。

13、(三)技术效果

14、同现有技术相比,本专利技术的用于大模型知识增强的工业表格的数据识别方法及程序产品,具有以下有益且显著的技术效果:

15、(1)本专利技术通过将复杂的表格数据进行文本化表示,并采用细粒度的键值对形式表示表格数据,使大模型能够更准确地理解和处理表格内容,提升知识问答的准确性。此外,本专利技术通过将表格内容进行向量化存储,并结合rag检索增强生成技术,实现高效的向量相似度匹配,能够快速准确地从向量数据库中检索出相关内容,提高用户问答的效率和准确性。

16、(2)本专利技术通过利用线条检测算法和表格边框的横竖框线交点推理出所有单元格的坐标,显著提高了表格结构的恢复准确性,确保每个单元格的位置和边界得到正确识别。同时,本专利技术将分类后的细粒度表格内容存储进向量数据库中,为后续的数据检索和知识问答提供了坚实的基础,提升了数据的利用率和价值。此外,本专利技术不依赖特定表格格式,具有较强的泛化能力,能够处理各种格式的工业复杂表格数据,提升了方法的适用范围和实用性。

17、(3)本专利技术提出并应用了细粒度的表格内容表示方法,与常规序列化表格相比,不具有表格结构信息,更有利于大模型对表格内容的理解;同时,在检索增强生成步骤中,如果表格数据过多,细粒度的表格内容可以按照文本块分割的最大限度进行分割,并且不会损失表格的内容数据。如果是序列化的表格内容,则会因为文本块分割导致表格结构被破坏从而损失表格信息。

本文档来自技高网...

【技术保护点】

1.一种用于大模型知识增强的工业表格的数据识别方法,其特征在于,所述数据识别方法在实施时至少包括以下步骤:

2.根据权利要求1所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,上述步骤SS1中,工业表格数据获取包括:

3.根据权利要求1所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,上述步骤SS2中,工业表格结构获取包括:

4.根据权利要求3所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,子步骤SS24中采用交点取值算法将横纵坐标位置相近的交点归一化合并为同一交点;子步骤SS25对表格结构进行恢复时,根据启发式规则,按照顺序遍历所有的交点,判定可以组成一个长方形四点是否为一个单元格,如果可以组成,则将该四个交点所包含的坐标信息进行存储,判定完毕后,则继续从下一组相邻交点按照顺时针判定;当一行坐标全部判定完毕后,则进入下一行的判定流程,直至全部交点被遍历,所获得的所有单元格坐标信息即为表格结构。

5.根据权利要求1所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,上述步骤SS3中,工业表格内容获取包括:

6.根据权利要求5所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,上述步骤SS4中,工业表格数据文本化包括:

7.根据权利要求1所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,上述步骤SS5中,工业表格数据细粒度表示包括:

8.根据权利要求1所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,上述步骤SS6中,表格问答检索增强包括:

9.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令指示计算设备用于执行如权利要求1至8任一项所述的用于大模型知识增强的工业表格的数据识别方法。

...

【技术特征摘要】

1.一种用于大模型知识增强的工业表格的数据识别方法,其特征在于,所述数据识别方法在实施时至少包括以下步骤:

2.根据权利要求1所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,上述步骤ss1中,工业表格数据获取包括:

3.根据权利要求1所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,上述步骤ss2中,工业表格结构获取包括:

4.根据权利要求3所述的用于大模型知识增强的工业表格的数据识别方法,其特征在于,子步骤ss24中采用交点取值算法将横纵坐标位置相近的交点归一化合并为同一交点;子步骤ss25对表格结构进行恢复时,根据启发式规则,按照顺序遍历所有的交点,判定可以组成一个长方形四点是否为一个单元格,如果可以组成,则将该四个交点所包含的坐标信息进行存储,判定完毕后,则继续从下一组相邻交点按照顺时针判定;当一行坐标全部判定完毕后,则...

【专利技术属性】
技术研发人员:杜宝瑞刘播瑞杨海龙
申请(专利权)人:中国科学院工程热物理研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1