System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多表格电力技术标准PDF解析方法及系统技术方案_技高网

一种多表格电力技术标准PDF解析方法及系统技术方案

技术编号:44300129 阅读:2 留言:0更新日期:2025-02-18 20:18
本发明专利技术公开了一种多表格电力技术标准PDF解析方法及系统,本发明专利技术方法将电力技术标准PDF文件转换为表格图像;针对表格图像进行表格以及角点定位检测得到表格边框;针对表格图像进行表格结构解析得到单元格矩形框;针对表格图像识别文本矩形框以及文字内容;将单元格矩形框和文本矩形框匹配以确定单元格的文字内容;对单元格矩形框进行表头单元格分类为表头单元格和普通单元格;结合识别得到的表头单元格和普通单元格以及文字内容进行表格结构重构;基于重构后的表格内容利用大语言模型生成连贯通顺的文本语料。本发明专利技术旨在针对多表格电力技术标准PDF文档实现表格中信息的有效提取和利用,以提高变压器缺陷语料库构建的效率和准确度。

【技术实现步骤摘要】

本专利技术涉及电力的数据处理技术,具体涉及一种多表格电力技术标准pdf解析方法及系统。


技术介绍

1、主变压器作为电力系统中的核心设备,其稳定运行对于电网的安全和可靠性至关重要。随着人工智能技术的高速发展,传统主变压器缺陷风险辨识手段逐渐转向利用大语言模型、知识图谱等新兴技术从技术标准、故障报告、巡检图像和运行数据等多模态数据实现主变压器缺陷风险辨识,这也对主变压器缺陷语料库的构建提出了更高的要求。在电力行业专业技术文档中存在大量与主变压器缺陷相关文档,其中pdf文件作为最常见的文档格式包含了大量的表格,这些表格记录着丰富的专业信息,包括设备类型、设备部件、缺陷描述、分类依据、缺陷分类、状态量、判断依据、负荷率等,这些数据对于主变压器的运行、维护和管理具有重要意义。然而,传统的文本提取方法对于表格的处理能力有限,表格中的信息往往难以被有效提取和利用,导致许多有价值的专业信息被埋没在复杂的表格结构中。因此如何高效地从电力技术标准pdf文件中的表格获取语料具有重要意义。


技术实现思路

1、本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种多表格电力技术标准pdf解析方法及系统,本专利技术旨在针对多表格电力技术标准pdf文档实现表格中信息的有效提取和利用,以提高变压器缺陷语料库构建的效率和准确度。

2、为了解决上述技术问题,本专利技术采用的技术方案:

3、一种多表格电力技术标准pdf解析方法,包括下述步骤:

4、将电力技术标准pdf文件转换为表格图像;

5、针对表格图像进行表格以及角点定位检测得到表格边框;

6、针对表格图像进行表格结构解析得到单元格矩形框;

7、针对表格图像识别文本矩形框以及文字内容;

8、将单元格矩形框和文本矩形框匹配以确定单元格的文字内容;

9、对单元格矩形框进行表头单元格分类为表头单元格和普通单元格;

10、结合识别得到的表头单元格和普通单元格以及文字内容进行表格结构重构;

11、基于重构后的表格内容利用大语言模型生成连贯通顺的文本语料。

12、可选地,所述针对表格图像进行表格以及角点定位检测包括:

13、将表格图像采用指定的神经网络模型提取各个表格的表格边框;

14、将表格图像采用指定的神经网络模型提取各个表格的四个角点,按顺时针方向分别命名角1、角2、角3和角4,坐标分别为、、和;

15、将满足下面约束关系的角点被保留并归属于同一张表格以实现角点的分组过滤:

16、,

17、上式中,为第i个角点的坐标,为第j个角点的坐标,为位置约束阈值,与表格的图像大小相关,,其中为表格的图像面积大小;

18、基于分组过滤后的角点确定表格的矩形区域:

19、,

20、上式中,,,,;

21、将同一个表格的表格边框和矩形区域的左上角、右下角顶点取平均值,从而将同一个表格的表格边框和矩形区域合并得到新的表格边框。

22、可选地,所述针对表格图像进行表格结构解析得到单元格矩形框包括:将表格图像转换为二值图,应用一次迭代的3×3核均值滤波器来生成转换图像以将二值图中为1的部分像素膨胀扩大以增加表格线条在图像中的锐利程度和细节表现;将转换图像采用指定的神经网络模型提取各个表格单元格的单元格矩形框,包括左上角坐标和右下角坐标。

23、可选地,所述将单元格矩形框和文本矩形框匹配以确定单元格的文字内容包括:针对每一个文本矩形框,分别计算该文本矩形框与各个单元格矩形框之间的交并比:

24、,

25、上式中,为交并比,和分别表示文本矩形框和单元格矩形框,表示和的交集区域,表示和的并集区域,表示求区域面积;为每一个文本矩形框选择交并比最大且超过预设阈值的单元格矩形框作为该文本矩形框匹配的单元格矩形框,从而确定该文本矩形框的文字内容为匹配的单元格矩形框对应的文本内容。

26、可选地,所述对单元格矩形框进行表头单元格分类是指将单元格矩形框利用基于transformer编码器改进得到的copetransformer模型进行表头单元格分类为表头单元格和普通单元格,所述transformer编码器由位置编码模块和多个堆叠的多头自注意力机制模块和前馈网络层组成,所述改进包括改进transformer编码器的多头自注意力机制模块,且改进后的多头自注意力机制模块中每一个注意力头针对输入的长度为、维数为的输入序列的处理包括:首先将其处理成三个线性投影,分别得到查询、键、值,结合对角线矩阵进行协同位置信息的编码合并计算注意力大小:

27、,

28、上式中,为第i层堆叠的多头自注意力机制模块中的注意力头的注意力大小,为激活函数,为第i-1层堆叠的多头自注意力机制模块中的注意力头的注意力大小,再根据下式计算得到该注意力头的输出:

29、,

30、上式中,为值;最终将各个注意力头的输出连接后输入到本层堆叠的多头自注意力机制模块的前馈网络层中。

31、可选地,所述结合识别得到的表头单元格和普通单元格以及文字内容进行表格结构重构包括:针对每一个表格的表头单元格,其中代表第个单元格的左上角顶点的横坐标,代表第个单元格的左上角顶点的纵坐标,代表第个单元格的右下角顶点的横坐标,代表第个单元格的右下角顶点的纵坐标,确定表头单元格最左侧的横坐标和最右侧的横坐标得到该表头单元格的行方向上的边界;引入一个边界容忍阈值,其中表示所有单元格的宽度的最小值,结合边界容忍阈值进行合并单元格判断与表格重构,包括:依次遍历单元格进行两两比对,当,则判断该单元格为一个行方向上的合并单元格,对于该单元格应该将其对应文本填充进入进列方向上的单元格,若表头中无行方向上的合并单元格,该组则所有表头类型的合并单元格按照横坐标顺序进行排列,最终得到重构后的表格结构。

32、可选地,所述基于重构后的表格内容利用大语言模型生成连贯通顺的文本语料包括:构建指令数据集;针对选定的大语言模型使用指令数据集进行指令微调;构造一个通用且规则的提示词,使用重构后的表格结构的表头和表头对应的属性作为关键词嵌入提示词中并逐一利用大语言模型生成连贯通顺的文本语料。

33、此外,本专利技术还提供一种多表格电力技术标准pdf解析系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述多表格电力技术标准pdf解析方法。

34、此外,本专利技术还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序或指令,该计算机程序或指令被编程或配置以通过处理器执行所述多表格电力技术标准pdf解析方法。

35、此外,本专利技术还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被编程或配置以通过处理器执行所述多表格电力技术标准pdf解析方法。

36、和现有技术相比,本专利技术主要具有下述优点:

...

【技术保护点】

1.一种多表格电力技术标准PDF解析方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的多表格电力技术标准PDF解析方法,其特征在于,所述针对表格图像进行表格以及角点定位检测包括:

3.根据权利要求1所述的多表格电力技术标准PDF解析方法,其特征在于,所述针对表格图像进行表格结构解析得到单元格矩形框包括:将表格图像转换为二值图,应用一次迭代的3×3核均值滤波器来生成转换图像以将二值图中为1的部分像素膨胀扩大以增加表格线条在图像中的锐利程度和细节表现;将转换图像采用指定的神经网络模型提取各个表格单元格的单元格矩形框,包括左上角坐标和右下角坐标。

4.根据权利要求1所述的多表格电力技术标准PDF解析方法,其特征在于,所述将单元格矩形框和文本矩形框匹配以确定单元格的文字内容包括:针对每一个文本矩形框,分别计算该文本矩形框与各个单元格矩形框之间的交并比:

5.根据权利要求1所述的多表格电力技术标准PDF解析方法,其特征在于,所述对单元格矩形框进行表头单元格分类是指将单元格矩形框利用基于Transformer编码器改进得到的CoPETransformer模型进行表头单元格分类为表头单元格和普通单元格,所述Transformer编码器由位置编码模块和多个堆叠的多头自注意力机制模块和前馈网络层组成,所述改进包括改进Transformer编码器的多头自注意力机制模块,且改进后的多头自注意力机制模块中每一个注意力头针对输入的长度为、维数为的输入序列的处理包括:首先将其处理成三个线性投影,分别得到查询、键、值,结合对角线矩阵进行协同位置信息的编码合并计算注意力大小:

6.根据权利要求1所述的多表格电力技术标准PDF解析方法,其特征在于,所述结合识别得到的表头单元格和普通单元格以及文字内容进行表格结构重构包括:针对每一个表格的表头单元格,其中代表第个单元格的左上角顶点的横坐标,代表第个单元格的左上角顶点的纵坐标,代表第个单元格的右下角顶点的横坐标,代表第个单元格的右下角顶点的纵坐标,确定表头单元格最左侧的横坐标和最右侧的横坐标得到该表头单元格的行方向上的边界;引入一个边界容忍阈值,其中表示所有单元格的宽度的最小值,结合边界容忍阈值进行合并单元格判断与表格重构,包括:依次遍历单元格进行两两比对,当,则判断该单元格为一个行方向上的合并单元格,对于该单元格应该将其对应文本填充进入进列方向上的单元格,若表头中无行方向上的合并单元格,该组则所有表头类型的合并单元格按照横坐标顺序进行排列,最终得到重构后的表格结构。

7.根据权利要求1所述的多表格电力技术标准PDF解析方法,其特征在于,所述基于重构后的表格内容利用大语言模型生成连贯通顺的文本语料包括:构建指令数据集;针对选定的大语言模型使用指令数据集进行指令微调;构造一个通用且规则的提示词,使用重构后的表格结构的表头和表头对应的属性作为关键词嵌入提示词中并逐一利用大语言模型生成连贯通顺的文本语料。

8.一种多表格电力技术标准PDF解析系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~7中任意一项所述多表格电力技术标准PDF解析方法。

9.一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序或指令,其特征在于,该计算机程序或指令被编程或配置以通过处理器执行权利要求1~7中任意一项所述多表格电力技术标准PDF解析方法。

10.一种计算机程序产品,包括计算机程序或指令,其特征在于,该计算机程序或指令被编程或配置以通过处理器执行权利要求1~7中任意一项所述多表格电力技术标准PDF解析方法。

...

【技术特征摘要】

1.一种多表格电力技术标准pdf解析方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的多表格电力技术标准pdf解析方法,其特征在于,所述针对表格图像进行表格以及角点定位检测包括:

3.根据权利要求1所述的多表格电力技术标准pdf解析方法,其特征在于,所述针对表格图像进行表格结构解析得到单元格矩形框包括:将表格图像转换为二值图,应用一次迭代的3×3核均值滤波器来生成转换图像以将二值图中为1的部分像素膨胀扩大以增加表格线条在图像中的锐利程度和细节表现;将转换图像采用指定的神经网络模型提取各个表格单元格的单元格矩形框,包括左上角坐标和右下角坐标。

4.根据权利要求1所述的多表格电力技术标准pdf解析方法,其特征在于,所述将单元格矩形框和文本矩形框匹配以确定单元格的文字内容包括:针对每一个文本矩形框,分别计算该文本矩形框与各个单元格矩形框之间的交并比:

5.根据权利要求1所述的多表格电力技术标准pdf解析方法,其特征在于,所述对单元格矩形框进行表头单元格分类是指将单元格矩形框利用基于transformer编码器改进得到的copetransformer模型进行表头单元格分类为表头单元格和普通单元格,所述transformer编码器由位置编码模块和多个堆叠的多头自注意力机制模块和前馈网络层组成,所述改进包括改进transformer编码器的多头自注意力机制模块,且改进后的多头自注意力机制模块中每一个注意力头针对输入的长度为、维数为的输入序列的处理包括:首先将其处理成三个线性投影,分别得到查询、键、值,结合对角线矩阵进行协同位置信息的编码合并计算注意力大小:

6.根据权利要求1所述的多表格电力技术标准pdf解析方法,其特征在于,所述结合识别得到的表头单元格和普通单元格以及文字内容...

【专利技术属性】
技术研发人员:彭双剑张可人徐先勇刘帅肖剑张文静颜超龙彦伯陈卓单楚栋吴晟黄志鸿左沅君陈骏星溆孙云龙全权毛柳明陈鸣蔡宇翔肖莺高成德甘湘砚程浩军
申请(专利权)人:国网湖南省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1