System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型和抽取目标的文档数据抽取方法及系统技术方案_技高网

一种基于大模型和抽取目标的文档数据抽取方法及系统技术方案

技术编号:42334750 阅读:7 留言:0更新日期:2024-08-14 16:10
本申请涉及自然语言处理技术领域,具体提供一种基于大模型和抽取目标的文档数据抽取方法及系统,旨在解决大量不同的非通用模型、流程和规则导致知识抽取的通用性和灵活性较差的问题。为此目的,本申请对文档数据进行统一格式转换和划分,生成对应的文档树,基于文档树利用匹配算法获取与抽取目标匹配的文档树节点,基于大模型、抽取目标以及文档树节点抽取文档数据。本申请实现了对多种格式文档数据进行统一抽取的目的,达到了减少大模型抽取噪声以及降低大模型工作量的效果,解决了不同类型数据抽取需要训练不同算法模型,导致知识抽取的通用性和灵活性较差的问题。

【技术实现步骤摘要】

本申请涉及自然语言处理,具体提供一种基于大模型和抽取目标的文档数据抽取方法及系统


技术介绍

1、随着人工智能的发展,使用大模型从海量文档中抽取所需信息成为一个研究热点。但是文档中除了包含文本数据,还包含其他如图片、表格等类型的数据,不同类型数据抽取通常需要训练不同的算法模型。大量不同的非通用模型、流程和规则导致知识抽取的通用性和灵活性较差。

2、相应地,本领域需要一种新的基于抽取目标的文档数据抽取方案来解决上述问题。


技术实现思路

1、本申请旨在解决上述技术问题,即,解决大量不同的非通用模型、流程和规则导致知识抽取的通用性和灵活性较差的问题。

2、在第一方面,本申请提供一种基于大模型和抽取目标的文档数据抽取方法,方法包括:对文档数据进行统一格式转换和划分,生成对应的文档树;基于文档树利用匹配算法获取与抽取目标匹配的文档树节点;基于大模型、抽取目标以及文档树节点抽取文档数据。

3、在上述基于大模型和抽取目标的文档数据抽取方法的一个技术方案中,任一文档树节点包括对应的文档编号、节点编号、父节点编号、叶子节点信息以及文本信息。

4、在上述基于大模型和抽取目标的文档数据抽取方法的一个技术方案中,文档树包括文本文档树,对文档数据进行统一格式转换和划分,生成对应的文档树,包括:将文档数据统一转换为文本数据;根据预设文档结构对文本数据进行划分;基于划分后的文本数据生成文本文档树。

5、在上述基于大模型和抽取目标的文档数据抽取方法的一个技术方案中,基于划分后的文本数据生成文本文档树,包括:根据划分后的文本数据提取对应的概括信息;基于划分后的文本数据以及对应的概括信息生成文本文档树。

6、在上述基于大模型和抽取目标的文档数据抽取方法的一个技术方案中,文档树还包括向量文档树,方法还包括:将文本文档树转换成向量文档树。

7、在上述基于大模型和抽取目标的文档数据抽取方法的一个技术方案中,基于文档树利用匹配算法获取与抽取目标匹配的文档树节点,包括:利用匹配算法生成抽取目标与文本文档树各节点的文本匹配得分;利用匹配算法生成抽取目标与向量文档树各节点的向量匹配得分;基于各节点的文本匹配得分以及各节点的向量匹配得分计算各节点的匹配分数;基于预设策略根据匹配分数获取与抽取目标相关的文本文档树节点。

8、在上述基于大模型和抽取目标的文档数据抽取方法的一个技术方案中,基于大模型、抽取目标以及文档树节点抽取文档数据,包括:获取与抽取目标相关的文本文档树节点对应的文本信息;利用大模型根据抽取目标、文本信息以及预设抽取要求抽取文档数据。

9、在第二方面,本申请提供一种基于大模型和抽取目标的文档数据抽取系统,系统包括:文档树生成模块,用于对文档数据进行统一格式转换和划分,生成对应的文档树;节点匹配模块,用于基于文档树利用匹配算法获取与抽取目标匹配的文档树节点;数据抽取模块,用于基于大模型、抽取目标以及文档树节点抽取文档数据。

10、在上述基于大模型和抽取目标的文档数据抽取系统的一个技术方案中,任一文档树节点包括对应的文档编号、节点编号、父节点编号、叶子节点信息以及文本信息。

11、在上述基于大模型和抽取目标的文档数据抽取系统的一个技术方案中,文档树包括文本文档树,文档树生成模块包括:转换单元,用于将文档数据统一转换为文本数据;划分单元,用于根据预设文档结构对文本数据进行划分;文本文档树生成单元,用于基于划分后的文本数据生成文本文档树。

12、在上述基于大模型和抽取目标的文档数据抽取系统的一个技术方案中,文本文档树生成单元包括:提取子单元,用于根据划分后的文本数据提取对应的概括信息;生成子单元,用于基于划分后的文本数据以及对应的概括信息生成文本文档树。

13、在上述基于大模型和抽取目标的文档数据抽取系统的一个技术方案中,文档树还包括向量文档树,系统还包括:文档数转换模块,用于将文本文档树转换成向量文档树。

14、在上述基于大模型和抽取目标的文档数据抽取系统的一个技术方案中,节点匹配模块包括:第一匹配单元,用于利用匹配算法生成抽取目标与文本文档树各节点的文本匹配得分;第二匹配单元,用于利用匹配算法生成抽取目标与向量文档树各节点的向量匹配得分;匹配分数计算单元,用于基于各节点的文本匹配得分以及各节点的向量匹配得分计算各节点的匹配分数;节点抽取单元,用于基于预设策略根据匹配分数获取与抽取目标相关的文本文档树节点。

15、在上述基于大模型和抽取目标的文档数据抽取系统的一个技术方案中,数据抽取模块包括:获取单元,用于获取与抽取目标相关的文本文档树节点对应的文本信息;得到单元,用于利用大模型根据抽取目标、文本信息以及预设抽取要求抽取文档数据。

16、在第三方面,本申请提供一种计算机可读存储介质,其中存储有多条程序代码,程序代码适于由处理器加载并运行以执行上述第一方面或其对应的任一技术方案中的基于大模型和抽取目标的文档数据抽取方法。

17、在第四方面,本申请提供一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器中存储有计算机程序,计算机程序被至少一个处理器执行时实现上述第一方面或其对应的任一技术方案中的基于大模型和抽取目标的文档数据抽取方法。

18、本申请上述一个或多个技术方案,至少具有如下一种或多种

19、有益效果:

20、在实施本申请的技术方案中,通过对文档数据进行统一格式转换和划分,实现了文档格式统一化以及文档数据拆分的目的,根据转换和划分后的文档数据生成对应的文档树,达到了便于查找访问文档数据的效果。基于文档树利用匹配算法获取与抽取目标相匹配的文档树节点,并根据该文档数节点以及抽取目标抽取文档数据,从而实现了对多种格式文档数据进行统一抽取的目的,解决了不同类型数据抽取需要训练不同算法模型,导致知识抽取的通用性和灵活性较差的问题。

21、在实施本申请的技术方案中,通过将文本文档树转换成向量文档树,利用匹配算法基于文本文档树以及向量文档树共同确定与抽取目标相匹配的节点,实现了提高节点抽取准确性和可靠性的目的,从而减少了噪声对知识抽取的影响。

22、在实施本申请的技术方案中,通过提取划分后的文本数据对应的概括信息,利用该概括信息和划分后的文本数据生成文本文档树,实现了提高生成的文本文档树质量,以及进一步减少噪声对知识抽取影响的目的。

本文档来自技高网...

【技术保护点】

1.一种基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,任一文档树节点包括对应的文档编号、节点编号、父节点编号、叶子节点信息以及文本信息。

3.根据权利要求2所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述文档树包括文本文档树,所述对文档数据进行统一格式转换和划分,生成对应的文档树,包括:

4.根据权利要求3所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述基于划分后的文本数据生成文本文档树,包括:

5.根据权利要求3所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述文档树还包括向量文档树,所述方法还包括:

6.根据权利要求5所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述基于所述文档树利用匹配算法获取与抽取目标匹配的文档树节点,包括:

7.根据权利要求6所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述基于大模型、抽取目标以及所述文档树节点抽取文档数据,包括:

8.一种基于大模型和抽取目标的文档数据抽取系统,其特征在于,所述系统包括:

9.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的基于大模型和抽取目标的文档数据抽取方法。

10.一种电子设备,其特征在于,包括:

...

【技术特征摘要】

1.一种基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,任一文档树节点包括对应的文档编号、节点编号、父节点编号、叶子节点信息以及文本信息。

3.根据权利要求2所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述文档树包括文本文档树,所述对文档数据进行统一格式转换和划分,生成对应的文档树,包括:

4.根据权利要求3所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述基于划分后的文本数据生成文本文档树,包括:

5.根据权利要求3所述的基于大模型和抽取目标的文档数据抽取方法,其特征在于,所述文档树还包括...

【专利技术属性】
技术研发人员:邱凌峰孙毓培
申请(专利权)人:上海云从企业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1