System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据提取的方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种数据提取的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40807699 阅读:16 留言:0更新日期:2024-03-28 19:30
本申请公开了一种数据提取的方法、装置、电子设备及存储介质,应用于大数据领域或金融领域。在本申请中,首先获取待处理文本,然后利用OCR模型对所述待处理文本进行识别获取待处理信息,利用预训练模型对所述待处理信息进行编码得到目标信息,基于十字交叉注意力机制对所述目标信息进行特征信息的提取。最后对提取到的所述特征信息进行NER分类及关系抽取,完成数据提取,所述关系抽取用于将同类型的信息进行合并。本申请实现了提高对于文档信息提取的准确性。

【技术实现步骤摘要】

本申请涉及大数据,特别涉及一种数据提取的方法、装置、电子设备及存储介质


技术介绍

1、在保险领域往往会涉及到费用单据的录入,在相关技术中为了提高录入效率会选择采用ocr技术和nlp信息抽取技术进行关键信息抽取进行自动化录入,该技术只能在提取具有语义信息的数据时能够发挥较好的作用。但是当费用单据中包含不具有语义信息的数据,如:数字类数据时,会出现数据提取的错误,文档信息的数据提取的准确性低。


技术实现思路

1、有鉴于此,本申请实施例提供了一种数据提取的方法、装置、电子设备及存储介质,旨在提高对于文档信息提取的准确性。

2、第一方面,本申请实施例提供了一种数据提取的方法,所述方法包括:

3、获取待处理文本;

4、利用ocr模型对所述待处理文本进行识别获取待处理信息;

5、利用预训练模型对所述待处理信息进行编码得到目标信息;

6、基于十字交叉注意力机制对所述目标信息进行特征信息的提取;

7、对提取到的所述特征信息进行ner分类及关系抽取,完成数据提取,所述关系抽取用于将同类型的信息进行合并。

8、可选的,所述待处理文本包括标题栏,在所述对提取到的所述特征信息进行ner分类及关系抽取之前,所述方法还包括:

9、将所述待处理文本的标题栏进行获取;

10、所述对提取到的所述特征信息进行ner分类及关系抽取,包括:

11、基于获取的所述标题栏的信息,对提取到的所述特征信息进行ner分类及关系抽取。

12、可选的,所述基于获取的所述标题栏的信息,对提取到的所述特征信息进行ner分类及关系抽取,包括:

13、对所述标题栏的信息进行编码得到第一信息;

14、将所述第一信息与所述特征信息进行特征融合得到第二信息;

15、基于所述第二信息进行ner分类及关系抽取。

16、可选的,所述对提取到的所述特征信息进行ner分类及关系抽取之前,所述方法还包括:

17、预先设置分类的类别;

18、基于所述类别建立用于归类的词库,所述词库中包括所述特征信息与所述类别之间的映射关系;

19、所述对提取到的所述特征信息进行ner分类及关系抽取,包括:

20、对提取到的所述特征信息基于所述词库中所述映射关系进行ner分类,对完成分类后的特征信息进行关系抽取。

21、可选的,所述基于十字交叉注意力机制对所述目标信息进行特征信息的提取,包括:

22、获取所述目标信息,所述目标信息中包括所述目标信息的内容与行列信息的关联关系;

23、基于所述十字交叉注意力机制及所述关联关系,对所述目标信息中的特征信息的内容以及行列信息进行提取。

24、可选的,所述待处理信息包括文本的内容及文本的内容对应的位置信息,所述利用预训练模型对所述待处理信息进行编码得到目标信息,包括:

25、获取所述待处理信息;

26、利用预训练模型对所述待处理信息中的所述文本的内容及所述文本的内容对应的位置信息进行编码,得到目标信息。

27、可选的,所述待处理文本为图片,所述利用ocr模型对所述待处理文本进行识别获取待处理信息,还包括:

28、将所述图片输入所述ocr模型;

29、利用所述ocr模型对所述图片中的文字内容、文字的相对位置及文字的行列关系进行识别,将识别到的信息作为待处理信息。

30、第二方面,本申请实施例提供了一种数据提取的装置,所述装置包括:获取模块、识别模块、编码模块、提取模块及分类模块;

31、所述获取模块,用于获取待处理文本;

32、所述识别模块,用于利用ocr模型对所述待处理文本进行识别获取特征信息;

33、所述编码模块,用于利用预训练模型对所述特征信息进行编码得到目标信息;

34、所述提取模块,用于基于十字交叉注意力机制对所述目标信息进行所述特征信息的提取;

35、所述分类模块,用于对提取到的所述特征信息进行ner分类及关系抽取,完成数据提取,所述关系抽取用于将同类型的信息进行合并。

36、第三方面,本申请提供了一种电子设备,所述设备包括:处理器、存储器、系统总线;

37、所述处理器以及所述存储器通过所述系统总线相连;

38、所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行实现第一方面所述方法。

39、第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述方法。

40、本申请提供了一种数据提取的方法及系统,在执行所述方法时,首先获取待处理文本,然后利用ocr模型对所述待处理文本进行识别获取待处理信息,利用预训练模型对所述待处理信息进行编码得到目标信息,基于十字交叉注意力机制对所述目标信息进行特征信息的提取。最后对提取到的所述特征信息进行ner分类及关系抽取,完成数据提取,所述关系抽取用于将同类型的信息进行合并。如此,通过使用十字交叉注意力机制能够在对于文本信息进行提取的过程中,增强位置信息与其中的特征信息之间的联系,也即会对各个特征信息之间的位置关系信息进行保留,进而能够提高后续对数据进行提取时的准确性,避免在关系抽取的过程中出现混乱,也即当待处理文本中出现不含有语义信息的数据时,也能够根据位置关系实现对该数据的准确提取。同时通过使用预训练模型对待处理信息进行编码能够使得待处理信息转化为向量形式,便于后续使用十字交叉注意力机制对目标信息中的特征信息进行提取。在完成ner分类后会进行关系抽取,通过关系抽取可以实现对同类型的信息进行合并,能够便于后续用于对于数据的查看及使用。

本文档来自技高网...

【技术保护点】

1.一种数据提取的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述待处理文本包括标题栏,在所述对提取到的所述特征信息进行NER分类及关系抽取之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于获取的所述标题栏的信息,对提取到的所述特征信息进行NER分类及关系抽取,包括:

4.根据权利要求1所述的方法,其特征在于,所述对提取到的所述特征信息进行NER分类及关系抽取之前,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述基于十字交叉注意力机制对所述目标信息进行特征信息的提取,包括:

6.根据权利要求1所述的方法,其特征在于,所述待处理信息包括文本的内容及文本的内容对应的位置信息,所述利用预训练模型对所述待处理信息进行编码得到目标信息,包括:

7.根据权利要求1所述的方法,其特征在于,所述待处理文本为图片,所述利用OCR模型对所述待处理文本进行识别获取待处理信息,还包括:

8.一种数据提取的装置,其特征在于,所述装置包括:获取模块、识别模块、编码模块、提取模块及分类模块;

9.一种电子设备,其特征在于,所述设备包括:处理器、存储器、系统总线;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实现数据提取的方法的实现程序,所述实现数据提取的方法的实现程序被处理器执行时实现如权利要求1-7任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种数据提取的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述待处理文本包括标题栏,在所述对提取到的所述特征信息进行ner分类及关系抽取之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于获取的所述标题栏的信息,对提取到的所述特征信息进行ner分类及关系抽取,包括:

4.根据权利要求1所述的方法,其特征在于,所述对提取到的所述特征信息进行ner分类及关系抽取之前,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述基于十字交叉注意力机制对所述目标信息进行特征信息的提取,包括:

6.根据权利要求1所述的方法,其特征在于,所述待...

【专利技术属性】
技术研发人员:李洪洋
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1