一种信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35213427 阅读:20 留言:0更新日期:2022-10-15 10:27
本发明专利技术实施例公开了一种信息提取方法、装置、电子设备及存储介质。该方法包括:获取从文档中提取出来的线段元素和字符元素;基于线段元素构建表格框,并针对每个表格框,将位于表格框内的各字符元素聚合为框内语句;针对各表格框组成的表格,获取针对表格输入的关键字词,基于关键字词将各框内语句分别划分为键语句或值语句;针对每个键语句,从各框内语句中确定与键语句匹配的值语句,并将键语句以及匹配的值语句作为从文档中提取出来的结构化信息。本发明专利技术实施例的技术方案,可以从文档中自动化提取出结构化信息。动化提取出结构化信息。动化提取出结构化信息。

【技术实现步骤摘要】
一种信息提取方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及自然语言处理
,尤其涉及一种信息提取方法、装置、电子设备及存储介质。

技术介绍

[0002]文档(如各类证件、票据、表单和报告等)中因为包含大量的文本、布局和格式等信息,已经成为人们日常工作生活中十分常用并且重要的文件形式。
[0003]为了更好地利用文档,首要前提是从文档中自动提取出文档元素。目前,可以基于光学字符识别(Optical Character Recognition,OCR)或是锚点搜索等方案实现某些文档元素的自动提取。
[0004]但是,作为文档元素的常见形式—表格中的结构化信息,上述方案均无法实现结构化信息的自动提取。

技术实现思路

[0005]本专利技术实施例提供了一种信息提取方法、装置、电子设备及存储介质,以从文档中自动提取出结构化信息。
[0006]根据本专利技术的一方面,提供了一种信息提取方法,可以包括:
[0007]获取从文档中提取出来的线段元素和字符元素;
[0008]基于线段元素构建表格框,并针对每个表格框,将位于表格框内的各字符元素聚合为框内语句;
[0009]针对各表格框组成的表格,获取针对表格输入的关键字词,基于关键字词将各框内语句分别划分为键语句或是值语句;
[0010]针对每个键语句,从各框内语句中确定与键语句匹配的值语句,并将键语句以及匹配的值语句作为从文档中提取出来的结构化信息。
[0011]根据本专利技术的另一方面,提供了一种信息提取装置,可以包括:
[0012]字符元素获取模块,用于获取从文档中提取出来的线段元素和字符元素;
[0013]字符元素聚合模块,用于基于线段元素构建表格框,并针对每个表格框,将位于表格框内的各字符元素聚合为框内语句;
[0014]框内语句划分模块,用于针对由各表格框组成的表格,获取针对表格输入的关键字词,基于关键字词将各框内语句分别划分为键语句或是值语句;
[0015]结构化信息提取模块,用于针对每个键语句,从各框内语句中确定与键语句匹配的值语句,并将键语句以及匹配的值语句作为从文档中提取出来的结构化信息。
[0016]根据本专利技术的另一方面,提供了一种电子设备,可以包括:
[0017]至少一个处理器;以及
[0018]与至少一个处理器通信连接的存储器;其中,
[0019]存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处
理器执行,以使至少一个处理器执行时实现本专利技术任意实施例所提供的信息提取方法。
[0020]根据本专利技术的另一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令用于使处理器执行时实现本专利技术任意实施例所提供的信息提取方法。
[0021]本专利技术实施例的技术方案,通过获取从文档中提取出来的线段元素和字符元素,然后基于线段元素构建表格框,并针对每个表格框,将位于表格框内的各字符元素聚合为框内语句;进而,针对各表格框组成的表格,获取针对表格输入的关键字词,并基于关键字词将各框内语句分别划分为键语句或是值语句;由此,针对每个键语句,可以从各框内语句中确定与键语句匹配的值语句,并将键语句与匹配的值语句作为从文档中提取出来的结构化信息。上述技术方案,可以从文档中自动提取出结构化信息。
[0022]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或是重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是根据本专利技术实施例提供的一种信息提取方法的流程图;
[0025]图2是根据本专利技术实施例提供的另一种信息提取方法的流程图;
[0026]图3是根据本专利技术实施例提供的另一种信息提取方法中的字符元素、字符框以及字符框坐标的示意图;
[0027]图4是根据本专利技术实施例提供的另一种信息提取方法的流程图;
[0028]图5是根据本专利技术实施例提供的另一种信息提取方法的流程图;
[0029]图6是根据本专利技术实施例提供的另一种信息提取方法中的可选示例的系统架构图;
[0030]图7a是根据本专利技术实施例提供的另一种信息提取方法中的框外字符聚合的第一示意图;
[0031]图7b是根据本专利技术实施例提供的另一种信息提取方法中的框外字符聚合的第二示意图;
[0032]图8a是根据本专利技术实施例提供的另一种信息提取方法中的语句相距距离的第一确定示意图;
[0033]图8b是根据本专利技术实施例提供的另一种信息提取方法中的语句相距距离的第二确定示意图;
[0034]图9是根据本专利技术实施例提供的一种信息提取装置的结构框图;
[0035]图10是实现本专利技术实施例的信息提取方法的电子设备的结构示意图。
具体实施方式
[0036]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是
本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0037]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似,在此不再赘述。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0038]图1是本专利技术实施例中所提供的一种信息提取方法的流程图。本实施例可适用于从文档中提取出结构化信息的情况。该方法可以由本专利技术实施例提供的信息提取装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可集成在电子设备上,该电子设备可以是各种用户终端或服务器。
[0039]参见图1,本专利技术实施例的方法具体包括如下步骤:
[0040]S110、获取从文档中提取出来的线段元素和字符元素。
[0041]其中,文档可以是待从中提取出结构化信息的文档,在实际应用中,文档的文档格式可以是doc、docx或是便携式文档格式(Portable Document Format,pdf)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:获取从文档中提取出来的线段元素和字符元素;基于所述线段元素构建表格框,并针对每个所述表格框,将位于所述表格框内的各所述字符元素聚合为框内语句;针对各所述表格框组成的表格,获取针对所述表格输入的关键字词,基于所述关键字词将各所述框内语句分别划分为键语句或是值语句;针对每个所述键语句,从各所述框内语句中确定与所述键语句匹配的所述值语句,并将所述键语句以及匹配的所述值语句作为从所述文档中提取出来的结构化信息。2.根据权利要求1所述的方法,其特征在于,所述针对每个所述表格框,将位于所述表格框内的各所述字符元素聚合为框内语句,包括:针对每个所述表格框,将位于所述表格框内的所述字符元素作为框内字符;获取所述表格框内各所述框内字符的框内排序结果,并按照所述框内排序结果将各所述框内字符聚合为框内语句。3.根据权利要求2所述的方法,其特征在于,还包括:对各所述字符元素进行排序,得到字符排序结果;所述获取所述表格框内各所述框内字符的框内排序结果,包括:根据所述表格框内各所述框内字符在所述字符排序结果中的框内排序位置,得到各所述框内字符的框内排序结果。4.根据权利要求3所述的方法,其特征在于,所述对各所述字符元素进行排序,得到字符排序结果,包括:分别获取各所述字符元素所在的字符框的字符框坐标,并根据各所述字符元素的所述字符框坐标对各所述字符元素进行排序,得到字符排序结果。5.根据权利要求4所述的方法,其特征在于,所述根据各所述字符元素的所述字符框坐标对各所述字符元素进行排序,得到字符排序结果,包括:根据各所述字符元素在列方向上的所述字符框坐标,从各所述字符元素中确定位于同一行的同行字符,其中,所述列方向垂直于所述文档中的行所在的行方向;根据各所述同行字符在所述行方向的所述字符框坐标,对各所述同行字符进行排序,以得到各所述字符元素的字符排序结果。6.根据权利要求1所述的方法,其特征在于,从各所述框内语句中确定与所述键语句匹配的所述值语句,包括:从各所述框内语句中确定位于所述键语句的预设方向上的第一方向语句;根据各所述第一方向语句与所述键语句间的语句相距距离,从各所述第一方向语句中确定与所述键语句匹配的所述值语句。7.根据权利要求6所述的方法,其特征在于,所述根据各所述第一方向语句与所述键语句间的语句相距距离,从各所述第一方向语句中确定与所述键语句匹配的所述值语句,包括:分别确定各所述第一方向语句与所述键语句间的语句相距距离,并将最小的所述语句相距距离对应的所述第一方向语句作为第一最近语句;在所述第一最近语句被划分为所述值语句的情况下,将所述第一最近语句作为与所述
键语句匹配的所述值语句。8.根据权利要求7所述的方法,其特征在于,所述预设方向包括右方,在所述将最小的所述语句相距距离对应的所述第一方向语句作为第一最近语句后,还包括:在所述第一最近语句被划分为所述键语句的情况下,从各所述框内语句中确定位于所述键语句下方的第二方向语句;确定各所述第二方向语句中与所述键语句距离最近的第二最近语句,并在所述第二最近语句被划分为所述值语句的情况下,将所述第二最近语句作为与所述键语句匹配的所述值语句。9.根据权利要求1所述的方法,其特征在于,还包括:将各所述字符元素中位于所述表格框外的所述字符元素作为框外字符;获取各所述框外字符的框外排序结果,并按照所述框外排序结果将各所述框外字符聚合为框外语句。10.根据权利要求9所述的方法,其特征在于,按照所述框外排序结果将各所述框外字符聚合为框外语句,包括:获取当前处于聚合中状态的目标语句中的末个字符...

【专利技术属性】
技术研发人员:区正辉
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1