【技术实现步骤摘要】
一种信息提取方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及自然语言处理
,尤其涉及一种信息提取方法、装置、电子设备及存储介质。
技术介绍
[0002]文档(如各类证件、票据、表单和报告等)中因为包含大量的文本、布局和格式等信息,已经成为人们日常工作生活中十分常用并且重要的文件形式。
[0003]为了更好地利用文档,首要前提是从文档中自动提取出文档元素。目前,可以基于光学字符识别(Optical Character Recognition,OCR)或是锚点搜索等方案实现某些文档元素的自动提取。
[0004]但是,作为文档元素的常见形式—表格中的结构化信息,上述方案均无法实现结构化信息的自动提取。
技术实现思路
[0005]本专利技术实施例提供了一种信息提取方法、装置、电子设备及存储介质,以从文档中自动提取出结构化信息。
[0006]根据本专利技术的一方面,提供了一种信息提取方法,可以包括:
[0007]获取从文档中提取出来的线段元素和字符元素;
[0008]基于线段元素构建表格框,并针对每个表格框,将位于表格框内的各字符元素聚合为框内语句;
[0009]针对各表格框组成的表格,获取针对表格输入的关键字词,基于关键字词将各框内语句分别划分为键语句或是值语句;
[0010]针对每个键语句,从各框内语句中确定与键语句匹配的值语句,并将键语句以及匹配的值语句作为从文档中提取出来的结构化信息。
[0011]根据本专利技术的另一 ...
【技术保护点】
【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:获取从文档中提取出来的线段元素和字符元素;基于所述线段元素构建表格框,并针对每个所述表格框,将位于所述表格框内的各所述字符元素聚合为框内语句;针对各所述表格框组成的表格,获取针对所述表格输入的关键字词,基于所述关键字词将各所述框内语句分别划分为键语句或是值语句;针对每个所述键语句,从各所述框内语句中确定与所述键语句匹配的所述值语句,并将所述键语句以及匹配的所述值语句作为从所述文档中提取出来的结构化信息。2.根据权利要求1所述的方法,其特征在于,所述针对每个所述表格框,将位于所述表格框内的各所述字符元素聚合为框内语句,包括:针对每个所述表格框,将位于所述表格框内的所述字符元素作为框内字符;获取所述表格框内各所述框内字符的框内排序结果,并按照所述框内排序结果将各所述框内字符聚合为框内语句。3.根据权利要求2所述的方法,其特征在于,还包括:对各所述字符元素进行排序,得到字符排序结果;所述获取所述表格框内各所述框内字符的框内排序结果,包括:根据所述表格框内各所述框内字符在所述字符排序结果中的框内排序位置,得到各所述框内字符的框内排序结果。4.根据权利要求3所述的方法,其特征在于,所述对各所述字符元素进行排序,得到字符排序结果,包括:分别获取各所述字符元素所在的字符框的字符框坐标,并根据各所述字符元素的所述字符框坐标对各所述字符元素进行排序,得到字符排序结果。5.根据权利要求4所述的方法,其特征在于,所述根据各所述字符元素的所述字符框坐标对各所述字符元素进行排序,得到字符排序结果,包括:根据各所述字符元素在列方向上的所述字符框坐标,从各所述字符元素中确定位于同一行的同行字符,其中,所述列方向垂直于所述文档中的行所在的行方向;根据各所述同行字符在所述行方向的所述字符框坐标,对各所述同行字符进行排序,以得到各所述字符元素的字符排序结果。6.根据权利要求1所述的方法,其特征在于,从各所述框内语句中确定与所述键语句匹配的所述值语句,包括:从各所述框内语句中确定位于所述键语句的预设方向上的第一方向语句;根据各所述第一方向语句与所述键语句间的语句相距距离,从各所述第一方向语句中确定与所述键语句匹配的所述值语句。7.根据权利要求6所述的方法,其特征在于,所述根据各所述第一方向语句与所述键语句间的语句相距距离,从各所述第一方向语句中确定与所述键语句匹配的所述值语句,包括:分别确定各所述第一方向语句与所述键语句间的语句相距距离,并将最小的所述语句相距距离对应的所述第一方向语句作为第一最近语句;在所述第一最近语句被划分为所述值语句的情况下,将所述第一最近语句作为与所述
键语句匹配的所述值语句。8.根据权利要求7所述的方法,其特征在于,所述预设方向包括右方,在所述将最小的所述语句相距距离对应的所述第一方向语句作为第一最近语句后,还包括:在所述第一最近语句被划分为所述键语句的情况下,从各所述框内语句中确定位于所述键语句下方的第二方向语句;确定各所述第二方向语句中与所述键语句距离最近的第二最近语句,并在所述第二最近语句被划分为所述值语句的情况下,将所述第二最近语句作为与所述键语句匹配的所述值语句。9.根据权利要求1所述的方法,其特征在于,还包括:将各所述字符元素中位于所述表格框外的所述字符元素作为框外字符;获取各所述框外字符的框外排序结果,并按照所述框外排序结果将各所述框外字符聚合为框外语句。10.根据权利要求9所述的方法,其特征在于,按照所述框外排序结果将各所述框外字符聚合为框外语句,包括:获取当前处于聚合中状态的目标语句中的末个字符...
【专利技术属性】
技术研发人员:区正辉,
申请(专利权)人:上海浦东发展银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。