文档结构的估计制造技术

技术编号:14743897 阅读:50 留言:0更新日期:2017-03-01 19:39
本申请涉及文档结构的估计。更具体而言,一种用于估计文档的文档结构的系统和方法包括:从文档中提取描述文档结构的一个或更多个候选要素,和将一个或更多个候选要素分组为组,和构建组的一个或更多个树。每个树具有选自组中的候选要素的根节点和叶节点。该方法还包括:基于与从根节点到叶节点的路径对应的文本是否容纳于词语的单个组中,在留下到该叶节点的路径的同时,修剪一个或更多个树。

【技术实现步骤摘要】

本专利技术一般涉及文档分析,更特别地,涉及文档结构的估计
技术介绍
由于大量的信息存储于诸如办公室文档、网络内容等的非结构化数据格式中,因此,非结构化文档中的包含章、节、段落、中间点(middledot)、有序列表等的文档结构的识别是十分重要的。例如,在自然语言处理(NLP)中,不必要的文本(诸如编号的引用)需要在NLP之前被去除。为了开发比较合同文档之间的条款的软件,例如,需要识别条款的范围。但是,非结构化的文档不共享任何常用的结构定义,并且在非结构化文档中可用的公用信息仅仅是文本信息。由于文档结构可能根据其目标、作者的个性等改变,因此,即使文档格式是相同的,文档结构的定义也可能会不同。关于文档结构的识别,国际公开WO2014/005610公开了多级列表检测引擎。该多级列表检测引擎基于列表标识符的存在识别固定格式文本中的列表要素。基于各列表要素相对于其它列表要素的特性,列表要素被分组到列表中。然后基于列表要素在列表内的相对特性,将列表要素分配给列表级。最后,如果必要的话,级列表分配被验证和校正,级被合并,并且在适当的情况下列表被一致地被格式化以创建最终的格式良好的动态多级列表对象。但是,用于估计文档结构的常规技术往往犯错误。例如,并不构成任何列表的要素(如编号的引用)可能常常被不正确地检测为列表要素。由于存在于与一定的内嵌列表不同的语句中因而应与内嵌列表分开地识别的要素可能常常与内嵌列表要素混合。相反,由于存在于一定内嵌列表要素存在的单一语句中因而应与内嵌列表一起识别的要素常常会被忽略。因此,所需要的是能够在尽可能地防止错误的同时以良好的精度基于包含的文本信息从非结构化文档中估计文档结构的方法、相关的计算机系统和计算机程序产品。
技术实现思路
本专利技术解决现有技术的以上问题和缺点,其中,提供了用于估计文档的文档结构的方法、计算机系统和计算机程序产品。根据本专利技术的一个实施例,提供了一种用于估计文档的文档结构的方法。该方法包括从文档中提取描述文档结构的一个或更多个候选要素。该方法还包括将一个或更多个候选要素分组为组,并且构建组的一个或更多个树,每个树具有选自组中的候选要素的根节点和叶节点。该方法还包括:基于与从根节点到叶节点的路径对应的文本是否容纳于词语的单个组中,在留下到该叶节点的路径的同时,修剪一个或更多个树。根据本专利技术的一个实施例,通过该方法获得的文档结构可给出更高的估计精度。描述存在于词语的单个组中的要素的结构可被正确地识别。可防止诸如外来要素混入存在于词语的不同组中的要素中和忽略存在于词语的单个组中的要素的错误。根据本原理,在一个实施例中,基于与候选要素进行匹配的提取规则和根据与候选要素邻接的相邻要素进行的分类的组合执行分组。因此,描述文档结构的一定部分结构的要素的组可被适当地识别,由此防止不描述任何文档结构的要素的不正确检测和混入。根据本原理,在一个实施例中,修剪包含将一个或更多个树中的未分支树识别为有效未分支树。修剪还包含从一个或更多个树中的剩余分支树去除与已在有效未分支树中发现的节点重叠的不一致节点。因此,可基于文档中的可用信息有效地估计文档结构。还描述了与本原理的一个或更多个方面有关的计算机系统和计算机程序产品并且在这里要求其权利。此外,根据本原理的另一实施例,提供了一种用于从文档估计文档结构的方法。该方法包括基于表征要被提取的要素的提取规则从文档中提取描述文档结构的一个或更多个候选要素。该方法还包括基于与候选要素进行匹配的提取规则和根据与候选要素邻接的相邻要素进行的分类的组合将一个或更多个候选要素分组为组。该方法还包括构建组的一个或更多个树,每个树具有选自组中的候选要素的根节点和叶节点。此外,该方法包括:对于各树,基于从根节点到叶节点的路径,修剪一个或更多个树,以识别一个或更多个树中的未分支树。通过根据本专利技术的一个实施例的方法获得的文档结构可给出更高的估计精度。描述文档结构的一定部分结构的要素的组可被正确地识别,由此防止不描述任何文档结构的要素的不正确检测和混入。通过本专利技术的技术实现附加的特征和优点。本专利技术的其它实施例和方面在这里被详细描述,并且被视为要求保护的专利技术的一部分。附图说明在作为说明书的结论的权利要求中特别指出被视为本专利技术的主题并且明确要求其权利。从结合附图给出的以下的详细描述,本专利技术的以上和其它特征和优点变得清晰,其中,图1A和图1B表示可能在文档结构估计处理中出现的错误的例子;图2示出根据本专利技术的第一实施例的文档分析系统的框图;图3是示出根据本专利技术的第二实施例的用于估计非结构化文档的文档结构的处理的流程图;图4表示用于根据本专利技术的第二实施例的处理的具有候选要素的指示的文本文档的例子;图5示出通过根据本专利技术的第二实施例的处理从图4所示的文本文档提取的一个或更多个候选要素;图6A表示在图3所示的块S101中无效地提取的要素的例子;图6B利用图4所示的文本文档中的“section2”的放大部分描述根据前面字符进行的候选要素的分类;图7示出基于提取规则与根据前面字符进行的分类的组合对各组构建的一个或更多个要素树;图8利用图4所示的文本文档中的“section1”的放大部分描述内嵌要素的修剪;图9表示图7所示的树中的识别的有效未分支树,并且描述通过比较在目标树与有效未分支树之间的要素进行的不一致分配的修剪;图10A表示输入文本文档的另一样本;图10B表示基于有效节点和分支的位置修剪不一致分配的另一方式;图11表示通过对图4所示的文本文档迭代图3所示的块S106~S109进行修剪的结果;图12表示通过根据本专利技术的第二实施例的处理估计的文档结构的结果;图13表示根据本专利技术的一个或更多个实施例的文档结构估计处理的使用情况的一个例子;图14示出根据本专利技术的实施例的云计算节点;图15示出根据本专利技术的实施例的云计算环境;以及图16示出根据本专利技术的实施例的抽象模型层。具体实施方式通过使用特定实施例描述本原理,并且应当理解,以下描述的实施例仅指的是例子,而不是要限制本专利技术的范围。根据本原理的一个或更多个实施例针对用于估计文档的文档结构的方法和计算机系统。为了正确地估计文档的文档结构,可能需要基于作为在非结构化文档中仅可用的共用信息的文本信息识别描述文档结构的要素和要素的分配,同时在可能的情况下防止错误。图1表示可能在文档结构估计处理中出现的错误的例子。在估计处理中,由于存在于与一定的内嵌列表不同的语句中因而应与内嵌列表分开地识别的要素可能与内嵌列表要素混合。相反,由于存在于一定内嵌列表要素存在的单一语句中因而应与内嵌列表一起识别的要素可能被忽略。在图1A和图1B中,示出包含具有小写罗马字母序列的两串有序列表的样本文本,每个串具有相互不同的语句次序。图1A表示被不正确估计的例子,而图1B表示样本文本的正确答案。如图1B所示,被圆包围的“(i)”和“(ii)”列表要素应与被方框包围的“(i)”、“(ii)”、和“(iii)”列表要素分开地被识别,原因是被圆包围的要素和被方框包围的要素分别构成不同的内嵌(in-line)列表。但是,如图1A所示,被方框包围的“(iii)”列表要素可在被圆包围的“(i)”和“(ii)”要素后面被识别,从而构成包含被圆包围的“(i)”和“(ii)”要素和被方框包本文档来自技高网
...
文档结构的估计

【技术保护点】
一种用于估计文档的文档结构的方法,包括:从文档中提取描述文档结构的一个或更多个候选要素;将一个或更多个候选要素分组为组;构建组的一个或更多个树,每个树具有选自组中的候选要素的根节点和叶节点;和基于与从根节点到叶节点的路径对应的文本是否容纳于词语的单个组中,在留下到所述叶节点的所述路径的同时,修剪所述一个或更多个树。

【技术特征摘要】
2015.08.21 US 14/832,4441.一种用于估计文档的文档结构的方法,包括:从文档中提取描述文档结构的一个或更多个候选要素;将一个或更多个候选要素分组为组;构建组的一个或更多个树,每个树具有选自组中的候选要素的根节点和叶节点;和基于与从根节点到叶节点的路径对应的文本是否容纳于词语的单个组中,在留下到所述叶节点的所述路径的同时,修剪所述一个或更多个树。2.根据权利要求1所述的方法,其中,所述分组是基于与候选要素进行匹配的提取规则和根据与候选要素邻接的相邻要素进行的分类的组合执行的。3.根据权利要求1所述的方法,其中,所述修剪包含:将所述一个或更多个树中的未分支树识别为有效未分支树;和从所述一个或更多个树中的剩余分支树去除与已在所述有效未分支树中发现的节点重叠的不一致节点。4.根据权利要求3所述的方法,其中,所述修剪还包含:基于已在有效未分支树中发现的有效节点和分支的位置,修剪掉在所述有效节点上延伸的不一致分支。5.根据权利要求3所述的方法,其中,所述未分支树包含容纳于词语的单个组中的未分支树和/或在词语的多个组上扩展的未分支树。6.根据权利要求3所述的方法,其中,所述修剪还包含:如果存在没有被识别为有效树的剩余树,那么基于启发规则识别被视为有效树的链;和迭代地重复未分支树的识别和不一致节点的去除。7.根据权利要求1所述的方法,其中,所述修剪包含:在所述一个或更多个树中,与没有前缀或前面换行代码的其它树相比,对具有伴随前缀和/或前面换行代码的候选要素的树分配较高的优先级。8.根据权利要求3所述的方法,还包括基于有效未分支树的位置确定所述有效未分支树之间的层级。9.根据权利要求1所述的方法,还包括从所述一个或更多个候选要素中去除不描述所述文档结构的无效地提取的要素。10.根据权利要求1所述的方法,其中,所述文档是文本文档,词语的单个组是单个语句,并且候选要素包含有序的对象或无序的对象。11.根据权利要求1所述的方法,其中,各树容纳沿...

【专利技术属性】
技术研发人员:初鸟阳一
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1