文档结构的估计制造技术

技术编号：14743897 阅读：57 留言：0更新日期：2017-03-01 19:39

本申请涉及文档结构的估计。更具体而言，一种用于估计文档的文档结构的系统和方法包括：从文档中提取描述文档结构的一个或更多个候选要素，和将一个或更多个候选要素分组为组，和构建组的一个或更多个树。每个树具有选自组中的候选要素的根节点和叶节点。该方法还包括：基于与从根节点到叶节点的路径对应的文本是否容纳于词语的单个组中，在留下到该叶节点的路径的同时，修剪一个或更多个树。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般涉及文档分析，更特别地，涉及文档结构的估计。
技术介绍
由于大量的信息存储于诸如办公室文档、网络内容等的非结构化数据格式中，因此，非结构化文档中的包含章、节、段落、中间点(middledot)、有序列表等的文档结构的识别是十分重要的。例如，在自然语言处理(NLP)中，不必要的文本(诸如编号的引用)需要在NLP之前被去除。为了开发比较合同文档之间的条款的软件，例如，需要识别条款的范围。但是，非结构化的文档不共享任何常用的结构定义，并且在非结构化文档中可用的公用信息仅仅是文本信息。由于文档结构可能根据其目标、作者的个性等改变，因此，即使文档格式是相同的，文档结构的定义也可能会不同。关于文档结构的识别，国际公开WO2014/005610公开了多级列表检测引擎。该多级列表检测引擎基于列表标识符的存在识别固定格式文本中的列表要素。基于各列表要素相对于其它列表要素的特性，列表要素被分组到列表中。然后基于列表要素在列表内的相对特性，将列表要素分配给列表级。最后，如果必要的话，级列表分配被验证和校正，级被合并，并且在适当的情况下列表被一致地被格式化以创建最终的格式良好的动态多级列表对象。但是，用于估计文档结构的常规技术往往犯错误。例如，并不构成任何列表的要素(如编号的引用)可能常常被不正确地检测为列表要素。由于存在于与一定的内嵌列表不同的语句中因而应与内嵌列表分开地识别的要素可能常常与内嵌列表要素混合。相反，由于存在于一定内嵌列表要素存在的单一语句中因而应与内嵌列表一起识别的要素常常会被忽略。因此，所需要的是能够在尽可能地防止错误的同时以良好的精度基于包含...
文档结构的估计

【技术保护点】
一种用于估计文档的文档结构的方法，包括：从文档中提取描述文档结构的一个或更多个候选要素；将一个或更多个候选要素分组为组；构建组的一个或更多个树，每个树具有选自组中的候选要素的根节点和叶节点；和基于与从根节点到叶节点的路径对应的文本是否容纳于词语的单个组中，在留下到所述叶节点的所述路径的同时，修剪所述一个或更多个树。

【技术特征摘要】
2015.08.21 US 14/832,4441.一种用于估计文档的文档结构的方法，包括：从文档中提取描述文档结构的一个或更多个候选要素；将一个或更多个候选要素分组为组；构建组的一个或更多个树，每个树具有选自组中的候选要素的根节点和叶节点；和基于与从根节点到叶节点的路径对应的文本是否容纳于词语的单个组中，在留下到所述叶节点的所述路径的同时，修剪所述一个或更多个树。2.根据权利要求1所述的方法，其中，所述分组是基于与候选要素进行匹配的提取规则和根据与候选要素邻接的相邻要素进行的分类的组合执行的。3.根据权利要求1所述的方法，其中，所述修剪包含：将所述一个或更多个树中的未分支树识别为有效未分支树；和从所述一个或更多个树中的剩余分支树去除与已在所述有效未分支树中发现的节点重叠的不一致节点。4.根据权利要求3所述的方法，其中，所述修剪还包含：基于已在有效未分支树中发现的有效节点和分支的位置，修剪掉在所述有效节点上延伸的不一致分支。5.根据权利要求3所述的方法，其中，所述未分支树包含容纳于词语的单个组中的未分支树和/或在词语的多个组上扩展的未分支树。6.根据权利要求3所述的方法，其中，所述修剪还包含：如果存在没有被识别为有效树的剩余树，那么基于启发规则识别被视为有效树的链；和迭代地重复未分支树的识别和不一致节点的去除。7.根据权利要求1所述的方法，其中，所述修剪包含：在所述一个或更多个树中，与没有前缀或前面换行代码的其它树相比，对具有伴随前缀和/或前面换行代码的候选要素的树分配较高的优先级。8.根据权利要求3所述的方法，还包括基于有效未分支树的位置确定所述有效未分支树之间的层级。9.根据权利要求1所述的方法，还包括从所述一个或更多个候选要素中去除不描述所述文档结构的无效地提取的要素。10.根据权利要求1所述的方法，其中，所述文档是文本文档，词语的单个组是单个语句，并且候选要素包含有序的对象或无序的对象。11.根据权利要求1所述的方法，其中，各树容纳沿...

【专利技术属性】
技术研发人员：初鸟阳一，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人