System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档布局的多模式识别制造技术_技高网
当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

文档布局的多模式识别制造技术

技术编号:41734826 阅读:1 留言:0更新日期:2024-06-19 12:54
提供了一种用于文档布局的多模式识别的方法。该方法可以包括基于接收的文档确定多个布局特性,多个布局特性包括接收的文档中包括的一个或多个文档特征的空间位置和/或接收的文档中包括的一个或多个文档特征的数字表示。该方法可以包括通过至少将多个布局特性与多个预定义布局中的第一预定义布局的第一多个预定义布局特性进行比较来生成聚合相似性得分。该方法还可以包括基于聚合相似性得分满足阈值得分,将接收的文档的布局识别为多个预定义布局中的第一预定义布局。该方法还可以包括基于识别的布局执行文档处理操作。提供了相关的系统和方法。

【技术实现步骤摘要】

本文描述的主题一般涉及文档处理,更具体地,涉及文档布局的多模式识别


技术介绍

1、企业软件应用通过从扫描的文档中提取文本和其他信息并将提取的文本转换成可以用于各种目的的数据库条目来处理那些文档。从文档中提取文本或其他信息的方式和/或这样提取的信息的应用可以取决于文档的特定布局。然而,识别文档布局的传统方法通常要么不够具体以至于无法可靠地区分相似但不同的布局,要么这样的方法对于布局中的较小变化(诸如具有不同长度的地址字段)不够稳健。因此,传统方法可能无法确定或者可能不准确地确定文档布局。


技术实现思路

1、提供了用于文档布局的多模式识别的系统、方法和制品,包括计算机程序产品。在一个方面,提供了一种包括至少一个数据处理器和至少一个存储器的系统。该至少一个存储器可以存储当由该至少一个数据处理器执行时引起操作的指令。该操作可以包括:基于接收的文档,确定多个布局特性,多个布局特性包括接收的文档中包括的一个或多个文档特征的空间位置和/或接收的文档中包括的一个或多个文档特征的数字表示。该操作还可以包括通过至少将多个布局特性与多个预定义布局中的第一预定义布局的第一多个预定义布局特性进行比较来生成聚合(aggregated)相似性得分。第一多个预定义布局特性包括具有第一预定义布局的多个样本文档中包括的一个或多个文档特征的平均空间位置和/或具有第一预定义布局的多个样本文档中包括的一个或多个文档特征的平均数字表示。该操作还包括基于聚合相似性得分满足阈值得分,将接收的文档的布局识别为多个预定义布局中的第一预定义布局。该操作还包括基于识别的布局执行文档处理操作。

2、在另一方面,提供了一种用于识别文档布局的方法。该方法可以包括:基于接收的文档确定多个布局特性,多个布局特性包括接收的文档中包括的一个或多个文档特征的空间位置和/或接收的文档中包括的一个或多个文档特征的数字表示。该方法还包括通过至少将多个布局特性与多个预定义布局中的第一预定义布局的第一多个预定义布局特性进行比较来生成聚合相似性得分。第一多个预定义布局特性包括具有第一预定义布局的多个样本文档中包括的一个或多个文档特征的平均空间位置和/或具有第一预定义布局的多个样本文档中包括的一个或多个文档特征的平均数字表示。该方法还包括基于聚合相似性得分满足阈值得分,将接收的文档的布局识别为多个预定义布局中的第一预定义布局。该方法还包括基于识别的布局执行文档处理操作。

3、在另一方面,提供了一种包括非暂时性计算机可读存储介质的计算机程序产品。该非暂时性计算机可读存储介质可以包括程序代码,该程序代码在由至少一个数据处理器执行时引起操作。该操作可以包括:基于接收的文档,确定多个布局特性,多个布局特性包括接收的文档中包括的一个或多个文档特征的空间位置和/或接收的文档中包括的一个或多个文档特征的数字表示。该操作还可以包括通过至少将多个布局特性与多个预定义布局中的第一预定义布局的第一多个预定义布局特性进行比较来生成聚合相似性得分。第一多个预定义布局特性包括具有第一预定义布局的多个样本文档中包括的一个或多个文档特征的平均空间位置和/或具有第一预定义布局的多个样本文档中包括的一个或多个文档特征的平均数字表示。该操作还包括基于聚合相似性得分满足阈值得分,将接收的文档的布局识别为多个预定义布局中的第一预定义布局。该操作还包括基于识别的布局执行文档处理操作。

4、在方法、系统和非暂时性计算机可读介质的一些变体中,以下特征中的一个或多个可以可选地包括在任何可行的组合中。在一些方面,一个或多个文档特征包括文档标题字段、表格标题字段和标志(logo)。空间位置包括文档标题字段的空间位置和表格标题字段的空间位置。数字表示包括标志的数字表示。

5、在一些方面,一个或多个文档特征还包括销售商信息。多个布局特性还包括与销售商信息相关联的标识符。

6、在一些方面,空间位置包括空间坐标。

7、在一些方面,第一多个预定义布局特性还包括与平均空间位置相关联的空间展宽(spatial spread)。

8、在一些方面,当聚合相似性得分小于阈值得分时,聚合相似性得分满足阈值得分。

9、在一些方面,至少通过以下操作进一步生成聚合相似性得分:为多个布局特性中的每一个生成相似性得分,并且聚合为多个布局特性中的每一个生成的相似性得分。

10、在一些方面,第一多个预定义布局特性的平均空间位置至少通过以下操作生成:从多个样本文档中提取一个或多个文档特征,确定多个样本文档的每一个样本文档中的一个或多个提取的文档特征的空间位置,以及对多个样本文档的每一个样本文档中的一个或多个提取的文档特征的空间位置进行平均。

11、在一些方面,在将多个布局特性与多个预定义布局的第二预定义布局的第二多个预定义布局特性进行比较之前,通过至少将多个布局特性与第一多个预定义布局特性进行比较,来进一步生成聚合相似性得分。第二多个预定义布局特性包括具有第二预定义布局的多个样本文档中包括的一个或多个文档特征的平均空间位置和/或具有第二预定义布局的多个样本文档中包括的一个或多个文档特征的平均数字表示。第二预定义布局具有比第一预定义布局更低的执行优先级。

12、在一些方面,文档处理操作包括基于识别的布局将专用提取模型应用于接收的文档、基于识别的布局将校正逻辑应用于接收的文档以校正从接收的文档中提取的值以及基于识别的布局应用定制(custom)提取模型中的至少一个。

13、当前主题的实施方式可以包括与本文提供的描述一致的方法以及包括有形体现的机器可读介质的制品,该机器可读介质可操作来使得一个或多个机器(例如,计算机等)以产生实现一个或多个描述的特征的操作。类似地,还描述了可以包括一个或多个处理器和耦合到一个或多个处理器的一个或多个存储器的计算机系统。可以包括非暂时性计算机可读或机器可读存储介质的存储器可以包括、编码、存储等一个或多个程序,一个或多个程序使得一个或多个处理器执行本文描述的一个或多个操作。与当前主题的一个或多个实施方式一致的计算机实现的方法可以由驻留在单个计算系统或多个计算系统中的一个或多个数据处理器来实现。这样的多个计算系统可以经由一个或多个连接来连接并且可以交换数据和/或命令或其他指令等,一个或多个连接包括例如通过网络(例如,互联网、无线广域网、局域网、广域网、有线网络等)的连接、经由多个计算系统中的一个或多个之间的直接连接等的连接。

14、本文描述的主题的一个或多个变体的细节在附图和以下描述中阐述。根据描述和附图以及权利要求书,本文所述主题的其他特征和优点将变得清晰。尽管为了说明的目的,描述了当前公开的主题的某些特征与机器学习数据处理流水线相关,但是应该容易理解,这些特征并不旨在进行限制。随附本公开的权利要求旨在定义受保护主题的范围。

本文档来自技高网...

【技术保护点】

1.一种系统,包括:

2.根据权利要求1所述的系统,其中,所述一个或多个文档特征包括文档标题字段、表格标题字段和标志,其中,所述空间位置包括文档标题字段的空间位置和表格标题字段的空间位置,并且其中,所述数字表示包括标志的数字表示。

3.根据权利要求2所述的系统,其中,所述一个或多个文档特征还包括销售商信息,并且其中,所述多个布局特性还包括与销售商信息相关联的标识符。

4.根据权利要求1所述的系统,其中,所述空间位置包括空间坐标。

5.根据权利要求1所述的系统,其中,第一多个预定义布局特性还包括与平均空间位置相关联的空间展宽。

6.根据权利要求1所述的系统,其中,当聚合相似性得分小于阈值得分时,所述聚合相似性得分满足阈值得分。

7.根据权利要求1所述的系统,其中,所述聚合相似性得分还至少通过以下生成:为多个布局特性中的每一个生成相似性得分;以及聚合为多个布局特性中的每一个生成的相似性得分。

8.根据权利要求1所述的系统,其中,第一多个预定义布局特性的平均空间位置至少通过以下生成:从多个样本文档中提取一个或多个文档特征;确定多个样本文档中的每一个样本文档的一个或多个提取的文档特征的空间位置;以及对多个样本文档中的每一个样本文档的一个或多个提取的文档特征的空间位置进行平均。

9.根据权利要求1所述的系统,其中,在将多个布局特性与多个预定义布局中的第二预定义布局的第二多个预定义布局特性进行比较之前,通过至少将多个布局特性与第一多个预定义布局特性进行比较来进一步生成聚合相似性得分,其中,第二多个预定义布局特性包括具有第二预定义布局的多个样本文档中包括的一个或多个文档特征的平均空间位置和/或具有第二预定义布局的多个样本文档中包括的一个或多个文档特征的平均数字表示,并且其中,第二预定义布局具有比第一预定义布局更低的执行优先级。

10.根据权利要求1所述的系统,其中,所述文档处理操作包括基于识别的布局将专用提取模型应用于接收的文档、基于识别的布局将校正逻辑应用于接收的文档以校正从接收的文档中提取的值以及基于识别的布局应用定制提取模型中的至少一个。

11.一种计算机实现的方法,包括:

12.根据权利要求11所述的方法,其中,所述一个或多个文档特征包括文档标题字段、表格标题字段和标志,其中,所述空间位置包括文档标题字段的空间位置和表格标题字段的空间位置,并且其中,所述数字表示包括标志的数字表示。

13.根据权利要求12所述的方法,其中,所述一个或多个文档特征还包括销售商信息,并且其中,所述多个布局特性还包括与销售商信息相关联的标识符。

14.根据权利要求11所述的方法,其中,第一多个预定义布局特性还包括与平均空间位置相关联的空间展宽。

15.根据权利要求11所述的方法,其中,当聚合相似性得分小于阈值得分时,所述聚合相似性得分满足阈值得分。

16.根据权利要求11所述的方法,其中,所述聚合相似性得分还至少通过以下生成:为多个布局特性中的每一个生成相似性得分;以及聚合为多个布局特性中的每一个生成的相似性得分。

17.根据权利要求11所述的方法,其中,第一多个预定义布局特性的平均空间位置至少通过以下生成:从多个样本文档中提取一个或多个文档特征;确定多个样本文档中的每一个样本文档的一个或多个提取的文档特征的空间位置;以及对多个样本文档中的每一个样本文档的一个或多个提取的文档特征的空间位置进行平均。

18.根据权利要求11所述的方法,其中,在将多个布局特性与多个预定义布局中的第二预定义布局的第二多个预定义布局特性进行比较之前,通过至少将多个布局特性与第一多个预定义布局特性进行比较来进一步生成聚合相似性得分,其中,第二多个预定义布局特性包括具有第二预定义布局的多个样本文档中包括的一个或多个文档特征的平均空间位置和/或具有第二预定义布局的多个样本文档中包括的一个或多个文档特征的平均数字表示,并且其中,第二预定义布局具有比第一预定义布局更低的执行优先级。

19.一种存储指令的非暂时性计算机可读介质,当由至少一个数据处理器执行时,所述指令引起包括以下的操作:

20.根据权利要求19所述的非暂时性计算机可读介质,其中,所述一个或多个文档特征包括文档标题字段、表格标题字段和标志,其中,所述空间位置包括文档标题字段的空间位置和表格标题字段的空间位置,并且其中,所述数字表示包括标志的数字表示。

...

【技术特征摘要】

1.一种系统,包括:

2.根据权利要求1所述的系统,其中,所述一个或多个文档特征包括文档标题字段、表格标题字段和标志,其中,所述空间位置包括文档标题字段的空间位置和表格标题字段的空间位置,并且其中,所述数字表示包括标志的数字表示。

3.根据权利要求2所述的系统,其中,所述一个或多个文档特征还包括销售商信息,并且其中,所述多个布局特性还包括与销售商信息相关联的标识符。

4.根据权利要求1所述的系统,其中,所述空间位置包括空间坐标。

5.根据权利要求1所述的系统,其中,第一多个预定义布局特性还包括与平均空间位置相关联的空间展宽。

6.根据权利要求1所述的系统,其中,当聚合相似性得分小于阈值得分时,所述聚合相似性得分满足阈值得分。

7.根据权利要求1所述的系统,其中,所述聚合相似性得分还至少通过以下生成:为多个布局特性中的每一个生成相似性得分;以及聚合为多个布局特性中的每一个生成的相似性得分。

8.根据权利要求1所述的系统,其中,第一多个预定义布局特性的平均空间位置至少通过以下生成:从多个样本文档中提取一个或多个文档特征;确定多个样本文档中的每一个样本文档的一个或多个提取的文档特征的空间位置;以及对多个样本文档中的每一个样本文档的一个或多个提取的文档特征的空间位置进行平均。

9.根据权利要求1所述的系统,其中,在将多个布局特性与多个预定义布局中的第二预定义布局的第二多个预定义布局特性进行比较之前,通过至少将多个布局特性与第一多个预定义布局特性进行比较来进一步生成聚合相似性得分,其中,第二多个预定义布局特性包括具有第二预定义布局的多个样本文档中包括的一个或多个文档特征的平均空间位置和/或具有第二预定义布局的多个样本文档中包括的一个或多个文档特征的平均数字表示,并且其中,第二预定义布局具有比第一预定义布局更低的执行优先级。

10.根据权利要求1所述的系统,其中,所述文档处理操作包括基于识别的布局将专用提取模型应用于接收的文档、基于识别的布局将校正逻辑应用于接收的文档以校正从接收的文档中提取的值以及基于识别的布局应用定制提取模型中的至少一个。

11.一种计算机实现的方法,包括:

【专利技术属性】
技术研发人员:M·蔡斯M·莱恩
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1