公开确定数据提取期间的错误的示例。根据本公开的方面,一个示例系统可以包括一个或多个处理器,存储器以及错误数据储存库。该系统还可以包括存储在存储器中且在该一个或多个处理器中的至少一个上执行的采集模块,该采集模块用于从文档库采集原始文件格式的文档。此外,该系统可以包括存储在该存储器中且在该一个或多个处理器中的至少一个上执行的提取模块,该提取模块用于从采集到的文档中提取文档数据。该系统可以包括存储在该存储器中且在该一个或多个处理器中的至少一个上执行的提取错误模块,该提取错误模块用于确定该数据提取期间是否发生错误以及用于将引起该错误的采集到的文档存储在该错误数据储存库内。
【技术实现步骤摘要】
【国外来华专利技术】【专利说明】
技术介绍
随着互联网上的用户和设备的数量增加,与那些用户和设备有关的数据量也增加。此外,用户越来越依赖数字文档和其它数据,用户可以通过文档检索系统或文档管理系统来访问这些数字文档和其它数据。这些文档检索系统使用户能够从各种源快速地获取需要的信息。例如,文档检索系统可以允许用户基于文档的内容、基于与文档关联的元数据、或者既基于文档的内容又基于与文档关联的元数据来检索该文档。【附图说明】下面的详细描述参照附图,其中:图1图示根据本公开的示例的用于确定数据提取期间的错误的计算设备的框图;图2图示根据本公开的示例的用于确定数据提取期间的错误的计算设备的框图;图3图示根据本公开的示例的用于确定数据提取期间的错误的方法的流程图;以及图4图示根据本公开的示例的用于确定数据提取期间的错误的方法的流程图。【具体实施方式】文档检索系统将文档存储和索引在文档数据库中。许多时候,这可以包括存储和索引成百上千或甚至数百万个各种文档。可以检索文档数据库以获得特定文档或包含在这些文档中的信息,如这些文档的内容或通过与这些文档关联的元数据。但是,在该检索可以发生之前,这些文档必须被摄取到文档数据库中。摄取(ingest1n)通常是由采集过程和提取过程组成的两部分过程。该摄取从采集过程开始,在采集过程期间,文档检索系统从文档库、文件系统、网络服务器或服务、和/或其它合适的源获取原始文件格式的文档(或一组文档)。在采集文档之后,可以从采集到的文档中提取数据,如文档信息。但是,在提取过程期间可能发生错误。以前,当在提取过程期间发生错误时,文档检索系统可以简单地删除文档,而不管错误如何。或者,文档检索系统可能已经将具有错误的文档存储到文档检索系统的主数据库中,由此破坏文档检索系统的主数据库的完整性。可选地,文档检索系统可能已终止该摄取过程,未完成任何文档摄取或仅完成文档摄取的一部分。这些之前的系统是不可靠的,并且可能引起由于诸如缺少操作系统源、配置错误或其它类似类型故障之类的因素而可能发生的零星故障。这样的错误可能导致整个摄取过程失败。下面将通过参照确定数据提取期间的错误的几个示例来描述各个实施例。在一个示例中,在采集和索引文档的摄取过程的数据提取过程期间可能发生错误。当检测到该错误时,正从其中提取数据的一个或多个文档可以存储在专用数据库中,如在错误数据储存库中。在一个示例中,用户可以查看在该错误数据储存库中存储的一个或多个文档,或者文档检索系统可以自动地查看在该错误数据储存库中存储的一个或多个文档。在查看以后,可以向文档检索系统的主文档数据库移动文档,可以由文档检索系统将文档标记为重新摄取,或者可以从错误数据储存库中移除文档。在一些实现方式中,由于通过对引起提取期间的错误的文档进行隔离而允许摄取过程继续,增量的摄取不被摄取过程期间的故障连累,这允许摄取继续不间断。此外,在摄取过程期间可以维持文档检索系统的主数据库的完整性。根据下面的描述,这些和其它优点将显而易见。图1图示根据本公开的示例的用于确定数据提取期间的错误的计算设备100的框图。应理解,计算设备100可以包括任何合适类型的计算设备,包括例如智能电话、平板、台式机、便携式计算机、工作站、服务器、智能显示器、智能电视、数字标牌、科学仪器、销售设备零售点、视频墙、成像设备、外围设备等等。计算设备100可以包括处理器102,处理器102可以被配置为处理指令。指令可以存储在非暂时性有形计算机可读存储介质(如存储器设备104)上,或存储在单独的设备上(未示出),或存储在任意其它类型的易失性或非易失性存储器上,该任意其它类型的易失性或非易失性存储器存储用于使可编程的处理器实施本文描述的技术的指令。可选地或此外,计算设备100可以包括用于实施本文描述的技术的专用硬件,如一个或多个集成电路、专用集成电路(ASIC)、专用特殊处理器(ASSP)、现场可编程门阵列(FPGA)、或专用硬件的前述示例的任意组合。在一些实现方式中,可以在适当时使用多个处理器以及多个存储器和/或多种存储器。计算设备100还可以包括错误数据储存库106。错误数据储存库106可以存储被确定为(如由错误模块114)已经在数据提取过程期间引起错误的采集到的文档。在一个示例中,错误数据储存库106可以包括下面讨论的至少两个数据库:查看数据库和墓地数据库。计算设备100可以进一步包括存储在存储器104中的并且在处理器102上执行的以模块形式的各种指令。这些模块可以包括采集模块110、提取模块112和错误模块114。如下面将在其它示例中进一步讨论的,还可以使用其它模块。在一个示例中,这些模块一起可以使计算设备能够通过采集文档并从文档中提取数据来摄取文档。这些模块还可以确定在数据提取期间是否发生错误。采集模块110可以发起用于将文档摄取到文档检索系统(如计算设备100)中的过程。例如,采集模块110可以从文档库、文件系统、网络服务器或服务、或其它合适的源获取一个或多个文档。一个或多个文档可以具有多种文档格式。一个或多个文档还可以包括诸如文本、图像、公式等之类的内容,以及与文档关联的元数据。该元数据可以包括关于每个文档的各种信息,如文档作者、标题、日期、版本号、版本、位置、文件大小等等。文档的内容及其关联的元数据可以使文档检索系统(如计算设备100)的用户能够检索关于该文档或涉及该文档的特定信息。采集模块110可以一次采集数百、数千或甚至数百万个文档,因此可以是非常耗时的过程。在采集模块110已经采集文档或一组文档之后,可以由例如提取模块112提取包括一个或多个文档的内容及与一个或多个文档关联的元数据的文档数据。在提取过程期间,提取模块112提取与文档关联的文本内容和元数据供处理。从采集到的文档中提取数据可以包括提取文本、图像、公式等,以及与文档关联的元数据。元数据可以包括关于每个文档的各种信息,如文档作者、标题、日期、版本号、版本、位置、文件大小等等。所提取的数据(如文档的内容及其关联的元数据)可以使文档检索系统(如计算设备100或计算设备200)的用户能够检索关于该文档或涉及该文档的特定信息。错误模块14确定在数据提取期间是否发生错误。确定是否发生错误可以例如在计算设备100通过提取模块112从采集到的文档中提取数据时持续地发生,或者可以在计算设备100已经从采集到的文档中提取数据之后发生。确定是否发生错误可以包括:确定在没有当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种系统,包括:一个或多个处理器;存储器;错误数据储存库;采集模块,所述采集模块存储在所述存储器中且在所述一个或多个处理器中的至少一个上执行,所述采集模块用于从文档库采集原始文件格式的文档;提取模块,所述提取模块存储在所述存储器中且在所述一个或多个处理器中的至少一个上执行,所述提取模块用于从采集到的文档中提取文档数据;以及提取错误模块,所述提取错误模块存储在所述存储器中且在所述一个或多个处理器中的至少一个上执行,所述提取错误模块用于确定在数据提取期间是否发生错误以及用于将引起所述错误的采集到的文档存储在所述错误数据储存库中。
【技术特征摘要】
【国外来华专利技术】
【专利技术属性】
技术研发人员:菲利普·格林伍德,肖恩·布兰什弗劳尔,
申请(专利权)人:隆沙有限公司,
类型:发明
国别省市:英国;GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。