用于数据系统的方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:37548570 阅读:15 留言:0更新日期:2023-05-12 16:25
提供了一种用于数据系统的方法,数据系统用于至少存储非结构化数据并且显示供进行字段抽取操作的字段抽取界面,该方法包括:经由该界面接收第一输入,其包括用于定位非结构化数据中待进行字段抽取操作的候选数据条目的第一条件;响应于接收到第一输入,在非结构化数据中查询满足第一条件的候选数据条目,并经由该界面提供候选数据条目的预览;经由该界面接收第二输入,其用于定位候选数据条目中的样例数据条目;响应于接收到第二输入,在该界面中显示样例数据条目;经由该界面接收第三输入,其包括包含用于对样例数据条目进行字段抽取操作的字段抽取规则的第二条件;以及响应于接收到第三输入,基于第二条件对样例数据条目进行字段抽取操作。进行字段抽取操作。进行字段抽取操作。

【技术实现步骤摘要】
用于数据系统的方法、装置、计算机设备和存储介质


[0001]本公开涉及数据处理
,特别是涉及一种用于数据系统的方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]计算机信息化系统中的数据可分为结构化数据和非结构化数据。非结构化数据的特征包括数据结构不规则或不完整、缺乏相关联的预定义数据模型、不方便使用数据库二维逻辑表来表示等等。非结构化数据可包括文档、文本、报表、图像、日志等。由此可见,非结构化数据的格式非常多样,而且非结构化数据在技术层面上比结构化数据更难标准化和理解。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种用于数据系统的方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种用于数据系统的方法,数据系统用于至少存储非结构化数据并且显示供用户进行字段抽取操作的字段抽取界面,该方法包括:经由字段抽取界面接收第一输入,第一输入包括第一条件,第一条件用于定位非结构化数据中待进行字段抽取操作的候选数据条目;响应于接收到第一输入,在非结构化数据中查询满足第一条件的候选数据条目,并经由字段抽取界面提供候选数据条目的预览;经由字段抽取界面接收第二输入,第二输入用于定位候选数据条目中的样例数据条目;响应于接收到第二输入,在字段抽取界面中显示样例数据条目;经由字段抽取界面接收第三输入,第三输入包括第二条件,第二条件包括用于对样例数据条目进行字段抽取操作的字段抽取规则;以及响应于接收到第三输入,基于第二条件对样例数据条目进行字段抽取操作。
[0006]根据本公开的另一方面,提供了一种用于数据系统的装置,数据系统用于至少存储非结构化数据并且显示供用户进行字段抽取操作的字段抽取界面,该装置包括:第一模块,用于经由字段抽取界面接收第一输入,第一输入包括第一条件,第一条件用于定位非结构化数据中待进行字段抽取操作的候选数据条目;第二模块,用于响应于接收到第一输入,在非结构化数据中查询满足第一条件的候选数据条目,并经由字段抽取界面提供候选数据条目的预览;第三模块,用于经由字段抽取界面接收第二输入,第二输入用于定位候选数据条目中的样例数据条目;第四模块,用于响应于接收到第二输入,在字段抽取界面中显示样例数据条目;第五模块,用于经由字段抽取界面接收第三输入,第三输入包括第二条件,第二条件包括用于对样例数据条目进行字段抽取操作的字段抽取规则;以及第六模块,用于响应于接收到第三输入,基于第二条件对样例数据条目进行字段抽取操作。
[0007]根据本公开的又另一方面,提供了一种计算机设备,包括:至少一个处理器;以及至少一个存储器,其上存储有计算机程序,计算机程序在被至少一个处理器执行时,使至少一个处理器执行上述的用于数据系统的方法。
[0008]根据本公开的再另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使处理器执行上述的用于数据系统的方法。
[0009]根据本公开的再另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使处理器执行上述的用于数据系统的方法。
[0010]根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
[0011]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0012]图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
[0013]图2是图示出根据示例性实施例的用于数据系统的方法的流程图;
[0014]图3是图示出根据示例性实施例的示例字段抽取界面的示意图;
[0015]图4是图示出根据示例性实施例的对样例数据条目进行字段抽取操作的过程的流程图;
[0016]图5是图示出根据示例性实施例的示例字段抽取界面的示意图;
[0017]图6是图示出根据示例性实施例的示例字段抽取界面的示意图;
[0018]图7是图示出根据示例性实施例的对字段抽取操作进行调整的过程的流程图;
[0019]图8是图示出根据示例性实施例的示例字段抽取界面的示意图;
[0020]图9是图示出根据示例性实施例的用于数据系统的装置的示意性框图;并且
[0021]图10是图示出能够应用于示例性实施例的示例性计算机设备的框图。
具体实施方式
[0022]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0023]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。如本文使用的,术语“多个”意指两个或更多,并且术语“基于”应解释为“至少部分地基于”。此外,术语“和/或”以及
“……
中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0024]如上文所示,相较于结构化数据而言,非结构化数据的格式非常多样,而且非结构化数据在技术层面上更难标准化和理解。面对这样的非结构化数据,多数情况下,需要通过某些固定的规则,将数据中的关键信息抽取出来,该过程也称为非结构化数据的字段抽取。
然而,这一过程往往繁琐、耗时且缺少直观反馈,导致即便消耗了较多的人力和物力也无法高效地对非结构化数据进行字段抽取。
[0025]鉴于此,本公开提供了一种用于数据系统的方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0026]下面结合附图详细描述本公开的示例性实施例。
[0027]图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。
[0028]参考图1,该系统100包括客户端设备110、服务器120、以及将客户端设备110与服务器120通信地耦合的网络130。
[0029]客户端设备110包括显示器114和可经由显示器114显示的客户端应用(APP)112。客户端应用112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序(liteapp)。在客户端应用112为运行前需要下载和安装的应用程序的情况下,客户端应用112可以被预先安装在客户端设备110上并被激活。在客户端应用112为小程序的情况下,用户102可以通过在宿本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于数据系统的方法,所述数据系统用于至少存储非结构化数据并且显示供用户进行字段抽取操作的字段抽取界面,所述方法包括:经由所述字段抽取界面接收第一输入,所述第一输入包括第一条件,所述第一条件用于定位所述非结构化数据中待进行字段抽取操作的候选数据条目;响应于接收到所述第一输入,在所述非结构化数据中查询满足所述第一条件的所述候选数据条目,并经由所述字段抽取界面提供所述候选数据条目的预览;经由所述字段抽取界面接收第二输入,所述第二输入用于定位所述候选数据条目中的样例数据条目;响应于接收到所述第二输入,在所述字段抽取界面中显示所述样例数据条目;经由所述字段抽取界面接收第三输入,所述第三输入包括第二条件,所述第二条件包括用于对所述样例数据条目进行字段抽取操作的字段抽取规则;以及响应于接收到所述第三输入,基于所述第二条件对所述样例数据条目进行所述字段抽取操作。2.根据权利要求1所述的方法,其中,所述第二条件包括以下字段抽取规则中的至少一者:KV抽取规则、JSON抽取规则、IP地址抽取规则或正则抽取规则。3.根据权利要求2所述的方法,其中,所述第二条件包括第一字段抽取规则,所述第一字段抽取规则选自所述KV抽取规则、所述JSON抽取规则、所述IP地址抽取规则和所述正则抽取规则所组成的组,并且其中,基于所述第二条件对所述样例数据条目进行所述字段抽取操作包括:对所述样例数据条目应用所述第一字段抽取规则以获得一个或多个1级分支抽出字段,其中,所述一个或多个1级分支抽出字段包括所述样例数据条目中符合所述第一字段抽取规则的字段。4.根据权利要求2所述的方法,其中,所述第二条件包括第一字段抽取规则至第n字段抽取规则,所述第一字段抽取规则至所述第n字段抽取规则中的每一者选自所述KV抽取规则、所述JSON抽取规则、所述IP地址抽取规则和所述正则抽取规则所组成的组,n为整数,n≥2,并且其中,基于所述第二条件对所述样例数据条目进行所述字段抽取操作包括:对所述样例数据条目应用所述第一字段抽取规则以获得一个或多个1级分支抽出字段,其中,所述一个或多个1级分支抽出字段包括所述样例数据条目中符合所述第一字段抽取规则的字段和所述样例数据条目中不符合所述第一字段抽取规则的字段;对一个或多个n

1级分支抽出字段中的至少一部分应用所述第n字段抽取规则以获得一个或多个n级分支抽出字段,其中,所述一个或多个n级分支抽出字段包括所述n

1级分支抽出字段中符合所述第n字段抽取规则的字段和所述n

1级分支抽出字段中不符合所述第n字段抽取规则的字段。5.根据权利要求2所述的方法,其中,所述正则抽取规则包括根据正则表达式进行抽取,并且其中,所述正则表达式是所述用户经由所述字段抽取界面输入的或者是根据所述用户经由所述字段抽取界面划取的内容而自动生成的。6.根据权利要求5所述的方法,其中,所述划取的内容在所述字段抽取界面中被...

【专利技术属性】
技术研发人员:王川彭江涛
申请(专利权)人:上海炎凰数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1