用于数据系统的方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：37548570 阅读：20 留言：0更新日期：2023-05-12 16:25

提供了一种用于数据系统的方法，数据系统用于至少存储非结构化数据并且显示供进行字段抽取操作的字段抽取界面，该方法包括：经由该界面接收第一输入，其包括用于定位非结构化数据中待进行字段抽取操作的候选数据条目的第一条件；响应于接收到第一输入，在非结构化数据中查询满足第一条件的候选数据条目，并经由该界面提供候选数据条目的预览；经由该界面接收第二输入，其用于定位候选数据条目中的样例数据条目；响应于接收到第二输入，在该界面中显示样例数据条目；经由该界面接收第三输入，其包括包含用于对样例数据条目进行字段抽取操作的字段抽取规则的第二条件；以及响应于接收到第三输入，基于第二条件对样例数据条目进行字段抽取操作。进行字段抽取操作。进行字段抽取操作。

全部详细技术资料下载

【技术实现步骤摘要】
用于数据系统的方法、装置、计算机设备和存储介质

[0001]本公开涉及数据处理
，特别是涉及一种用于数据系统的方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]计算机信息化系统中的数据可分为结构化数据和非结构化数据。非结构化数据的特征包括数据结构不规则或不完整、缺乏相关联的预定义数据模型、不方便使用数据库二维逻辑表来表示等等。非结构化数据可包括文档、文本、报表、图像、日志等。由此可见，非结构化数据的格式非常多样，而且非结构化数据在技术层面上比结构化数据更难标准化和理解。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种用于数据系统的方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面，提供了一种用于数据系统的方法，数据系统用于至少存储非结构化数据并且显示供用户进行字段抽取操作的字段抽取界面，该方法包括：经由字段抽取界面接收第一输入，第一输入包括第一条件，第一条件用于定位非结构化数据中待进行字段抽取操作的候选数据条目；响应于接收到第一输入，在非结构化数据中查询满足第一条件的候选数据条目，并经由字段抽取界面提供候选数据条目的预览；经由字段抽取界面接收第二输入，第二输入用于定位候选数据条...

【技术保护点】

【技术特征摘要】
1.一种用于数据系统的方法，所述数据系统用于至少存储非结构化数据并且显示供用户进行字段抽取操作的字段抽取界面，所述方法包括：经由所述字段抽取界面接收第一输入，所述第一输入包括第一条件，所述第一条件用于定位所述非结构化数据中待进行字段抽取操作的候选数据条目；响应于接收到所述第一输入，在所述非结构化数据中查询满足所述第一条件的所述候选数据条目，并经由所述字段抽取界面提供所述候选数据条目的预览；经由所述字段抽取界面接收第二输入，所述第二输入用于定位所述候选数据条目中的样例数据条目；响应于接收到所述第二输入，在所述字段抽取界面中显示所述样例数据条目；经由所述字段抽取界面接收第三输入，所述第三输入包括第二条件，所述第二条件包括用于对所述样例数据条目进行字段抽取操作的字段抽取规则；以及响应于接收到所述第三输入，基于所述第二条件对所述样例数据条目进行所述字段抽取操作。2.根据权利要求1所述的方法，其中，所述第二条件包括以下字段抽取规则中的至少一者：KV抽取规则、JSON抽取规则、IP地址抽取规则或正则抽取规则。3.根据权利要求2所述的方法，其中，所述第二条件包括第一字段抽取规则，所述第一字段抽取规则选自所述KV抽取规则、所述JSON抽取规则、所述IP地址抽取规则和所述正则抽取规则所组成的组，并且其中，基于所述第二条件对所述样例数据条目进行所述字段抽取操作包括：对所述样例数据条目应用所述第一字段抽取规则以获得一个或多个1级分支抽出字段，其中，所述一个或多个1级分支抽出字段包括所述样例数据条目中符合所述第一字段抽取规则的字段。4.根据权利要求2所述的方法，其中，所述第二条件包括第一字段抽取规则至第n字段抽取规则，所述第一字段抽取规则至所述第n字段抽取规则中的每一者选自所述KV抽取规则、所述JSON抽取规则、所述IP地址抽取规则和所述正则抽取规则所组成的组，n为整数，n≥2，并且其中，基于所述第二条件对所述样例数据条目进行所述字段抽取操作包括：对所述样例数据条目应用所述第一字段抽取规则以获得一个或多个1级分支抽出字段，其中，所述一个或多个1级分支抽出字段包括所述样例数据条目中符合所述第一字段抽取规则的字段和所述样例数据条目中不符合所述第一字段抽取规则的字段；对一个或多个n
‑
1级分支抽出字段中的至少一部分应用所述第n字段抽取规则以获得一个或多个n级分支抽出字段，其中，所述一个或多个n级分支抽出字段包括所述n
‑
1级分支抽出字段中符合所述第n字段抽取规则的字段和所述n
‑
1级分支抽出字段中不符合所述第n字段抽取规则的字段。5.根据权利要求2所述的方法，其中，所述正则抽取规则包括根据正则表达式进行抽取，并且其中，所述正则表达式是所述用户经由所述字段抽取界面输入的或者是根据所述用户经由所述字段抽取界面划取的内容而自动生成的。6.根据权利要求5所述的方法，其中，所述划取的内容在所述字段抽取界面中被...

【专利技术属性】
技术研发人员：王川，彭江涛，
申请(专利权)人：上海炎凰数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人