一种结构化数据的知识抽取方法技术

技术编号:31230046 阅读:15 留言:0更新日期:2021-12-08 10:00
本发明专利技术公开了一种结构化数据的知识抽取方法,包括下列步骤:S1、构件抽取组件;S2、按照每条抽取规则指定的表格,构造一种字典数据结构,其中键为表格ID,值为对应表格的一组抽取组件;S3、遍历步骤S2中构造的字典,对于每个键值对,基于键构造数据库连接,获取表格数据,然后将这些数据逐条发送给当前键对应的抽取组件;S4、抽取组件对接收的数据进行处理,依次进行全局唯一ID、业务标识ID、类型、属性信息抽取;S5、对于节点抽取组件和关系抽取组件进行进一步抽取。有益效果:可用于构建知识图谱,有良好的扩展性和自适应能力,能够满足多源异构数据的知识抽取需要。数据的知识抽取需要。数据的知识抽取需要。

【技术实现步骤摘要】
一种结构化数据的知识抽取方法


[0001]本专利技术涉及信息抽取领域,具体来说,涉及一种结构化数据的知识抽取方法。

技术介绍

[0002]在大数据时代,互联网及各类信息系统中存储了海量的多种类型的数据,如何有效地利用这些数据、挖掘数据价值,成为各行业探索的重要话题。随着人工智能技术逐步应用,知识图谱作为人工智能的核心技术,逐步受到重视。
[0003]作为知识图谱构建的关键步骤,知识抽取是从各种形式数据中提取知识元素的过程。针对结构化数据,一般采用定制开发的方法进行知识抽取,但缺乏扩展性和自适应能力,不能满足多源异构数据的知识抽取需要。
[0004]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术的目的在于提供一种结构化数据的知识抽取方法,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种结构化数据的知识抽取方法,包括下列步骤:
[0008]S1、构件抽取组件;
[0009]S2、按照每条抽取规则指定的表格,构造一种字典数据结构,其中键为表格ID,值为对应表格的一组抽取组件;
[0010]S3、遍历步骤S2中构造的字典,对于每个键值对,基于键构造数据库连接,获取表格数据,然后将这些数据逐条发送给当前键对应的抽取组件;
[0011]S4、抽取组件对接收的数据进行处理,依次进行全局唯一ID、业务标识ID、类型、属性信息抽取;
[0012]S5、对于节点抽取组件和关系抽取组件进行进一步抽取;
[0013]S6、重复执行上述步骤S4和步骤S5,直到所有抽取组件处理完成,每个抽取组件的结果发送给会话管理器;
[0014]S7、重复执行上述步骤S3,直到所有表格数据处理完成;
[0015]S8、从会话管理器中收集所有结果数据,作为结果进行输出。
[0016]进一步的,所述步骤S1构件抽取组件包括以下步骤:
[0017]S11、对输入参数进行解析,获取节点抽取规则和关系抽取规则;
[0018]S12、通过获取的节点抽取规则和关系抽取规则构造一组抽取组件。
[0019]进一步的,所述步骤S2按照每条抽取规则指定的表格,构造一种字典数据结构,其中,所述表格以字符串形式的ID进行标识。
[0020]进一步的,所述步骤S5对于节点抽取组件和关系抽取组件进行进一步抽取中,对于节点抽取组件,进一步进行节点名称抽取;
[0021]对于关系抽取组件,进一步进行头节点ID、尾节点ID、关系是否有向的信息抽取。
[0022]与现有技术相比,本专利技术具有以下有益效果:本专利技术是对表格形式的结构化数据进行知识抽取,通过指定抽取规则,实现从表格数据中提取实体、关系、事件及其属性等知识信息,可用于构建知识图谱,有良好的扩展性和自适应能力,能够满足多源异构数据的知识抽取需要。
附图说明
[0023]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是根据本专利技术实施例的一种结构化数据的知识抽取方法的流程图。
具体实施方式
[0025]针对结构化数据的知识抽取需求,本专利技术提出一种结构化数据的知识抽取方法,针对表格形式结构化数据进行知识抽取,下面,结合附图以及具体实施方式,对专利技术做出进一步的描述:
[0026]请参阅图1,根据本专利技术实施例的一种结构化数据的知识抽取方法,包括下列步骤:
[0027]步骤S1、构件抽取组件;
[0028]S11、对输入参数进行解析,获取节点抽取规则和关系抽取规则;
[0029]S12、通过获取的节点抽取规则和关系抽取规则构造一组抽取组件。
[0030]步骤S2、按照每条抽取规则指定的表格,以字符串形式的ID进行标识,构造一种字典数据结构,其中键为表格ID,值为对应表格的一组抽取组件。这样可以避免重复处理一个表格;
[0031]步骤S3、遍历第二步中构造的字典。对于每个键值对,基于键构造数据库连接,获取表格数据,然后将这些数据逐条发送给当前键对应的值,即每一个抽取组件;
[0032]步骤S4、抽取组件对接收的数据进行处理,依次进行全局唯一ID、业务标识ID、类型、属性信息抽取;
[0033]步骤S5、对于节点抽取组件,还要进行节点名称抽取;对于关系抽取组件,还要进行头节点ID、尾节点ID、关系是否有向的信息抽取;
[0034]步骤S6、重复执行上述第四、第五步,直到所有抽取组件处理完成,每个抽取组件的结果发送给会话管理器;
[0035]步骤S7、重复执行上述第三步,直到所有表格数据处理完成;
[0036]步骤S8、从会话管理器中收集所有结果数据,作为结果进行输出。
[0037]为了方便理解本专利技术的上述技术方案,以下就本专利技术在实际过程中的工作原理或者操作方式进行详细说明。
[0038]在实际应用时,对于步骤S1中的参数数据结构定义如下:
[0039]Rules:={//JSON对象结构
[0040]idPrefix:<ID前缀>,
[0041]nodes:List[NodeRule],//节点抽取规则
[0042]edges:List[EdgeRule],//关系抽取规则
[0043]}
[0044]NodeRule:={//节点规则JSON对象结构
[0045]“tableId”:<表格ID>,//表格ID
[0046]“id”:<ID

Rule>,//节点ID
[0047]“name”:<Raw

or

Field>,//节点名称
[0048]"type":<Type

Rule>,//节点类型
[0049]"props":List[Prop

Rule],//节点属性
[0050]"mustFields":List[Field]//必填属性
[0051]}
[0052]EdgeRule:={//关系规则JSON对象结构
[0053]“tableId”:<表格ID>,//表格ID
[0054]“id”:<ID

Rule>,//关系ID
[0055]“fromId”:<Raw

or

Fie本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化数据的知识抽取方法,其特征在于,包括下列步骤:S1、构件抽取组件;S2、按照每条抽取规则指定的表格,构造一种字典数据结构,其中键为表格ID,值为对应表格的一组抽取组件;S3、遍历步骤S2中构造的字典,对于每个键值对,基于键构造数据库连接,获取表格数据,然后将这些数据逐条发送给当前键对应的抽取组件;S4、抽取组件对接收的数据进行处理,依次进行全局唯一ID、业务标识ID、类型、属性信息抽取;S5、对于节点抽取组件和关系抽取组件进行进一步抽取;S6、重复执行上述步骤S4和步骤S5,直到所有抽取组件处理完成,每个抽取组件的结果发送给会话管理器;S7、重复执行上述步骤S3,直到所有表格数据处理完成;S8、从会话管理器中收集所有结果数据,作为结果进行...

【专利技术属性】
技术研发人员:陈波姚建林余智华
申请(专利权)人:中科天玑数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1