本发明专利技术公开了一种实体关系联合三元组的知识抽取方法及系统,其中,方法包括:获取待处理文本;对所述待处理文本进行向量编码处理,得到文本向量表示集合;对所述文本向量表示集合进行关系抽取处理,得到文本关系集合;根据所述文本关系集合对所述文本向量表示集合进行头实体抽取处理,得到头实体集合;根据所述头实体集合对所述文本向量表示集合进行尾实体抽取处理,得到尾实体集合;对所述头实体集合和所述尾实体集合进行双仿射关系抽取处理,得到抽取结果。本发明专利技术实施例能够更充分地考虑关系对实体、实体和实体的交互作用,解决实体关系重叠问题,可广泛应用于自然语言处理技术领域。领域。领域。
【技术实现步骤摘要】
一种实体关系联合三元组的知识抽取方法及系统
[0001]本专利技术涉及自然语言处理
,尤其是一种实体关系联合三元组的知识抽取方法及系统。
技术介绍
[0002]在大数据时代,需要对互联网产生的大量数据进行挖掘分析,但是这些数据都是以非结构化的形式存在,增加了数据分析的难度。知识抽取技术是一种旨在从自然语言文本中自动化地抽取出实体,关系,事件等信息,并以结构化的形式输出的技术。相关技术中的实体关系联合抽取方法都没有同时考虑一个句子中实体与实体之间,关系与实体之间的交互,存在实体抽取的重叠问题。综合上述,相关技术中存在的技术问题亟需得到解决。
技术实现思路
[0003]有鉴于此,本专利技术实施例提供一种实体关系联合三元组的知识抽取方法及系统,以实现解决实体关系重叠问题。
[0004]一方面,本专利技术提供了一种实体关系联合三元组的知识抽取方法,包括:
[0005]获取待处理文本;
[0006]对所述待处理文本进行向量编码处理,得到文本向量表示集合;
[0007]对所述文本向量表示集合进行关系抽取处理,得到文本关系集合;
[0008]根据所述文本关系集合对所述文本向量表示集合进行头实体抽取处理,得到头实体集合;
[0009]根据所述头实体集合对所述文本向量表示集合进行尾实体抽取处理,得到尾实体集合;
[0010]对所述头实体集合和所述尾实体集合进行双仿射关系抽取处理,得到抽取结果。
[0011]可选地,所述对所述待处理文本进行向量编码处理,得到文本向量表示集合,包括:
[0012]通过预训练模型对所述待处理文本进行编码处理,得到初始向量表示集合;
[0013]将初始向量表示集合输入全连接层进行分类处理,得到文本向量表示集合。
[0014]可选地,所述对所述文本向量表示集合进行关系抽取处理,得到文本关系集合,包括:
[0015]从所述文本向量表示集合中获取关系向量表示,得到关系向量集合;
[0016]对所述关系向量集合进行最大池化处理,得到预处理向量集合;
[0017]对所述预处理向量集合进行多标签二元分类处理,得到文本关系集合。
[0018]可选地,所述根据所述文本关系集合对所述文本向量表示集合进行头实体抽取处理,得到头实体集合,包括:
[0019]对所述文本关系集合进行嵌入编码处理,得到嵌入编码向量集合;
[0020]从所述文本关系集合中获取主实体向量表示,得到主实体向量集合;
[0021]对所述主实体向量集合和所述嵌入编码向量集合进行融合处理,得到第一融合向量集合;
[0022]对所述第一融合向量集合进行二分类处理,得到头实体集合。
[0023]可选地,所述根据所述头实体集合对所述文本向量表示集合进行尾实体抽取处理,得到尾实体集合,包括:
[0024]对所述头实体集合进行最大池化处理,得到预处理实体集合;
[0025]从所述文本关系集合中获取对象实体向量表示,得到对象实体向量集合;
[0026]对所述预处理实体集合和所述对象实体向量集合进行融合处理,得到第二融合向量集合;
[0027]对所述第二融合向量集合进行二分类处理,得到尾实体集合。
[0028]可选地,所述对所述头实体集合和所述尾实体集合进行双仿射关系抽取处理,得到抽取结果,包括:
[0029]分别对所述头实体集合和所述尾实体集合进行抽取处理,得到实体对;
[0030]通过双仿射关系分类模型对所述实体对进行关系预测处理,得到预测关系;
[0031]根据所述实体对和所述预测关系进行三元组组合处理,得到抽取结果。
[0032]可选地,所述对所述文本关系集合进行嵌入编码处理,得到嵌入编码向量集合,包括:
[0033]对所述文本关系集合进行最大池化处理,并通过激活函数对最大池化处理结果进行激活处理,得到激活关系集合;
[0034]对所述激活关系集合进行热编码处理,并对热编码处理结果进行向量嵌入处理,得到嵌入编码向量集合。
[0035]另一方面,本专利技术实施例还提供了一种实体关系联合三元组的知识抽取系统,包括:
[0036]第一模块,用于获取待处理文本;
[0037]第二模块,用于对所述待处理文本进行向量编码处理,得到文本向量表示集合;
[0038]第三模块,用于对所述文本向量表示集合进行关系抽取处理,得到文本关系集合;
[0039]第四模块,用于根据所述文本关系集合对所述文本向量表示集合进行头实体抽取处理,得到头实体集合;
[0040]第五模块,用于根据所述头实体集合对所述文本向量表示集合进行尾实体抽取处理,得到尾实体集合;
[0041]第六模块,用于对所述头实体集合和所述尾实体集合进行双仿射关系抽取处理,得到抽取结果。
[0042]所述第二模块,用于对所述待处理文本进行向量编码处理,得到文本向量表示集合,包括:
[0043]第一单元,用于通过预训练模型对所述待处理文本进行编码处理,得到初始向量表示集合;
[0044]第二单元,用于将初始向量表示集合输入全连接层进行分类处理,得到文本向量表示集合。
[0045]所述第三模块,用于对所述文本向量表示集合进行关系抽取处理,得到文本关系
集合,包括:
[0046]第三单元,用于从所述文本向量表示集合中获取关系向量表示,得到关系向量集合;
[0047]第四单元,用于对所述关系向量集合进行最大池化处理,得到预处理向量集合;
[0048]第五单元,用于对所述预处理向量集合进行多标签二元分类处理,得到文本关系集合。
[0049]本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术实施例首先通过对文本向量表示集合进行关系抽取处理,从而对文本中的潜在关系进行判断;在针对潜在关系的基础上进行实体抽取,得到头实体集合和尾实体集合,最后通过双仿射进行头实体和尾实体的交互进行关系分类,能够更充分地考虑关系对实体、实体和实体的交互作用,从而更充分地提取特征,同时解决实体关系重叠问题。
附图说明
[0050]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0051]图1是本申请实施例提供的一种实体关系联合三元组的知识抽取方法的流程图;
[0052]图2是本申请实施例提供的一种实体关系抽取系统的结构图。
具体实施方式
[0053]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0054]首先,对本申请中涉及的若干名词进行解析:...
【技术保护点】
【技术特征摘要】
1.一种实体关系联合三元组的知识抽取方法,其特征在于,所述方法包括:获取待处理文本;对所述待处理文本进行向量编码处理,得到文本向量表示集合;对所述文本向量表示集合进行关系抽取处理,得到文本关系集合;根据所述文本关系集合对所述文本向量表示集合进行头实体抽取处理,得到头实体集合;根据所述头实体集合对所述文本向量表示集合进行尾实体抽取处理,得到尾实体集合;对所述头实体集合和所述尾实体集合进行双仿射关系抽取处理,得到抽取结果。2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行向量编码处理,得到文本向量表示集合,包括:通过预训练模型对所述待处理文本进行编码处理,得到初始向量表示集合;将初始向量表示集合输入全连接层进行分类处理,得到文本向量表示集合。3.根据权利要求1所述的方法,其特征在于,所述对所述文本向量表示集合进行关系抽取处理,得到文本关系集合,包括:从所述文本向量表示集合中获取关系向量表示,得到关系向量集合;对所述关系向量集合进行最大池化处理,得到预处理向量集合;对所述预处理向量集合进行多标签二元分类处理,得到文本关系集合。4.根据权利要求1所述的方法,其特征在于,所述根据所述文本关系集合对所述文本向量表示集合进行头实体抽取处理,得到头实体集合,包括:对所述文本关系集合进行嵌入编码处理,得到嵌入编码向量集合;从所述文本关系集合中获取主实体向量表示,得到主实体向量集合;对所述主实体向量集合和所述嵌入编码向量集合进行融合处理,得到第一融合向量集合;对所述第一融合向量集合进行二分类处理,得到头实体集合。5.根据权利要求1所述的方法,其特征在于,所述根据所述头实体集合对所述文本向量表示集合进行尾实体抽取处理,得到尾实体集合,包括:对所述头实体集合进行最大池化处理,得到预处理实体集合;从所述文本关系集合中获取对象实体向量表示,得到对象实体向量集合;对所述预处理实体集合和所述对象实体向量集合进行融合处理,得到第二融合向量集合;对所述第二融合向量集合进行二分类处理,得到尾实体集合。6.根据权利要求1所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:程良伦,陆少沐,张伟文,
申请(专利权)人:广东能哥知识科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。