一种文本处理方法及电子设备技术

技术编号:37250774 阅读:6 留言:0更新日期:2023-04-20 23:29
本申请公开了一种文本处理方法及电子设备,用以在进行知识图谱构建过程中,在对文本进行分析生成相应的三元组时,避免出现实体嵌套和关系重叠的问题。本申请提供的方法,包括:获取待处理文本,并对所述待处理文本进行片段划分,得到至少一个片段;并且,从所述至少一个片段中识别出至少一个第一片段,所述第一片段为实体主体;针对每一所述第一片段,基于所述至少一个片段中该第一片段之外的其余片段,确定该第一片段对应的第二片段和关系词,所述第二片段为实体客体,所述关系词用于表示该第一片段与该第二片段之间的关系;对于存在对应的第二片段和关系词的每一第一片段,利用该第一片段、该第一片段对应的第二片段和关系词,生成三元组。成三元组。成三元组。

【技术实现步骤摘要】
一种文本处理方法及电子设备


[0001]本申请涉及知识图谱
,尤其涉及一种文本处理方法及电子设备。

技术介绍

[0002]基于公安场景的实体和关系抽取是公安知识图谱构建中的一环。实体是知识图谱的基本单元,也是文本中重要的信息载体。实体提取是自然语言处理中的一项重要和基础的任务,也是信息抽取的子任务,目的是从文本数据中抽取预先定义的实体信息。而关系抽取是找出实体之间存在的关系。因此,这两个任务是相辅相成,联系密切的,通常使用联合模型抽取实体和关系,形成三元组(s,p,o),其中s,p,o分别代表实体主体(subject),谓语或关系(predicate),实体客体(object)。
[0003]面向公安领域文本的实体和关系抽取的难点是实体种类数量庞大,实体之间的关系也比较复杂多样。实体和关系的类型与行业背景有很强的关系。此外,在公安行业背景的文本中,实体可能出现嵌套的情况,即一种实体完全包含在另一个较长的实体当中;关系可能出现重叠的情况,如单实体重叠或实体对重叠,这也会导致无法完整和准确地抽取三元组。

技术实现思路

[0004]本申请实施例提供了一种文本处理方法及电子设备,用以在进行知识图谱构建过程中,在对文本进行分析生成相应的三元组时,避免出现实体嵌套和关系重叠的问题。
[0005]本申请实施例提供的一种文本处理方法,包括:
[0006]获取待处理文本,并对所述待处理文本进行片段划分,得到至少一个片段;并且,从所述至少一个片段中识别出至少一个第一片段,所述第一片段为实体主体;
[0007]针对每一所述第一片段,基于所述至少一个片段中该第一片段之外的其余片段,确定该第一片段对应的第二片段和关系词,所述第二片段为实体客体,所述关系词用于表示该第一片段与该第二片段之间的关系;
[0008]对于存在对应的第二片段和关系词的每一第一片段,利用该第一片段、该第一片段对应的第二片段和关系词,生成三元组。
[0009]通过该方法,对所述待处理文本进行片段划分,得到至少一个片段;并且,从所述至少一个片段中识别出至少一个第一片段,所述第一片段为实体主体;针对每一所述第一片段,基于所述至少一个片段中该第一片段之外的其余片段,确定该第一片段对应的第二片段和关系词,对于存在对应的第二片段和关系词的每一第一片段,利用该第一片段、该第一片段对应的第二片段和关系词,生成三元组,从而实现了以文本片段为单位进行的实体抽取,由于文本片段之间是相互独立的,可以有效解决实体嵌套问题。并且,由于关系和客体是在其对应主体的基础上进行抽取的,因此对于一个实体既是主体又是客体的情况是互不干扰的,适用于所有关系重叠的场景。因此,避免出现实体嵌套和关系重叠的问题。
[0010]在一些实施方式中,从所述至少一个片段中识别出第一片段,包括:
[0011]针对所述至少一个片段中的每一片段:
[0012]确定该片段的向量;
[0013]基于该片段的向量,判断该片段是否为所述第一片段。
[0014]在一些实施方式中,所述该片段的向量,包括该片段的首字符的编码向量和尾字符的编码向量。
[0015]在一些实施方式中,所述针对每一所述第一片段,基于所述至少一个片段中该第一片段之外的其余片段,确定该第一片段对应的第二片段和关系词,包括:
[0016]针对每一所述第一片段:
[0017]确定在所述待处理文本中该第一片段和每一其余片段之间的相对位置编码;
[0018]生成至少一个隐藏向量,其中,每一所述隐藏向量包括:该第一片段的向量、一个其余片段的向量、该第一片段与该其余片段之间的相对位置编码;
[0019]利用所述至少一个隐藏向量,判断该第一片段与其余片段是否存在关系,将与所述第一片段存在关系的其余片段作为第二片段,并且确定该第二片段与该第一片段之间的关系类型所对应的关系词。
[0020]在一些实施方式中,所述从所述至少一个片段中识别出至少一个第一片段,以及,所述针对每一所述第一片段,基于所述至少一个片段中该第一片段之外的其余片段,确定该第一片段对应的第二片段和关系词,是采用预先训练得到的词编码模型执行的;
[0021]所述方法还包括:
[0022]计算第一损失函数和第二损失函数;所述第一损失函数为所述词编码模型执行从所述至少一个片段中识别出至少一个第一片段时,对应的损失函数;所述第二损失函数为所述词编码模型执行针对每一所述第一片段,基于所述至少一个片段中该第一片段之外的其余片段,确定该第一片段对应的第二片段和关系词时,对应的损失函数;
[0023]利用所述第一损失函数和所述第二损失函数,计算所述词编码模型的总损失函数。
[0024]在一些实施方式中,所述方法还包括:
[0025]在最小化所述总损失函数的过程中更新所述词编码模型的参数。
[0026]在一些实施方式中,不同的片段包含的文字不同,并且,对于包含多个文字的每一片段中的不同文字之间的位置关系是连续的。
[0027]本申请另一实施例提供了一种电子设备,其包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序执行上述任一种方法。
[0028]此外,根据实施例,例如提供了一种用于计算机的计算机程序产品,其包括软件代码部分,当所述产品在计算机上运行时,这些软件代码部分用于执行上述所定义的方法的步骤。该计算机程序产品可以包括在其上存储有软件代码部分的计算机可读介质。此外,该计算机程序产品可以通过上传过程、下载过程和推送过程中的至少一个经由网络直接加载到计算机的内部存储器中和/或发送。
[0029]本申请另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行上述任一种方法。
附图说明
[0030]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1为本申请实施例提供的一种文本处理方法的具体流程示意图;
[0032]图2为本申请实施例提供的确定与主体存在关系的客体以及确定具体关系词的流程示意图;
[0033]图3为本申请实施例提供的一种文本处理方法的总体流程示意图;
[0034]图4为本申请实施例提供的一种电子设备的结构示意图;
[0035]图5为本申请实施例提供的一种文本处理装置的结构示意图。
具体实施方式
[0036]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取待处理文本,并对所述待处理文本进行片段划分,得到至少一个片段;并且,从所述至少一个片段中识别出至少一个第一片段,所述第一片段为实体主体;针对每一所述第一片段,基于所述至少一个片段中该第一片段之外的其余片段,确定该第一片段对应的第二片段和关系词,所述第二片段为实体客体,所述关系词用于表示该第一片段与该第二片段之间的关系;对于存在对应的第二片段和关系词的每一第一片段,利用该第一片段、该第一片段对应的第二片段和关系词,生成三元组。2.根据权利要求1所述的方法,其特征在于,从所述至少一个片段中识别出第一片段,包括:针对所述至少一个片段中的每一片段:确定该片段的向量;基于该片段的向量,判断该片段是否为所述第一片段。3.根据权利要求2所述的方法,其特征在于,所述该片段的向量,包括该片段的首字符的编码向量和尾字符的编码向量。4.根据权利要求1所述的方法,其特征在于,所述针对每一所述第一片段,基于所述至少一个片段中该第一片段之外的其余片段,确定该第一片段对应的第二片段和关系词,包括:针对每一所述第一片段:确定在所述待处理文本中该第一片段和每一其余片段之间的相对位置编码;生成至少一个隐藏向量,其中,每一所述隐藏向量包括:该第一片段的向量、一个其余片段的向量、该第一片段与该其余片段之间的相对位置编码;利用所述至少一个隐藏向量,判断该第一片段与其余片段是否存在关系,将与所述第一片段存在关系的其余片段作为第二片段,并且确定该第二片段与该第一片段之间的关系类型所对应的关系词。5.根据权利要求4所述的方法...

【专利技术属性】
技术研发人员:易璟雯刘伟棠陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1