一种文本处理方法及电子设备技术

技术编号：37250774 阅读：6 留言：0更新日期：2023-04-20 23:29

本申请公开了一种文本处理方法及电子设备，用以在进行知识图谱构建过程中，在对文本进行分析生成相应的三元组时，避免出现实体嵌套和关系重叠的问题。本申请提供的方法，包括：获取待处理文本，并对所述待处理文本进行片段划分，得到至少一个片段；并且，从所述至少一个片段中识别出至少一个第一片段，所述第一片段为实体主体；针对每一所述第一片段，基于所述至少一个片段中该第一片段之外的其余片段，确定该第一片段对应的第二片段和关系词，所述第二片段为实体客体，所述关系词用于表示该第一片段与该第二片段之间的关系；对于存在对应的第二片段和关系词的每一第一片段，利用该第一片段、该第一片段对应的第二片段和关系词，生成三元组。成三元组。成三元组。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理方法及电子设备

[0001]本申请涉及知识图谱
，尤其涉及一种文本处理方法及电子设备。

技术介绍

[0002]基于公安场景的实体和关系抽取是公安知识图谱构建中的一环。实体是知识图谱的基本单元，也是文本中重要的信息载体。实体提取是自然语言处理中的一项重要和基础的任务，也是信息抽取的子任务，目的是从文本数据中抽取预先定义的实体信息。而关系抽取是找出实体之间存在的关系。因此，这两个任务是相辅相成，联系密切的，通常使用联合模型抽取实体和关系，形成三元组(s,p,o)，其中s,p,o分别代表实体主体(subject)，谓语或关系(predicate)，实体客体(object)。
[0003]面向公安领域文本的实体和关系抽取的难点是实体种类数量庞大，实体之间的关系也比较复杂多样。实体和关系的类型与行业背景有很强的关系。此外，在公安行业背景的文本中，实体可能出现嵌套的情况，即一种实体完全包含在另一个较长的实体当中；关系可能出现重叠的情况，如单实体重叠或实体对重叠，这也会导致无法完整和准确地抽取三元组。

技术实现思路

[0004]本申请实施例提供了一种文本处理方法及电子设备，用以在进行知识图谱构建过程中，在对文本进行分析生成相应的三元组时，避免出现实体嵌套和关系重叠的问题。
[0005]本申请实施例提供的一种文本处理方法，包括：
[0006]获取待处理文本，并对所述待处理文本进行片段划分，得到至少一个片段；并且，从所述至少一个片段中识别出至少一个第一片段，所述第一片段为实体主...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括：获取待处理文本，并对所述待处理文本进行片段划分，得到至少一个片段；并且，从所述至少一个片段中识别出至少一个第一片段，所述第一片段为实体主体；针对每一所述第一片段，基于所述至少一个片段中该第一片段之外的其余片段，确定该第一片段对应的第二片段和关系词，所述第二片段为实体客体，所述关系词用于表示该第一片段与该第二片段之间的关系；对于存在对应的第二片段和关系词的每一第一片段，利用该第一片段、该第一片段对应的第二片段和关系词，生成三元组。2.根据权利要求1所述的方法，其特征在于，从所述至少一个片段中识别出第一片段，包括：针对所述至少一个片段中的每一片段：确定该片段的向量；基于该片段的向量，判断该片段是否为所述第一片段。3.根据权利要求2所述的方法，其特征在于，所述该片段的向量，包括该片段的首字符的编码向量和尾字符的编码向量。4.根据权利要求1所述的方法，其特征在于，所述针对每一所述第一片段，基于所述至少一个片段中该第一片段之外的其余片段，确定该第一片段对应的第二片段和关系词，包括：针对每一所述第一片段：确定在所述待处理文本中该第一片段和每一其余片段之间的相对位置编码；生成至少一个隐藏向量，其中，每一所述隐藏向量包括：该第一片段的向量、一个其余片段的向量、该第一片段与该其余片段之间的相对位置编码；利用所述至少一个隐藏向量，判断该第一片段与其余片段是否存在关系，将与所述第一片段存在关系的其余片段作为第二片段，并且确定该第二片段与该第一片段之间的关系类型所对应的关系词。5.根据权利要求4所述的方法...

【专利技术属性】
技术研发人员：易璟雯，刘伟棠，陈立力，周明伟，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人