一种基于概率模型和零样本分类模型的实体类型预测方法技术

技术编号：39326150 阅读：13 留言：0更新日期：2023-11-12 16:04

本发明专利技术公开了一种基于概率模型和零样本分类模型的实体类型预测方法，其包括：分别从图谱中筛选出头实体和尾实体为待预测实体的三元组数据，合并、汇总得到三元组数据中谓词集合；根据谓词集合中各个谓词对应的三元组数据中头实体类型、尾实体类型，得到谓词对应三元组数据中头实体类型、尾实体类型作为待预测实体类型的概率；基于谓词对应三元组数据中头实体类型、尾实体类型作为待预测实体类型的概率降序排列的结果，取前N个概率对应的实体类型作为待预测实体的候选实体类型；将三元组数据进行拼接，形成待分类文本与分类标签，即候选实体类型，调用零样本文本分类模型，得到待预测实体的类型预测结果。本发明专利技术的预测效率高。高。高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于概率模型和零样本分类模型的实体类型预测方法

[0001]本专利技术涉及自然语言处理及知识图谱构建
，特别是一种基于概率模型和零样本分类模型的实体类型预测方法。

技术介绍

[0002]实体类型预测是对知识图谱构建中遗漏的概念进行补全，其通常也被称为实体判型(Entity Typing)。相较于从数据源中获取实体与概念之间的isA关系，实体类型预测通常需要借助实体在知识图谱中已有的属性与关系，以及整个知识图谱的信息。
[0003]当前主要通过增加语料来解决实体类型预测的问题。由于低频实体相关知识、常识相关知识以及高质量领域语料的缺失，增加语料的方法想彻底解决实体类型预测的方法仍然比较困难。基于概率模型的实体类型预测能够通过考察知识图谱中与实体相关的信息来构建一些启发式规则或概率模型；通过这些规则、概率模型对图谱中遗漏概念的实体类型进行补全。零样本分类，是一种文本分类方法，其优势在于它不需要任何预先标记数据的情况下，对文本进行分类；同时，零样本分类模型支持分类标签自定义。
[0004]本专利技术提出一种基于概率模型和零样本分类模型的实体类型预测方法，能够应用于知识图谱构建与应用中的质量控制环节。基于概率模型，将实体属性、关系作为中间变量，构建概率图模型，获取实体类型候选列表；将候选的实体类型作为文本分类标签，基于零样本分类模型，得到最终的实体类型。

技术实现思路

[0005]鉴于此，本专利技术提供一种基于概率模型和零样本分类模型的实体类型预测方法，以解决上述技术问题。
...

【技术保护点】

【技术特征摘要】
1.一种基于概率模型和零样本分类模型的实体类型预测方法，其特征在于，包括：步骤1：分别从图谱中筛选出头实体和尾实体为待预测实体的三元组数据，合并、汇总得到三元组数据中谓词集合；步骤2：根据谓词集合中各个谓词对应的三元组数据中头实体类型、尾实体类型，得到谓词对应三元组数据中头实体类型、尾实体类型作为待预测实体类型的概率；步骤3：基于谓词对应三元组数据中头实体类型、尾实体类型作为待预测实体类型的概率降序排列的结果，取前N个概率对应的实体类型作为待预测实体的候选实体类型；步骤4：将步骤1中的三元组数据进行拼接，形成待分类文本与分类标签，即候选实体类型，调用零样本文本分类模型，得到待预测实体的类型预测结果。2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：从图谱中分别筛选出头实体和尾实体为待预测实体e的三元组数据Triples
head
、Triples
tail
：Triples
head
＝|<e,r
i
,o
i
>|Triples
tail
＝|<o
j
,r
j
,e>|其中，r
i
、r
j
表示三元组中的谓词，其对应的集合表示为R
head
(e)、R
tail
(e)，r
i
∈R
head
(e)、r
j
∈R
tail
(e)，实体属性及关系类型均作为三元组的谓词，o
i
表示实体e作为三元组头实体时，对应的三元组尾实体，o
j
表示实体e作为三元组尾实体时，对应的三元组头实体。3.根据权利要求1所述的方法，其特征在于，所述步骤2包括：步骤21：计算、统计各个谓词对应的三元组数据中头实体类型、尾实体类型；步骤22：分别计算步骤21中头实体类型、尾实体类型对应的三元组数量与谓词对应所有三元组数量的比例；步骤23：依次计算谓词对应三元组数据中头实体类型、尾实体类型作为待预测实体类型的概率。4.根据权利要求3所述的方法，其特征在于，所述步骤21包括：考虑待预测实体e作为头实体的情况，依次统计、计算Triples
head
中谓词为r
i
的三元组占总三元组的比例p
i
；考虑待预测实体e作为尾实体的情况，依次统计、计算Triples
tail
中谓词为r
j
的三元组占总三元组的比例p
j
；当待预测实体e作为头实体时，合并、汇总得到Triples
head
中谓词集合|r
n
|；通过查询图谱数据，计算、统计出词语r
n
作为三元组谓词时，三元组头实体类型及相应的占比为：|{typ...

【专利技术属性】
技术研发人员：杨露，
申请(专利权)人：中国电子科技集团公司第十研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人