【技术实现步骤摘要】
一种基于知识提示的概念抽取模型
[0001]本专利技术属于人工智能与知识工程
,具体涉及基于知识提示的概念抽取模型。简称KPCE。
技术介绍
[0002]认知智能指的是让计算机具备类似人类认知世界的能力。而人类认知世界最主要的方式之一便是语言,因此自然语言处理是认知智能的重要组成部分。反思人类理解自然语言的过程不难发现,理解自然语言可以视作建立从文本到知识的映射过程。借助已有背景知识,人类可以较为轻松的理解语言。由于自然语言句式语义的多样性和复杂性,计算机也需要背景知识才可以理解自然语言。然而,对于计算机而言,理解不同的实体与概念需要规模足够大的数据集,理解实体和概念之间的相互关系需要丰富的语义关系,因此高质量结构化的知识是帮助计算机理解自然语言的关键。近年来,知识图谱(KG)作为知识的一种结构化形式,引起了人们的广泛关注。知识图谱由实体、概念和关系构成。实体为真实世界中的事物,也被称作为对象或者实例。概念是实体的上位词,可以理解为实体的类别。例如提及“科学家”一般指的是一类从事科学研究的人,而非某个特定科学家。将某个实体归属于某个或某几个特定的概念可以视为概念化的过程。
[0003]知识图谱中的概念使机器能够更好地理解自然语言,从而在许多知识密集型领域发挥重要作用,例如个性化推荐、问答系统和常识推理等。尽管近年来许多工作在构建知识图谱方面进行了大量的努力,但现有知识图谱中的概念仍远远不够完善。例如,在广泛使用的中文知识图谱CN
‑
DBpedia中,有近1700万个实体,但总共只有27
【技术保护点】
【技术特征摘要】
1.一种基于知识提示的概念抽取模型,其中,概念抽取任务表述如下:给定实体e及其相关的描述性文本x,要从x中抽取e的一组概念;根据此模式,提出基于知识提示的概念抽取模型,用于抽取海量概念来提高下游任务的性能,其特征在于,通过设计语言提示引导大规模预训练语言模型更好地利用预训练中获得的知识,从而提升概念抽取的性能;该模型包括两个模块:提示构建器和概念抽取器;其中:(1)提示构建器:其中,给定实体的主题被用作双向编码表示的预训练语言模型,简称BERT,的知识引导提示;此外,还添加一个可训练的连续提示,以增强概念抽取性能;(2)概念抽取器:基于构建器的提示,概念抽取器利用提示引导BERT以及一指针网络从输入文本中抽取多粒度、高质量的概念。2.根据权利要求1所述的基于知识提示的概念抽取模型,其特征在于,所述的提示构建器,是将BERT作为大规模预训练语言模型,并通过基于语言提示的范式整合外部知识,以增强BERT的概念抽取的效果;下文中,粗体小写字母表示向量,粗体大写字母表示矩阵;具体来说,使用给定实体的主题作为知识引导提示,它是基于来自现有知识图谱的外部知识来识别的;在预训练过程中,大规模预训练语言模型从大量语料库中挖掘统计关联性,并基于共现相关性而不是文本字符串之间的真实语义关系进行预测,因此,基于大规模预训练语言模型的概念抽取模型将与实体相关的所有概念都同时抽取;(1.1)知识引导的语言提示构建;首先从知识图谱中随机抽取100万个实体,并得到它们现有的概念,即上位词;然后,选择实体最多的前100个概念构成典型概念集合,该集合覆盖知识图谱中超过99.8%的实体;接下来,使用谱聚类和自适应K
‑
means算法将这些典型概念聚类成几组,每组对应一个主题;为了实现谱聚类,首先使用重叠系数来衡量两个概念之间的相似度:其中,ent(c1)和ent(c2)分别是概念c1和概念c2的实体集,δ是一个参数,用于避免某些概念在知识图谱中没有实体时分母为零的情况;依据上述相似度,构建典型概念的相似度矩阵;为了确定概念集群的最佳数量,计算2到30个集群的轮廓系数(SC)和CalinskiHarabaz指数(CHI),从中得到最好的聚类数是17;因此,将典型概念聚类为17个组,并为每个组定义一个主题名称;为了识别给定实体的主题,通过基于BERT的分类器将实体摘要的主题预测为上述17个典型主题之一;为了训练基于BERT的主题分类器,随机抽取40,000个实体及其在知识图谱中的现有概念,根据概念聚类结果,确定每个实体的主题;具体来说,将以下标记作为分类器的输入:{[CLS]E[SEP]X[SEP]}
ꢀꢀꢀꢀ
(1)其中,[CLS]和[SEP]是特殊标记;E={e1,e2,...,e
q
}是给定实体e的标记序列,X={x1,x2,...,x
n
}是输入文本x的标记序列;通过对输入标记序列的多头自注意操作,分类器获取标记[CLS]的最终隐藏状态,即计算主题概率分布:P(topic)∈R
17
,其中,N1是总层数,d1是向量维度;然后,将topic
text
概率最高的主题识别为x的主题,计算如下:
H0=EW1+B1,
ꢀꢀꢀꢀ
(2)H
l
=transformor
‑
encoder(H
l
‑1),1≤l≤N1,
ꢀꢀꢀꢀ
(3)topic
text
=argmax(P(topic
i
)),1≤i≤17;
ꢀꢀꢀꢀ
(5)其中,E∈R
(q+n+3)
×
d
,是所有输入标记的初始嵌入词向量矩阵,d是嵌入大小;是第l层的隐藏矩阵,是第N1层的隐藏矩阵;是从获得的;此外,都是可训练的参数;q是向量E的维度,n是向量X的维度;(1.2)可训练的连续提示构建;为了构建连续提示,使用来自BERT的随机标记;具体地,对于给定实体e,首先从BERT的词汇表中随机选择m个标记,构成一个随机标记集,表示为C={c1,c2,...,c
m
};假设e的主题标记序列记为T={t1,t2,...,t
k
},则C和T的连接作为e的综合提示;接下来,将...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。