当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于知识提示的概念抽取模型制造技术

技术编号:34555759 阅读:18 留言:0更新日期:2022-08-17 12:41
本发明专利技术属于人工智能与知识工程技术领域,具体为一种基于知识提示的概念抽取模型,简称KPCE。本发明专利技术模型包括提示构建器和概念抽取器;提示构建器,给定实体的主题用作双向编码表示的预训练语言模型,简称BERT,的知识引导提示;并添加可训练的连续提示,以增强概念抽取性能;概念抽取器利用提示引导BERT以及指针网络从输入文本中抽取多粒度、高质量的概念。本发明专利技术使用从现有知识图谱中获取的主题知识构建语言提示,同时考虑神经网络连续性特征,将可训练的连续提示与上述主题构建的知识提示结合,以此提升大规模预训练语言模型BERT在概念抽取任务上的性能;还借助指针网络,设置适当的阈值重复抽取文本中同一片段,实现多粒度概念的获取。度概念的获取。度概念的获取。

【技术实现步骤摘要】
一种基于知识提示的概念抽取模型


[0001]本专利技术属于人工智能与知识工程
,具体涉及基于知识提示的概念抽取模型。简称KPCE。

技术介绍

[0002]认知智能指的是让计算机具备类似人类认知世界的能力。而人类认知世界最主要的方式之一便是语言,因此自然语言处理是认知智能的重要组成部分。反思人类理解自然语言的过程不难发现,理解自然语言可以视作建立从文本到知识的映射过程。借助已有背景知识,人类可以较为轻松的理解语言。由于自然语言句式语义的多样性和复杂性,计算机也需要背景知识才可以理解自然语言。然而,对于计算机而言,理解不同的实体与概念需要规模足够大的数据集,理解实体和概念之间的相互关系需要丰富的语义关系,因此高质量结构化的知识是帮助计算机理解自然语言的关键。近年来,知识图谱(KG)作为知识的一种结构化形式,引起了人们的广泛关注。知识图谱由实体、概念和关系构成。实体为真实世界中的事物,也被称作为对象或者实例。概念是实体的上位词,可以理解为实体的类别。例如提及“科学家”一般指的是一类从事科学研究的人,而非某个特定科学家。将某个实体归属于某个或某几个特定的概念可以视为概念化的过程。
[0003]知识图谱中的概念使机器能够更好地理解自然语言,从而在许多知识密集型领域发挥重要作用,例如个性化推荐、问答系统和常识推理等。尽管近年来许多工作在构建知识图谱方面进行了大量的努力,但现有知识图谱中的概念仍远远不够完善。例如,在广泛使用的中文知识图谱CN

DBpedia中,有近1700万个实体,但总共只有27万个概念,超过20%的实体甚至没有概念(上位词)。Probase虽然是一个大型的英文知识图谱,但其中有两个或多个修饰语的细粒度概念只占30%。本专利技术专注于从实体的描述性文本中抽取多粒度概念以补全现有的知识图谱。
[0004]现有的基于文本的概念获取方法大多采用从文本中直接抽取概念的方案,可分为模式匹配方法和基于学习的方法。模式匹配方法可以获得高质量的概念,但由于该类方法严重依靠模板,因此泛化能力差,召回率较低。基于学习的方法采用经过标记数据微调的大规模预训练语言模型来抽取概念。然而,这些基于大规模预训练语言模型的方法一个不可忽视的缺点是存在“抽取偏差”问题。
[0005]抽取偏差指抽取的文本片段(候选概念)是基于它们的上下文(共现)关联而不是它们真正的语义相关性来预测的,因此导致抽取精度低。导致抽取偏差的根本原因在于大规模预训练语言模型的预训练过程。在预训练期间,大规模预训练语言模型从大量语料库中挖掘统计关联,并倾向于基于共现相关性而不是文本字符串之间的真实语义关系进行预测。例如,对于图1中的实体路易莎
·

·
奥尔科特,这些基于大规模预训练语言模型的概念抽取模型倾向于将“小说”和“作家”作为其概念一起抽取,因为这两个概念经常同时出现在许多文本。显然,“小说”是一个有偏差且错误的概念。
[0006]抽取偏差的挑战促使本专利技术采用语言提示的想法。通过适当的设计,语言提示可
以引导大规模预训练语言模型更好地利用从预训练中获得的知识,从而大大提高下游任务的性能。因此,本专利技术通过获取知识图谱中的主题知识来构造语言提示。该主题提示有助于发现目标实体与候选抽取片段(候选概念)之间基于知识的关联,因此可以指导大规模预训练语言模型区分有偏差的概念,有效地减少抽取偏差。

技术实现思路

[0007]本专利技术的目的在于提供一种基于知识提示的概念抽取模型,以实现高质量多粒度的概念抽取。
[0008]本专利技术提出的概念抽取任务可以表述如下:给定实体e及其相关的描述性文本x,要从中抽取e的一组概念。基于这个模式,本专利技术提出的结合知识提示的概念抽取模型,可以抽取海量概念来提高下游任务的性能,例如知识图谱补全、本体扩展等。请注意,实现概念抽取的一个必要条件是必须保证给定的文本包含丰富的概念。本专利技术将从在线百科全书或知识库中获得的实体摘要文本作为输入,因为摘要总体上明确地给出了实体的概念。为了构建中文训练集,本专利技术从CN

DBpedia中抽取了实体及其概念和摘要文本。为了构建英语训练集,本专利技术从Probase中获取了实体及其概念,并从Wikipedia中获取了实体的摘要文本。
[0009]本专利技术提供的结合知识提示的概念抽取模型,简称KPCE,其架构图如图1所示。大规模预训练语言模型的抽取偏差在基于主题知识的语言提示指导下得到了显着缓解。具体来说,目标实体的主题被用作显式离散的语言提示,因而无需复杂的模板设计。主题是从现有知识图谱的知识(包括IsA关系和实体抽象文本)中获得的,有助于模型发现目标实体与候选抽取片段(候选概念)之间基于知识的关联。因此,主题提示可以指导大规模预训练语言模型区分有偏差的概念,并更有效地消除抽取偏差。此外,因为神经网络本质上是连续的,离散的语言提示可能不是最优的。因此,本专利技术还在连续空间中自动搜索提示,以弥合大规模预训练语言模型预训练阶段和下游自然语言处理任务之间的差距。本专利技术使用双向编码表示的预训练语言模型,简称BERT,随机标记作为可训练的连续提示,以使模型更快地收敛。虽然将这两种提示融合到大规模预训练语言模型中的方式很简单,但已被证明是有效的,并且避免了复杂的语言提示模板对下游任务性能的影响。此外,本专利技术在基于语言提示的BERT上附加了一个指针网络,它可以在文本中以适当的选择阈值重复抽取一个同一个片段,故而可成功抽取多粒度的高质量概念。
[0010]具体来说,本专利技术提供的基于知识提示的概念抽取模型,包括两个模块:提示构建器和概念抽取器;其中:
[0011](1)提示构建器:在KPCE的这个关键组件中,给定实体的主题被用作大规模预训练语言模型BERT的知识引导提示。此外,还添加一个可训练的连续提示,以增强概念抽取性能;
[0012](2)概念抽取器:基于构造的提示,概念抽取器利用提示引导BERT以及一指针网络从输入文本中抽取多粒度、高质量的概念。
[0013]下面分别详细阐述模型各部分的具体细节,其中,粗体小写字母表示向量,粗体大写字母表示矩阵。
[0014](1)提示构建器
[0015]在本专利技术的框架中,KPCE模型将BERT作为大规模预训练语言模型,并通过基于语言提示的范式整合外部知识,以增强BERT的概念抽取的效果。具体来说,KPCE使用给定实体的主题作为知识引导提示,它是基于来自现有知识图谱的外部知识来识别的。在预训练过程中,大规模预训练语言模型从大量语料库中挖掘统计关联,并倾向于基于共现相关性而不是文本字符串之间的真实语义关系进行预测,因此基于大规模预训练语言模型的概念抽取模型倾向于将与实体相关的所有概念都同时抽取。然而相关的概念并不一定属于实体的上位概念,从而导致抽取偏差和低质量的抽取结果。但是,如果可以提示模型输入实体的主题。在这种情况下,基于大规模预训练语言模型的概念抽取模型会降低抽取偏差概念的可能性,从而有效缓解抽取偏差的问题。例如,以图1中的实体路易莎
·...

【技术保护点】

【技术特征摘要】
1.一种基于知识提示的概念抽取模型,其中,概念抽取任务表述如下:给定实体e及其相关的描述性文本x,要从x中抽取e的一组概念;根据此模式,提出基于知识提示的概念抽取模型,用于抽取海量概念来提高下游任务的性能,其特征在于,通过设计语言提示引导大规模预训练语言模型更好地利用预训练中获得的知识,从而提升概念抽取的性能;该模型包括两个模块:提示构建器和概念抽取器;其中:(1)提示构建器:其中,给定实体的主题被用作双向编码表示的预训练语言模型,简称BERT,的知识引导提示;此外,还添加一个可训练的连续提示,以增强概念抽取性能;(2)概念抽取器:基于构建器的提示,概念抽取器利用提示引导BERT以及一指针网络从输入文本中抽取多粒度、高质量的概念。2.根据权利要求1所述的基于知识提示的概念抽取模型,其特征在于,所述的提示构建器,是将BERT作为大规模预训练语言模型,并通过基于语言提示的范式整合外部知识,以增强BERT的概念抽取的效果;下文中,粗体小写字母表示向量,粗体大写字母表示矩阵;具体来说,使用给定实体的主题作为知识引导提示,它是基于来自现有知识图谱的外部知识来识别的;在预训练过程中,大规模预训练语言模型从大量语料库中挖掘统计关联性,并基于共现相关性而不是文本字符串之间的真实语义关系进行预测,因此,基于大规模预训练语言模型的概念抽取模型将与实体相关的所有概念都同时抽取;(1.1)知识引导的语言提示构建;首先从知识图谱中随机抽取100万个实体,并得到它们现有的概念,即上位词;然后,选择实体最多的前100个概念构成典型概念集合,该集合覆盖知识图谱中超过99.8%的实体;接下来,使用谱聚类和自适应K

means算法将这些典型概念聚类成几组,每组对应一个主题;为了实现谱聚类,首先使用重叠系数来衡量两个概念之间的相似度:其中,ent(c1)和ent(c2)分别是概念c1和概念c2的实体集,δ是一个参数,用于避免某些概念在知识图谱中没有实体时分母为零的情况;依据上述相似度,构建典型概念的相似度矩阵;为了确定概念集群的最佳数量,计算2到30个集群的轮廓系数(SC)和CalinskiHarabaz指数(CHI),从中得到最好的聚类数是17;因此,将典型概念聚类为17个组,并为每个组定义一个主题名称;为了识别给定实体的主题,通过基于BERT的分类器将实体摘要的主题预测为上述17个典型主题之一;为了训练基于BERT的主题分类器,随机抽取40,000个实体及其在知识图谱中的现有概念,根据概念聚类结果,确定每个实体的主题;具体来说,将以下标记作为分类器的输入:{[CLS]E[SEP]X[SEP]}
ꢀꢀꢀꢀ
(1)其中,[CLS]和[SEP]是特殊标记;E={e1,e2,...,e
q
}是给定实体e的标记序列,X={x1,x2,...,x
n
}是输入文本x的标记序列;通过对输入标记序列的多头自注意操作,分类器获取标记[CLS]的最终隐藏状态,即计算主题概率分布:P(topic)∈R
17
,其中,N1是总层数,d1是向量维度;然后,将topic
text
概率最高的主题识别为x的主题,计算如下:
H0=EW1+B1,
ꢀꢀꢀꢀ
(2)H
l
=transformor

encoder(H
l
‑1),1≤l≤N1,
ꢀꢀꢀꢀ
(3)topic
text
=argmax(P(topic
i
)),1≤i≤17;
ꢀꢀꢀꢀ
(5)其中,E∈R
(q+n+3)
×
d
,是所有输入标记的初始嵌入词向量矩阵,d是嵌入大小;是第l层的隐藏矩阵,是第N1层的隐藏矩阵;是从获得的;此外,都是可训练的参数;q是向量E的维度,n是向量X的维度;(1.2)可训练的连续提示构建;为了构建连续提示,使用来自BERT的随机标记;具体地,对于给定实体e,首先从BERT的词汇表中随机选择m个标记,构成一个随机标记集,表示为C={c1,c2,...,c
m
};假设e的主题标记序列记为T={t1,t2,...,t
k
},则C和T的连接作为e的综合提示;接下来,将...

【专利技术属性】
技术研发人员:员司雨阳德青肖仰华
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1