System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能中的深度学习(deep learnrning,简称dl)和自然语言处理(natural language processing,简称nlp),更具体地,涉及一种基于邻居节点选择与特征汇聚的实体消歧方法和系统。
技术介绍
1、如今,随着互联网的快速发展和信息数量的爆发式增长,自然语言处理和人工智能(artificial intelligence,简称ai)技术得到了广泛应用。其中,命名实体消歧是自然语言处理过程中的一项关键性研究,在知识图谱等各种应用中发挥着重要的作用。实体消歧技术主要解决命名实体的歧义性和多样性,比如一词多义和多词一义。例如,“七里香”一词既可以指代歌曲《七里香》,也可以是一味中药名,是海桐花科植物台琼海桐的根、叶;而多词一义则表现为“土豆”和“马铃薯”在农业领域中表达的是同一种植物。因此,仅从词语本身,无法确定其真实含义,实体的不准确性在实际使用中严重影响了效率,尤其是在知识图谱中,实体通常只有其名称和属性以及与其他实体相连的关系,若消歧方法准确性不足,知识图谱中知识的准确性就无法保证,从而带来知识的偏差。
2、现有的主流实体消歧方法大体可划分为基于深度学习的消歧方法以及基于图的消歧方法;基于深度学习的实体消歧方法无需手动构建特征,可通过神经网络自动对文本序列进行特征提取,为实体指称项、上下文信息、候选实体集合中的实体以及关联描述构建低维稠密空间下的语义表示,通过相似度排序选取最佳的目标实体;基于图的实体消歧方法是建立在知识图谱上的,图中包含实体之间、候选实体之间、候选实体与实
3、然而,现有实体消歧方法仍然存在一些不可忽略的缺陷。第一、基于深度学习的实体消歧方法大部分都是基于传统的词向量模型(例如one-hot、word2vec、tf-idf等)来表示文本,该词向量模型表示文本的能力有限,不能根据语境动态调整词语对词向量表示,进而会导致实体相似度判断的准确性降低。第二、基于图的实体消歧方法通常会忽视节点本身的特征,因此对于稀疏图,也就是实体间关系较少的甚至有些实体没有与之相连的关系的图,该方法由于无法获取足够的可用于辨别不同实体的特征而导致效果不佳。第三、以上两种方法在大型知识图谱或者稠密图中,由于待消歧实体多、实体间关系多、训练任务量大,导致实际应用的效率并不高。
技术实现思路
1、针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于邻居节点选择与特征汇聚的知识图谱中实体消歧方法。其目的在于,解决现有基于深度学习的知识消歧方法由于使用传统词向量对文本进行编码并不能根据语境动态调整词向量,导致影响实体消歧准确度的技术问题;以及基于图的消歧方法在稀疏图中实体消歧效果不佳的技术问题;以及基于深度学习的知识消歧方法和基于图的消歧方法对于稠密图中实体消歧效率不高的技术问题。
2、为实现上述目的,按照本专利技术的一个方面,提供了一种基于邻居节点选择与特征汇聚的实体消歧方法,包括如下步骤:
3、(1)从知识图谱获取多个待消歧实体,使用正则表达式对每个待消歧实体的名称与待消歧实体的属性进行清洗,以获取处理后的待消歧实体,使用bert预训练词向量模型将处理后的待消歧实体的名称转换成名称的特征向量,并将处理后的待消歧实体的每个属性转换成属性的特征向量,得到的名称的特征向量、以及所有属性的特征向量共同构成待消歧实体的特征向量矩阵。
4、(2)针对每个待消歧实体而言,对步骤(1)得到的该待消歧实体的特征向量矩阵中所有的属性的特征向量进行融合,以得到该待消歧实体合并后的特征向量;
5、(3)利用类余弦函数对步骤(2)得到的所有待消歧实体合并后的特征向量进行相似度计算,以得到两两待消歧实体之间的背景相似度。
6、(4)针对步骤(3)得到的每两两待消歧实体之间的背景相似度而言,判断该背景相似度是否大于预设阈值,如果是则说明这两个待消歧实体为同一实体,过程结束,否则进入步骤(5);
7、(5)获取知识图谱中每个待消歧实体的第一层邻居节点列表。
8、(6)针对知识图谱中每个待消歧实体而言,对步骤(5)得到的该待消歧实体的第一层邻居节点列表进行邻居节点选择,以得到该待消歧实体的第二层邻居节点列表:
9、(7)针对知识图谱中每个待消歧实体而言,对步骤(5)得到的待消歧实体的第一层邻居节点列表和步骤(6)得到的待消歧实体的第二层邻居节点列表中的每一个节点而言,为该节点构建特征向量矩阵,从而得到该待消歧实体的第一层邻居节点列表对应的特征向量矩阵、以及第二层邻居节点列表对应的特征向量矩阵。
10、(8)针对知识图谱中的每一个待消歧实体而言,将步骤(1)得到的该待消歧实体的特征向量矩阵、步骤(7)得到的该待消歧实体的第一层邻居节点列表对应的特征向量矩阵、以及第二层邻居节点列表对应的特征向量矩阵进行融合,以得到该待消歧实体的融合特征向量。
11、(9)针对知识图谱中的所有待消歧实体而言,根据步骤(8)得到的所有待消歧实体的融合特征向量、并利用类余弦函数获取两两待消歧实体之间的背景相似度。
12、(10)判断步骤(9)得到的背景相似度是否大于指定阈值,若大于则说明两个待消歧实体为同一实体,过程结束,否则说明两个待消歧实体为不同实体,过程结束。
13、优选地,步骤(1)的预处理过程是利用正则表达式删除待消歧实体的名称与待消歧实体的属性中的一些特殊符号;
14、待消歧实体的特征向量矩阵e是由以下公式表示:
15、e=[f,a1,a2,a3…,anum]
16、其中f表示待消歧实体的名称的特征向量,am等表示待消歧实体的第m个属性的特征向量,其中m∈[1,待消歧实体的属性总数num]。
17、优选地,步骤(2)包括以下子步骤:
18、(2-1)对步骤(1)得到的每个待消歧实体的特征向量矩阵中的每个属性的特征向量进行加权映射,以得到该特征向量对应的权重。
19、(2-2)对步骤(2-1)得到的每个待消歧实体的特征向量矩阵中每个属性的特征向量对应的权重进行归一化处理,以得到该属性对应的注意力概率;
20、(2-3)对步骤(2-2)得到的每个待消歧实体的特征向量矩阵中每个属性对应的注意力概率与该属性的特征向量进行相乘处理,以得该属性加权融合后的特征向量。
21、(2-4)将步骤(2-3)得到的每个待消歧实体的特征向量矩阵中每个属性加权融合后的特征向量与步骤(1)得到的待消歧实体的名称的特征向量进行合并,以得到该待消歧实体合并后的特征向量。
22、优选地,步骤(2-1)是采用以下公式:
23、w(a)=relu(wa+b)
24、其中w(a)表示属性的特征向量a对应的权重,relu为激活函数,w表示权重系数,b为偏置系数。
25、步骤(2-2)本文档来自技高网...
【技术保护点】
1.一种基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,
3.根据权利要求1或2所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,步骤(2)包括以下子步骤:
4.根据权利要求1至3中任意一项爱国所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,
5.根据权利要求4所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,步骤(5)包括以下子步骤:
6.根据权利要求5所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,步骤(6)是从待消歧实体的第一层邻居节点列表中的所有节点在知识图谱中的所有邻居节点中选择n个邻居节点,并保证待消歧实体的第一层邻居节点列表中的每个节点至少有一个邻居节点被选中,其中n的取值范围是7到10。
7.根据权利要求6所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,
8.根据权利要求7所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在
9.根据权利要求8所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,步骤(9)是采用以下公式:
10.一种基于邻居节点选择与特征汇聚的实体消歧系统,其特征在于,包括:
...【技术特征摘要】
1.一种基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,
3.根据权利要求1或2所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,步骤(2)包括以下子步骤:
4.根据权利要求1至3中任意一项爱国所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,
5.根据权利要求4所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,步骤(5)包括以下子步骤:
6.根据权利要求5所述的基于邻居节点选择与特征汇聚的实体消歧方法,其特征在于,步骤...
【专利技术属性】
技术研发人员:唐卓,李世健,张嘉鹏,高梓文,张博锐,王斌,朱雅琳,
申请(专利权)人:湖南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。