一种利用上下文将文本中实体关联到知识库的方法技术

技术编号:37347979 阅读:21 留言:0更新日期:2023-04-22 21:43
本发明专利技术涉及一种利用上下文将文本中实体关联到知识库的方法,属于自然语言处理技术领域,该方法包括:建立知识库;建立知识库索引;对输入文本中实体指称的字符预处理,获取实体指称对应的候选实体集合;建立<指称,实体>对;选取与实体指称的上下文相关度较高的多个候选实体描述句子作为选择依据;根据选择依据判断实体指称对应的知识库中的实体名词或判断知识库中没有实体指称对应的实体名词。本申请提供的方法可以扩充匹配范围、有效提升关联的准确性;通过在预测结果标记处添加无法链接分类标签的MLP多层感知模型进行实体指称对应的实体名词判断,解决了现有技术中实体不在知识库中时,仅通过找出关联度最大的一项导致错误的关联这一问题。的关联这一问题。的关联这一问题。

【技术实现步骤摘要】
一种利用上下文将文本中实体关联到知识库的方法


[0001]本专利技术涉及自然语言处理
,尤其涉及一种利用上下文将文本中实体关联到知识库的方法。

技术介绍

[0002]自然语言文本作为现在互联网数据的主要承载形式,包括人工编写的新闻报告、说明分析等,相较于结构化的数据,其存在的数量更多、包含的信息更多,而实体往往作为与现实物体、概念等对应的词语,是查询、分析的核心。因此,围绕实体名词处理是现代数据处理的重要方法,通过推荐与实体名词语义相关的词语可以有效地为用户提供数据漫游的能力,但是实体名词存在歧义与多义的问题,并不能直接关联到知识库中的特定词条上。
[0003]从而,现有技术中存在以下问题:文中出现的简称,传统的检索难以在知识库命中;一般上下文与指称存在关联的部分并不多,而一般的对齐并没有在知识库的实体描述句子之上进行提炼,降低了正确的实体与指称之间的关联性;传统的实体是通过阈值的方式判断,这种方法只能分别考虑是否关联;实体并非一定会出现在知识库中,仅仅通过找出关联度最大的一项又会导致错误的关联。

技术实现思路

[0004]本专利技术意在提供一种利用上下文将文本中实体关联到知识库的方法,以解决现有技术中存在的不足,本专利技术要解决的技术问题通过以下技术方案来实现。
[0005]本专利技术提供了一种利用上下文将文本中实体关联到知识库的方法,所述方法包括:获取互联网知识百科数据,建立包括各个类别实体名词的词典集合的知识库;建立知识库中各个实体名词对应的知识库索引;对输入文本中实体指称的字符进行预处理,将实体指称的字符拆解形成多个查询字符,将查询字符输入至知识库中进行搜索,获取实体指称对应的知识库中包含K个候选实体的候选实体集合;建立实体指称与对应的候选实体集合中K个候选实体组成的K个<指称,实体>对;分别计算K个<指称,实体>对中各个候选实体描述的特征向量与实体指称的上下文的特征向量,并分别选取与实体指称的上下文相关度较高的多个候选实体描述句子作为选择依据;根据选择依据判断实体指称对应的知识库中的实体名词或判断知识库中没有实体指称对应的实体名词。
[0006]在上述的方案中,所述对输入文本中实体指称的字符进行预处理包括:去除标点符号;将大写字母转化为小写字母;将数字文字转化为阿拉伯数字。
[0007]在上述的方案中,通过2

gram算法拆解将实体指称的字符拆解形成多个查询字符。
[0008]在上述的方案中,分别计算K个<指称,实体>对中各个候选实体描述的特征向量与实体指称的上下文的特征向量,并分别选取与实体指称的上下文相关度较高的多个候选实体描述句子作为选择依据包括:通过Doc2vec模型分别计算K个<指称,实体>对中各个候选实体描述的特征向量与实体指称的上下文的特征向量;计算特征向量之间的余弦相似度,根据余弦相似度找出与实体指称的上下文相近的多个候选实体描述句子,将与实体指称的上下文相近的多个候选实体描述句子作为选择依据。
[0009]在上述的方案中,与实体指称的上下文相近的多个候选实体描述句子长度之和小于512字。
[0010]在上述的方案中,根据选择依据判断实体指称对应的知识库中的实体名词或判断知识库中没有实体指称对应的实体名词包括:使用BERT预训练模型对选择依据、选择依据对应的实体指称的上下文进行字符串直接拼接,构成输入串;将上述的输入串作为输入BERT预训练模型的token,并标记;采用first

last

avg特征,把BERT预训练模型的第一层与最后一层的所有向量取平均,作为选择依据、选择依据对应的候选实体的关系表征向量;将所有的关系表征向量依序进行拼接,组成一个长向量;将长向量输入至在预测结果标记处添加无法链接分类标签的MLP多层感知模型中获取选择依据中实体指称对应的知识库中的实体名词或判断知识库中没有实体指称对应的实体名词。
[0011]在上述的方案中,所述建立知识库中各个实体名词对应的知识库索引包括:对知识库中的各个类别实体名词分别进行拆分处理获取多个n元词,并对获取的n元词进行分析,将n元词进行扩展,以及将获取的n元词以及扩展结果存储至知识库中对应类别的文档。
[0012]在上述的方案中,所述建立知识库中各个实体名词对应的知识库索引还包括:计算各个n元词的IDF值,将各个文档中IDF值大于预设的IDF阈值的n元词进行去掉;根据各个实体名词对应的剩余的n元词,建立知识库中各个实体名词对应的知识库索引。
[0013]在上述的方案中,通过已构建的分词库对知识库中的各个类别实体名词分别进行拆分处理。
[0014]在上述的方案中,通过IDF计算公式计算各个n元词的IDF值,其中,IDF计算公式为:其中, IDF
i
为第i个n元词的IDF值,|D|是知识库中的文档
总数,表示知识库中的包含n元词 t
i
的文档总数 ,d
j
为知识库中第j个文档。
[0015]本专利技术实施例包括以下优点:本专利技术实施例提供的利用上下文将文本中实体关联到知识库的方法使用知识库中的各个类别实体名词分别进行拆分处理,可以扩充匹配范围;通过对候选实体描述句子进行初步筛选,获取与实体指称的上下文相近的多个候选实体描述句子,可以有效提升关联的准确性;通过在预测结果标记处添加无法链接分类标签的MLP多层感知模型进行实体指称对应的知识库中的实体名词判断,可判断该指称是否不存在对应的知识库实体,解决了现有技术中实体并非一定会出现在知识库中,仅仅通过找出关联度最大的一项会导致错误的关联这一问题。
附图说明
[0016]图1是本专利技术的一种利用上下文将文本中实体关联到知识库的方法实施例的步骤流程图。
[0017]图2是本专利技术的建立知识库索引的步骤流程图。
[0018]图3是本专利技术的获取选择依据的步骤流程图。
[0019]图4是本专利技术的判断实体指称对应的知识库中的实体名词的步骤流程图。
[0020]图5是本专利技术的BERT预训练模型示意图。
[0021]图6是本专利技术的BERT预训练模型的工作过程示意图。
具体实施方式
[0022]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。
[0023]如图1所示,本专利技术提供了一种利用上下文将文本中实体关联到知识库的方法,所述方法包括:步骤S1:获取互联网知识百科数据,建立包括各个类别实体名词的词典集合的知识库。
[0024]步骤S2:建立知识库中各个实体名词对应的知识库索引。
[0025]在本实施例中,建立知识库中各个实体名词对应的知识库索引是为了将词条描述中与该实体不相关的部分去除,将描述文本中主体不是本实体的句子从内容索引中剔除,从而保证在检索与计算相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用上下文将文本中实体关联到知识库的方法,其特征在于,所述方法包括:获取互联网知识百科数据,建立包括各个类别实体名词的词典集合的知识库;建立知识库中各个实体名词对应的知识库索引;对输入文本中实体指称的字符进行预处理,将实体指称的字符拆解形成多个查询字符,将查询字符输入至知识库中进行搜索,获取实体指称对应的知识库中包含K个候选实体的候选实体集合;建立实体指称与对应的候选实体集合中K个候选实体组成的K个<指称,实体>对;分别计算K个<指称,实体>对中各个候选实体描述的特征向量与实体指称的上下文的特征向量,并分别选取与实体指称的上下文相关度较高的多个候选实体描述句子作为选择依据;根据选择依据判断实体指称对应的知识库中的实体名词或判断知识库中没有实体指称对应的实体名词。2.根据权利要求1所述的利用上下文将文本中实体关联到知识库的方法,其特征在于,所述对输入文本中实体指称的字符进行预处理包括:去除标点符号;将大写字母转化为小写字母;将数字文字转化为阿拉伯数字。3.根据权利要求1所述的利用上下文将文本中实体关联到知识库的方法,其特征在于,通过2

gram算法拆解将实体指称的字符拆解形成多个查询字符。4.根据权利要求1所述的利用上下文将文本中实体关联到知识库的方法,其特征在于,分别计算K个<指称,实体>对中各个候选实体描述的特征向量与实体指称的上下文的特征向量,并分别选取与实体指称的上下文相关度较高的多个候选实体描述句子作为选择依据包括:通过Doc2vec模型分别计算K个<指称,实体>对中各个候选实体描述的特征向量与实体指称的上下文的特征向量;计算特征向量之间的余弦相似度,根据余弦相似度找出与实体指称的上下文相近的多个候选实体描述句子,将与实体指称的上下文相近的多个候选实体描述句子作为选择依据。5.根据权利要求4所述的利用上下文将文本中实体关联到知识库的方法,其特征在于,与实体指称的上下文相近的多个候选实体描述句子长度之和小于512字。6.根据权利要求1所述的利用...

【专利技术属性】
技术研发人员:张昊岳一峰任祥辉
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1