一种实体与知识库项的关联方法及装置制造方法及图纸

技术编号:11623300 阅读:82 留言:0更新日期:2015-06-18 01:01
本发明专利技术公开了一种实体与知识库项的关联方法及装置,属于计算机领域。所述方法包括:获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体和知识库项;根据所述待匹配实体的实体类型特征向量,获取关联模型集合,所述获取的关联模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设近似条件;通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果。所述装置包括:第一获取模块、第二获取模块和选择模块。本发明专利技术能够提高实体与知识库项关联结果的准确度。

【技术实现步骤摘要】

本专利技术涉及计算机领域,特别涉及一种实体与知识库项的关联方法及装置
技术介绍
当前,文本数据出现爆炸式增长,人们迫切需要优秀的文本分析技术,来帮助理解 数据的真实含义。实体关联技术是一种文本分析技术,它将文本数据中出现的词或词组作 为实体,将对该实体进行说明的说明内容的标题或摘要作为KB(Knowledgebase,知识库) 项,并将该实体和该KB项组成匹配对。如此,人们可以通过该匹配对来理解文本数据的真 实含义。例如,对于一段文本数据"早上好,JamesParsons!",实体关联技术可以将该段文 本数据中出现的"JamesParsons"作为实体,将对"JamesParsons"进行说明的说明内容 的标题"演员JamesParsons"作为KB项,并将该实体和该KB项组成匹配对。人们可以根 据该匹配对确定"JamesParsons"为"演员",从而理解该实体的真实含义。目前,实体关联技术可以通过如下方法将实体和KB项组成匹配对,包括:设置一 个训练数据集合,该训练数据集合包括多个匹配对,且这些匹配对都为实体与KB项的匹配 对,通过多种学习算法对整个训练数据集合进行训练得到一个关联模型集合,关联模型集 合包括多个关联模型,每个关联模型为匹配实体与KB项的算法;对于一个待匹配实体,利 用词性匹配和/或文本语义分析等技术,从知识库中获取与待匹配实体可能匹配的KB项, 并将待匹配实体与获取的每个KB项组成候选匹配对;通过经过训练得到的一个关联模型 集合从组成的侯选匹配对中选择一个侯选匹配对作为实体与KB项的关联结果。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:目前通过多种学习算法对整个训练数据集合进行训练得到一个关联模型集合,而 在对实体和KB项的进行关联时,因为存在多种多样的实体,通过训练得到的一个关联模型 集合对所有的实体进行关联,得到的关联结果的准确度较低。
技术实现思路
为了提高实体与知识库项关联结果的准确度,本专利技术提供了一种实体与知识库项 的关联方法及装置。所述技术方案如下: -种实体与知识库项的关联方法,所述方法包括: 获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体和知识库项; 根据所述待匹配实体的实体类型特征向量,获取关联模型集合,所述获取的关联 模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设近似条件; 通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配 对作为实体与知识库项的关联结果。 一种实体与知识库项的匹配装置,所述装置包括: 第一获取模块,用于获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体 和知识库项; 第二获取模块,用于根据所述待匹配实体的实体类型特征向量,获取关联模型集 合,所述获取的关联模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设 近似条件; 选择模块,用于通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选 择一个侯选匹配对作为实体与知识库项的关联结果。 在本专利技术实施例中,由于根据待匹配实体的实体类型特征向量,获取实体类型与 待匹配实体的实体类型之间满足预设近似条件的关联模型集合,从而能够获取到实体类型 与待匹配实体的实体类型相近的关联模型集合,并通过获取的关联模型集合匹配实体与知 识库项的匹配对,从而提高实体与知识库项关联结果的准确度。【附图说明】 图1是本专利技术实施例1提供的一种实体与知识库项的关联方法流程图; 图2是本专利技术实施例2提供的一种实体与知识库项的关联方法流程图; 图3是本专利技术实施例3提供的第一种实体与知识库项的关联装置结构示意图; 图4是本专利技术实施例3提供的第二种实体与知识库项的关联装置结构示意图。【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方 式作进一步地详细描述。 实施例1 参见图1,本专利技术实施例提供了一种实体与知识库项的关联方法,包括: 步骤101:获取至少一个侯选匹配对,该侯选匹配对包括待匹配实体和知识库项; 步骤102:根据待匹配实体的实体类型特征向量,获取关联模型集合,获取的关联 模型集合对应的实体类型与待匹配实体的实体类型之间满足预设近似条件; 步骤103:通过获取的关联模型集合,从至少一个侯选匹配对中选择侯选匹配对 作为实体与知识库项的关联结果。 在本专利技术实施例中,由于根据待匹配实体的实体类型特征向量,获取实体类型与 待匹配实体的实体类型之间满足预设近似条件的关联模型集合,从而能够获取到实体类型 与待匹配实体的实体类型相近的关联模型集合,并通过获取的关联模型集合匹配实体与知 识库项的匹配对,从而提高实体与知识库项关联结果的准确度。 实施例2 参见图2,本专利技术实施例提供了一种实体与知识库项的关联方法,包括: 步骤201:获取训练数据集合包括的每个匹配对中的实体的实体类型特征向量; 训练数据集合是用于训练关联模型集合的文本数据库,训练数据集合包括多个预 设的匹配对,且预设的匹配对都为实体与KB项的匹配对。实体可以为文本中出现的某一 词或词组等,KB项可以是对实体进行说明的说明内容的标题或摘要等信息,且KB项可以为 词、词组、短句或段落等,实体与KB项的匹配对可以帮助用户理解实体的真实含义。 例如,一篇文本中出现的某个词为"JamesParsons",该词可以为一个实体,存在 一个标题为"演员JamesParsons"的网页页面,该网页页面对"JamesParsons"进行详细 说明,将该网页页面的标题作为KB项,由"JamesParsons"和"演员JamesParsons"组成 的实体与KB项的匹配对用于说明"JamesParsons"为"演员JamesParsons",从而帮助用 户理解实体"JamesParsons"的真实含义。 本步骤可以具体为,对于训练数据集合包括的每一个匹配对,获取该匹配对中的 实体的特征,该实体的特征包括该实体的词性和/或上下文信息等,再将该实体的特征组 成该实体的实体类型特征向量。 对于该实体的词性,可以通过用于判定词性的算法来获取该实体的词性。 对于该实体的上下文信息,可以通过如下方式获取该实体的上下文信息,包括: 事先设置一个文档库,该文档库中包括多篇文档,从文档库中找出包括该实体的 文档,在找出的文档中获取在该实体之前且与该实体最接近的预设第二个数个词以及在该 实体之后且与该实体最接近的预设第二个数个词,例如,预设第二个数可以为2或4等数 值,将获取的词或获取的词的词性作为该实体的上下文信息。 例如,用一当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种实体与知识库项的关联方法,其特征在于,所述方法包括:获取至少一个侯选匹配对,所述侯选匹配对包括待匹配实体和知识库项;根据所述待匹配实体的实体类型特征向量,获取关联模型集合,所述获取的关联模型集合对应的实体类型与所述待匹配实体的实体类型之间满足预设近似条件;通过所述获取的关联模型集合,从所述至少一个侯选匹配对中选择一个侯选匹配对作为实体与知识库项的关联结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘春辰李建强刘博
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1