一种基于知识驱动的查询的实体链接方法技术

技术编号:23512758 阅读:13 留言:0更新日期:2020-03-18 00:04
本发明专利技术属于实体链接的技术领域,具体涉及一种基于知识驱动的查询的实体链接方法,包括如下步骤,步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地知识库进行信息扩展;步骤三、采用推理链接算法,对所述实体指称项进行链接处理。本发明专利技术能够解决用户查询语句的语境缺乏和描述不规范等问题,并降低对本地知识库的依赖性,还准确实现候选实体的产生和判别,从而提高实体链接的性能。

An entity linking method based on Knowledge Driven Query

【技术实现步骤摘要】
一种基于知识驱动的查询的实体链接方法
本专利技术属于实体链接的
,具体涉及一种基于知识驱动的查询的实体链接方法。
技术介绍
随着web应用程序中对话界面越来越流行,交互越来越类似于自然语言对话,使得自然语言理解变成了一个关键问题。深层次的语义理解对于通过自然语言在普适计算设备中提高信息交换的精度,上下文和个性化是十分必要的。对于用户查询数据进行实体消歧研究,有助于准确理解用户真正的搜索意图,为实现语义搜索打下基础。此外,用户查询数据中包含类别丰富的实体指称项,为知识图谱的构建和更新提供强大的实体支撑。然而,和新闻、博客等文本数据相比,用户查询语句的构建者是广大群众,由于学识、习惯等问题,质量参差不齐。用户查询语句书写随意,容易出现词序颠倒、拼写错误、多种语言融合、名称变形等多种问题。此外,由于搜索引擎对查询的字数限制,导致查询语句描述简洁,缺乏语境信息。这些特点使得适用于长文本的实体链接方法无法直接应用到用户查询语句中。实体链接系统中必不可少的一个模块是搜索知识库中实体,为实体指称项产生候选实体列表,采用的方法主要是名称匹配,然而名称不规范问题会降低实体指称项和知识库中实体的名称相似度,从而导致遗漏真正的目标链接实体。此外,候选实体排序模块需要利用语境信息来度量实体指称项和候选实体的相关性,而用户查询的语境缺乏问题,会降低实体指称项与目标链接实体的语境相似度,从而无法实现对候选实体的精准判别。比如,给定一条用户查询语句“大衣哥最新视频”,其中实体指称项“大衣哥”指代的真实世界中的实体是农民歌手“朱之文”,很明显它们的名称完全不同,且查询语句中没有提供有效的辨别信息,仅根据该条用户查询语句,无法完成“大衣哥”和“朱之文”之间的链接。专利技术人发现现有的面向用户查询的实体链接方法存在以下缺陷:用户查询语句的语境缺乏和存在描述不规范等问题。
技术实现思路
本专利技术的目的在于:针对现有技术的不足,提供一种基于知识驱动的查询的实体链接方法,能够解决用户查询语句的语境缺乏和描述不规范等问题,并降低对本地知识库的依赖性,还准确实现候选实体的产生和判别,从而提高实体链接的性能。为了实现上述目的,本专利技术采用如下技术方案:一种基于知识驱动的查询的实体链接方法,包括如下步骤:步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地知识库进行信息扩展;步骤三、采用推理链接算法,对所述实体指称项进行链接处理。需要说明的是,本专利技术的实体链接方法中,首先,基于句法分析制定启发式方法,识别用户查询语句中的命名性实体指称项,这样融入了少量的深层和浅层的句法知识,减缓了分词错误造成的影响,有助于提高实体指称项识别的准确性和完整性;其次,针对用户查询语句语境缺乏、实体指称项描述不规范,以及本地知识库实体知识不完善等问题,基于增量证据挖掘的思想,借助百度搜索和百度百科等外部知识源,对实体指称项和本地知识库进行信息扩展,有助于更准确地产生和判别候选实体;最后,通过推理链接算法,该算法通过综合考虑并逐步利用实体多方面的知识,实现了不以牺牲计算成本为代价来提高实体链接性能的目标。作为本专利技术所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤三中,所述推理链接算法包括:产生候选实体;对所述候选实体进行排序;预测空链接指称项。作为本专利技术所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤三中,所述推理链接算法包括:通过实体的名称相似度、类别一致性、语境相似度及所述实体之间的语义相关性确定所述实体指称项的目标链接实体。作为本专利技术所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤三中,所述推理链接算法包括:从所述实体指称项的语境信息中获取所述实体指称项;获取所述实体指称项的目标链接实体,然后根据所述本地知识库中实体之间的关联结构,获取所述目标链接实体的关联实体;综合利用名称、语境相似度及类别一致性,度量所述实体指称项和所述关联实体之间的相关性。作为本专利技术所述的一种基于知识驱动的查询的实体链接方法的一种改进,度量所述实体指称项和所述关联实体之间的相关性,包括:若总体相似度分数超过阈值,则所述关联实体为所述目标链接实体,否则,所述实体指称项为空链接实体指称项。作为本专利技术所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤一中,识别所述实体指称项,包括:使用HanLP自然语言处理工具,对输入文本d进行分词、词性标注和依存关系解析,获取一个带有词性标签和依存关系标签的词语集合其中,wi代表所述词语,pi代表所述词性标签,di代表所述依存关系标签。作为本专利技术所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤二中,所述增量证据挖掘包括:利用实体名称、上下文和流行度,将所述实体指称项和所述本地知识库中所述实体,与所述外部知识源词条关联。作为本专利技术所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤二中,还包括:若所述实体指称项没有关联外部知识源词条,则将所述用户查询语句放入搜索引擎中,然后,从搜索结果的标题和摘要中获取名词性词语作为所述实体指称项的语境。作为本专利技术所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤二中,对所述实体指称项和所述本地知识库进行信息扩展,包括通过外部知识源,对所述实体指称项的别名、类别、语境进行扩展;获取实体别名、丰富类别、扩展描述信息,对所述本地知识库进行优化。本专利技术的有益效果在于,本专利技术包括如下步骤,步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地知识库进行信息扩展;步骤三、采用推理链接算法,对所述实体指称项进行链接处理。本专利技术的实体链接方法中,首先,基于句法分析制定启发式方法,识别用户查询语句中的命名性实体指称项,这样融入了少量的深层和浅层的句法知识,减缓了分词错误造成的影响,有助于提高实体指称项识别的准确性和完整性;其次,针对用户查询语句语境缺乏、实体指称项描述不规范,以及本地知识库实体知识不完善等问题,基于增量证据挖掘的思想,借助百度搜索和百度百科等外部知识源,对实体指称项和本地知识库进行信息扩展,有助于更准确地产生和判别候选实体;最后,通过推理链接算法,该算法通过综合考虑并逐步利用实体多方面的知识,实现了不以牺牲计算成本为代价来提高实体链接性能的目标。本专利技术能够解决用户查询语句的语境缺乏和描述不规范等问题,并降低对本地知识库的依赖性,还准确实现候选实体的产生和判别,从而提高实体链接的性能。附图说明图1为本专利技术中用户查询实体链接示意图。图2为本专利技术中用户查询语句依存解析示意图。具体实施方式如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会本文档来自技高网
...

【技术保护点】
1.一种基于知识驱动的查询的实体链接方法,其特征在于,包括如下步骤:/n步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;/n步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地知识库进行信息扩展;/n步骤三、采用推理链接算法,对所述实体指称项进行链接处理。/n

【技术特征摘要】
1.一种基于知识驱动的查询的实体链接方法,其特征在于,包括如下步骤:
步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;
步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地知识库进行信息扩展;
步骤三、采用推理链接算法,对所述实体指称项进行链接处理。


2.如权利要求1所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤三中,所述推理链接算法包括:产生候选实体;对所述候选实体进行排序;预测空链接指称项。


3.如权利要求1所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤三中,所述推理链接算法包括:
通过实体的名称相似度、类别一致性、语境相似度及所述实体之间的语义相关性确定所述实体指称项的目标链接实体。


4.如权利要求3所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤三中,所述推理链接算法包括:
从所述实体指称项的语境信息中获取所述实体指称项;
获取所述实体指称项的目标链接实体,然后根据所述本地知识库中实体之间的关联结构,获取所述目标链接实体的关联实体;
综合利用名称、语境相似度及类别一致性,度量所述实体指称项和所述关联实体之间的相关性。


5.如权利要求4所述的一种基于知识驱动的查询的实体链接方法,其特征在于,度量所述实体指称项和所述关联实体之间的相关性,...

【专利技术属性】
技术研发人员:韩伟红徐菁陈雷霆孙燕刘妙玲
申请(专利权)人:电子科技大学广东电子信息工程研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1