【技术实现步骤摘要】
一种面向会话式实体搜索的查询扩展方法
本专利技术涉及实体搜索领域,更具体地,涉及一种面向会话式实体搜索的查询扩展方法。
技术介绍
会话式实体搜索就是通过用户交互的多轮查询方式对Web数据中主题相关的实体对象(如人、组织和地点等)及相应属性进行快速、准确的检索。相比传统实体搜索,会话式实体搜索会将用户意图分解为一系列查询,每轮查询中用户都会根据历史查询的结果提出新的查询或是修改原始查询。在此情形下,单轮查询描述的信息一般都是不完整的,同时查询的不断演进也可能使会话内容偏离目标主题,因此如何理解用户每轮查询的意图、缩短查询流程并保证会话主题的一致性是会话式实体搜索所要解决的关键问题。目前对于理解用户的查询意图,传统实体搜索普遍采用查询扩展方法,该方法利用信息论、数据挖掘等技术从不同的信息源中获取查询相关的扩展项并结合原始查询生成新的查询,通过新的查询得到更多相关的结果。当前,面向传统实体搜索的查询扩展方法利用的信息源主要来自于两方面,一方面为初始查询的结果,对应基于伪相关反馈的查询扩展方法;另一方面则是知识库中的相关结果,对应基于外部语料库的查询扩展方法,这两种查询扩展方法在会话式实体搜索中均存在局限性。会话式实体搜索中多轮查询间存在显著的关联,历史查询结果对于本轮查询的影响较大,上述的查询扩展方法均未考虑到历史因素的作用且主要针对的是一次性查询而不是会话式查询,因而不能全面地理解用户意图、产生单轮查询漂移,进而影响用户后续的查询、延长查询流程,同时也无法保证会话主题的一致性,降低了会话式实体搜索的效率。
技术实现思路
针对现有技术的缺陷,本专利技术的目的在于解决 ...
【技术保护点】
一种面向会话式实体搜索的查询扩展方法,其特征在于,包括以下步骤:(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D;(2)遍历数据集D中每个文档d,对d中包含的关键字和实体进行索引,最终得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息;(4)根据历史查询结果构建历史结果缓存队列L;(5)根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Qh;(6)基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;(7)利用R更新缓存队列L,若用户提出下轮查询则转至步骤(5),否则进入步骤(8);(8)本次会话查询结束。
【技术特征摘要】
1.一种面向会话式实体搜索的查询扩展方法,其特征在于,包括以下步骤:(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D;(2)遍历数据集D中每个文档d,对d中包含的关键字和实体进行索引,最终得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息;(4)根据历史查询结果构建历史结果缓存队列L;(5)根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Qh;(6)基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;(7)利用R更新缓存队列L,若用户提出下轮查询则转至步骤(5),否则进入步骤(8);(8)本次会话查询结束。2.根据权利要求1所述的查询扩展方法,其特征在于,步骤(1)包含以下子步骤:(1-1)利用开源信息抽取工具将维基百科文档集中的文档划分为粒度更小、语义独立的上下文;(1-2)对上下文进行分词、词性标注,移除停用词然后进行命名实体识别,进一步利用Wikifier工具进行实体链接,得到包含关键字和实体标注的数据集D。3.根据权利要求2所述的查询扩展方法,其特征在于,步骤(2)包含以下子步骤:(2-1)读取文档d中的关键字和实体标注生成关键字id-文档id、实体id-文档id组合,相应地利用标注信息生成实体id-实体类t组合;(2-2)将关键字id-文档id、实体id-文档id组合分别插入Ik和Ie中,将实体id-实体类t组合插入IE中。4.根据权利要求3所述的查询扩展方法,其特征在于,步骤(3)包含以下子步骤:(3-1)抽取WordNet中的语义信息,包括:抽取WordNet中同义词及上下位词语义关系,分别建立关键字id到同义词集的映射和不同同义词集间的映射,对应的映射权重通过语义重合度和语义密度来度量;(3-2)抽取YAGO3中的实体相关信息,包括:提取YAGO3中的实体关联信息,建立实体id到实体id的关联。5.根据权利要求1所述的查询扩展方法,其特征在于,步骤(4)利用优先级队列对历史结果进行缓存,给定历史结果e的新鲜度f和当前得分s,优先级的计算公式如下:其中,Priority(e)表示历史结果e的优先级,f为时间跨度的logistic函数,fi(e)表示历史结果e在第i轮会话中的新鲜度,si(e)表示历史结果e在第i轮会话中的相关性得分,i表示会话轮次,n表示总会话轮数。6.根据权利要求1所述的查询扩展方法,其特征在于,步骤(5)包含以下子步骤:(5-1)计算扩展关系模型Mr,若支持文档集ds由输入实体ein、结果实体er、数据集D及扩展关系模型Mr的混合模型生成,则有:
【专利技术属性】
技术研发人员:赵峰,王沛,肖洋,金海,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。