当前位置: 首页 > 专利查询>清华大学专利>正文

查询意图挖掘的方法和系统技术方案

技术编号:10238321 阅读:167 留言:0更新日期:2014-07-19 04:47
本发明专利技术涉及一种查询意图挖掘的方法,包括如下步骤:获取搜索查询、识别搜索查询中的关键概念、识别关键概念中的数值类型、对于每一个识别得到的数值类型生成数值查询实例、从数据源中挖掘对应的候选意图、通过数值查询实例计算与其对应的候选意图的取值范围、对候选意图进行聚类、输出意图列表。本发明专利技术还公开了一种查询意图挖掘的系统,包括搜索查询获取模块、关键概念识别模块、数值类型识别模块、数值查询实例生成模块、候选意图挖掘模块、计算模块、聚类模块以及显示模块。采用本发明专利技术的技术方案根据搜索用户的查询意图对搜索结果进行有效的索引和组织等处理,有效地提高了准确率,避免了搜索用户筛选并非自己意图的搜索结果所造成的时间和精力的浪费。

【技术实现步骤摘要】
查询意图挖掘的方法和系统
本专利技术涉及信息检索领域,尤其涉及一种查询意图挖掘的方法和系统。
技术介绍
互联网是官方发布科技信息、个人发布日记或博客的平台。信息检索系统(例如搜索引擎)日益重要,因为它能够从大数据集中找到用户想要的信息;然而,不同的用户会使用同一个简短且模糊的查询词去查找不同的信息(解释),这就导致现有信息检索系统难以返回充足、准确的结果。为了帮助用户快速且准确地找到他们感兴趣的信息,各种各样基于自然语言处理和信息检索的搜索结果整理方法应运而生。如图1所示,展示了一个用户接口,包含输入的查询、挖掘得到的意图和属于不同意图的搜索结果。这些结果的罗列通常使得用户需要耗费较多的时间和精力进行筛选,以获取真正符合自己意图的搜索结果。即使是现有的最优方案:THUIR(信息检索组)团队提出的“先从互联网数据(主流搜索引擎的搜索结果及搜索查询日志等)中挖掘候选意图;然后根据照特征对这些候选意图进行排序,特征包括意图频度、共现频度、点击统计和编辑距离等;最后,系统输出排序的意图列表”这一技术方案依然不能准确找到用户的真正意图。比如,用户输入搜索查询“ciproforuti4days”,如下表3所示,为THUIR系统针对用户的“ciproforuti4days”查询输出的最相关的两个候选意图,表1其中,用户并不是真的想去找包含“4days”这个短语的信息,其暗示了当前的状态,实为想要知道有关如何进行治疗的信息。根据其状态,可以推知他正处于治疗阶段。所以在这种情况下,结合用户当前的状态,意图1更加合适。然而,现有的方法使用数值数据,比如“4days”,作为关键概念去挖掘与之匹配的候选意图。但是,“4days”只是这个意图的唯一数值,同一意图的其他数值则不能被该方法找到。且如图3所示,并非用户的真正意图的意图2的分布反而要高于用户此次搜索的意图1。可知,该THUIR系统也无法提供准确率较高的意图挖掘方案。
技术实现思路
本专利技术所要解决的技术问题是信息检索中搜索结果能够反映用户真正的意图的准确率较低,导致用户需要耗费大量时间和精力在大量的搜索结果中筛选。为此目的,本专利技术提出了一种查询意图挖掘的方法,包括如下步骤:A、获取搜索查询;B、识别搜索查询中的关键概念;C、识别所述关键概念中的数值类型;D、对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;E、从数据源中挖掘与所述搜索查询相关且与至少一个步骤D中生成的所述数值查询实例同时出现的候选意图;F、通过所述数值查询实例计算与其对应的所述候选意图的取值范围;G、根据步骤F中计算得出的所述候选意图的取值范围对所述候选意图进行聚类;将相同取值范围的候选意图集聚合为一个意图;H、输出所述候选意图的意图列表。优选的,所述数值类型包括周期(period)、频度(frequency)、距离(distance)、数量(amount)和水平(level)。优选的,所述数值查询实例包括所述关键概念、数值类型以及用以代表所述数值查询实例的实例数值。作为一种优选,该数值查询结构可以仅包括所述关键概念、数值类型以及实例数值,即该数值查询结构由所述关键概念、数值类型以及用以表示所述数值查询实例的实例数值组成。优选的,所述实例数值取最大值、最小值、确定值和间隔值四个类型之一。优选的,步骤D中,所述生成数值查询实例,包括:D1、使用预设的数值集合,为每一个所述数值查询实例设定所述实例数值。优选的,所述生成数值查询实例,进一步包括:D21、从预设的模式集中获取与所述数值类型相关的模式;D22、使用步骤D21中获取的模式从数据源中挖掘所述数值查询实例;优选的,步骤E进一步包括:E11、从数据源中检索与所述搜索查询相关的内容,且该内容至少包含一个数值查询实例;E12、从每个步骤E11中检索出的所述搜索查询相关的内容中,根据预设的词库识别出候选意图;E13、生成候选意图集,且所述候选意图至少与一个数值查询实例共现。优选的,步骤F进一步包括:F11、计算每一个所述数值查询实例的取值范围;F12、生成包含至少一个候选意图的数据集;F13、对于步骤F12中生成的所述数据集中的每一个意图,计算该意图的取值分布以及权值,所述意图的取值等于该意图的权值除以整个数值查询实例集合所包含意图的权值总和,且求得的该意图的取值与权值均与该意图对应地置于所述数据集中;F14、以所述候选意图的实例数值的最小值作为该候选意图的取值范围的左边界;F15、以所述候选意图的实例数值的最大值作为该候选意图的取值范围的右边界;F16、对每一个所述候选意图,计算其在取值范围内的总的分布值;优选的,步骤F11进一步包括:F111、根据预设的数值类型,计算数值查询实例的数值,所述预设的取值类型包含最大值、最小值、间隔值和确定值。优选的,步骤F14进一步包括:F1411、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最大值设为其左边界;F1412、对于选定的具有最大分布值的所述候选意图,获取其实例数值;F1413、如果当前的左边界值大于获取的实例数值,则将该实例数值设为左边界。优选的,步骤F15进一步包括:F1511、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最小值设为其右边界;F1512、对于选定的具有最大分布值的所述候选意图,获取其实例数值;F1513、如果当前的右边界值小于获取的实例数值,则将该实例数值设为右边界。优选的,步骤F进一步包括:F17、获取所述搜索查询的实例数值;F18、当获取的所述搜索查询的实例数值小于候选意图的取值范围的左边界值,对该实例数值对应的候选意图取值范围的分布值设定最小值;F19、当获取的所述搜索查询的实例数值在所述候选意图的取值范围内,对该实例数值对应的候选意图的分布值设定最大值。优选的,本专利技术的查询意图挖掘的方法还包括以下步骤:根据所述意图列表生成扩展的查询;提取与所述扩展的查询相关的文档候选集。优选的,步骤C中若无法识别出所述数值类型,则进行如下步骤:D′、从数据源中挖掘意图候选集;E′、对所述意图候选集中的候选意图进行排序;H、输出所述候选意图的意图列表;其中,步骤E′中的排序依据包括意图频率、同现频率、点击统计及编辑距离。优选的,所述数据源包括搜索结果、维基百科、点击数据。优选的,本专利技术查询意图挖掘的方法,还包括:对所述搜索查询中的每一个关键概念,检索出相关的文档候选集;根据所述意图列表,对每一个候选文档打出相关度得分,所述候选文档至少包含一个候选意图;根据所述候选文档的相关度得分,对所述候选文档进行排序。本专利技术还公开了一种查询意图挖掘的系统,包括:信息获取模块,用以获取搜索查询;关键概念识别模块,用以识别所述搜索查询中的关键概念;数值类型识别模块,用以识别所述关键概念中的数值类型;数值查询实例生成模块,对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;候选意图挖掘模块,用以从数据源中挖掘与所述搜索查询相关且与至少一个所述数值查询实例生成模块生成的所述数值查询实例同时出现的候选意图;计算模块,用以通过所述数值查询实例计算与其对应的所述候选意图的取值范围;聚类模块,用以根据所述计算模块计算得出的所述候选意图的取值范本文档来自技高网
...
查询意图挖掘的方法和系统

【技术保护点】
一种查询意图挖掘的方法,其特征在于,包括如下:A、获取一个搜索查询;B、识别该搜索查询中的关键概念;C、识别所述关键概念中的数值类型;D、对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;E、从数据源中挖掘与所述搜索查询相关且与至少一个步骤D中生成的所述数值查询实例同时出现的候选意图;F、通过所述数值查询实例计算与其对应的所述候选意图的取值范围;G、根据步骤F中计算得出的所述候选意图的取值范围对所述候选意图进行聚类;H、输出所述候选意图的意图列表。

【技术特征摘要】
1.一种查询意图挖掘的方法,其特征在于,包括如下:A、获取一个搜索查询;B、识别该搜索查询中的关键概念;C、识别所述关键概念中的数值类型;D、对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;E、从数据源中挖掘与所述搜索查询相关且与至少一个步骤D中生成的所述数值查询实例同时出现的候选意图;F、通过所述数值查询实例计算与其对应的所述候选意图的取值范围;G、根据步骤F中计算得出的所述候选意图的取值范围对所述候选意图进行聚类;H、输出所述候选意图的意图列表。2.根据权利要求1所述的方法,其特征在于,所述数值类型包括周期、频度、距离、数量和水平。3.根据权利要求1所述的方法,其特征在于,所述数值查询结构包括所述关键概念、所述数值类型以及实例数值。4.根据权利要求3所述的方法,其特征在于,所述实例数值取最大值、最小值、确定值和间隔值四个类型之一。5.根据权利要求3所述的方法,其特征在于,步骤D中,所述生成数值查询实例,包括:D1、使用预设的数值集合,为每一个所述数值查询实例设定所述实例数值。6.根据权利要求3所述的方法,其特征在于,所述生成数值查询实例,进一步包括:D21、从预设的模式集中获取与所述数值类型相应的模式;D22、使用步骤D21中获取的模式从数据源中挖掘所述数值查询实例。7.根据权利要求1所述的方法,其特征在于,步骤E进一步包括:E11、从数据源中检索与所述搜索查询相关的内容,且该内容至少包含一个数值查询实例;E12、从每个步骤E11中检索出的所述搜索查询相关的内容中,根据预设的词库识别出候选意图;E13、生成候选意图集,且所述候选意图至少与一个数值查询实例共现。8.根据权利要求1所述的方法,其特征在于,步骤F进一步包括:F11、计算每一个所述数值查询实例的取值范围;F12、生成包含至少一个候选意图的数据集;F13、对于步骤F12中生成的所述数据集中的每一个意图,计算该意图的取值分布以及权值,所述意图的取值等于该意图的权值除以整个数值查询实例集合所包含意图的权值总和,且求得的该意图的取值与权值均与该意图对应地置于所述数据集中;F14、以所述候选意图的实例数值的最小值作为该候选意图的取值范围的左边界;F15、以所述候选意图的实例数值的最大值作为该候选意图的取值范围的右边界;F16、对每一个所述候选意图,计算其在取值范围内的总的分布值。9.根据权利要求8所述的方法,其特征在于,步骤F11进一步包括:F111、根据预设的数值类型,计算数值查询实例的取值范围。10.根据权利要求8所述的方法,其特征在于,步骤F14进一步包括:F1411、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最大值设为其左边界;F1412、对于选定的具有最大分布值的所述候选意图,获取其实例数值;F1413、如果当前的左边界值大于获取的实例数值,则将该实例数值设为左边界。11.根据权利要求8所述的方法,其特征在于,步骤F15进一步包括:F1511、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最小值设为其右边界;F1512、对于选定的具有最大分布值的所述候选意图,获取其实例数值;F1513、如果当前的右边界值小于获取的实例数值,则将该实例数值设为右边界。12.根据权利要求8所述的方法,其特征在于,步骤F进一步包括:F17、获取所述搜索查询的实例数值;F18、当获取的所述搜索查询的实例数值小于候选意图的取值范围的左边界值,对该实例数值对应的候选意图取值范围的分布值设定最小值;F19、当获取的所述搜索查询的实例数值在所述候选意图的取值范围内,对该实例数值对应的候选意图的分布值设定最大值。13.根据权利要求1所述的方法,其特征在于,步骤C中若无法识别出所述数值类型,则进行如下步骤:D′、从数据源中挖掘意图候选集;E′、对所述意图候选集中的候选意图进行排序;H、输出所述候选意图的意图列表;其中,步骤E′中的排序依据包括意图频率、同现频率、点击统计及编辑距离。14.根据权利要求1至13中任...

【专利技术属性】
技术研发人员:夏云庆那森黄耀海赵欢
申请(专利权)人:清华大学佳能株式会社
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1