【技术实现步骤摘要】
查询意图挖掘的方法和系统
本专利技术涉及信息检索领域,尤其涉及一种查询意图挖掘的方法和系统。
技术介绍
互联网是官方发布科技信息、个人发布日记或博客的平台。信息检索系统(例如搜索引擎)日益重要,因为它能够从大数据集中找到用户想要的信息;然而,不同的用户会使用同一个简短且模糊的查询词去查找不同的信息(解释),这就导致现有信息检索系统难以返回充足、准确的结果。为了帮助用户快速且准确地找到他们感兴趣的信息,各种各样基于自然语言处理和信息检索的搜索结果整理方法应运而生。如图1所示,展示了一个用户接口,包含输入的查询、挖掘得到的意图和属于不同意图的搜索结果。这些结果的罗列通常使得用户需要耗费较多的时间和精力进行筛选,以获取真正符合自己意图的搜索结果。即使是现有的最优方案:THUIR(信息检索组)团队提出的“先从互联网数据(主流搜索引擎的搜索结果及搜索查询日志等)中挖掘候选意图;然后根据照特征对这些候选意图进行排序,特征包括意图频度、共现频度、点击统计和编辑距离等;最后,系统输出排序的意图列表”这一技术方案依然不能准确找到用户的真正意图。比如,用户输入搜索查询“ciproforuti4days”,如下表3所示,为THUIR系统针对用户的“ciproforuti4days”查询输出的最相关的两个候选意图,表1其中,用户并不是真的想去找包含“4days”这个短语的信息,其暗示了当前的状态,实为想要知道有关如何进行治疗的信息。根据其状态,可以推知他正处于治疗阶段。所以在这种情况下,结合用户当前的状态,意图1更加合适。然而,现有的方法使用数值数据,比如“4days”,作为关键 ...
【技术保护点】
一种查询意图挖掘的方法,其特征在于,包括如下:A、获取一个搜索查询;B、识别该搜索查询中的关键概念;C、识别所述关键概念中的数值类型;D、对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;E、从数据源中挖掘与所述搜索查询相关且与至少一个步骤D中生成的所述数值查询实例同时出现的候选意图;F、通过所述数值查询实例计算与其对应的所述候选意图的取值范围;G、根据步骤F中计算得出的所述候选意图的取值范围对所述候选意图进行聚类;H、输出所述候选意图的意图列表。
【技术特征摘要】
1.一种查询意图挖掘的方法,其特征在于,包括如下:A、获取一个搜索查询;B、识别该搜索查询中的关键概念;C、识别所述关键概念中的数值类型;D、对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;E、从数据源中挖掘与所述搜索查询相关且与至少一个步骤D中生成的所述数值查询实例同时出现的候选意图;F、通过所述数值查询实例计算与其对应的所述候选意图的取值范围;G、根据步骤F中计算得出的所述候选意图的取值范围对所述候选意图进行聚类;H、输出所述候选意图的意图列表。2.根据权利要求1所述的方法,其特征在于,所述数值类型包括周期、频度、距离、数量和水平。3.根据权利要求1所述的方法,其特征在于,所述数值查询结构包括所述关键概念、所述数值类型以及实例数值。4.根据权利要求3所述的方法,其特征在于,所述实例数值取最大值、最小值、确定值和间隔值四个类型之一。5.根据权利要求3所述的方法,其特征在于,步骤D中,所述生成数值查询实例,包括:D1、使用预设的数值集合,为每一个所述数值查询实例设定所述实例数值。6.根据权利要求3所述的方法,其特征在于,所述生成数值查询实例,进一步包括:D21、从预设的模式集中获取与所述数值类型相应的模式;D22、使用步骤D21中获取的模式从数据源中挖掘所述数值查询实例。7.根据权利要求1所述的方法,其特征在于,步骤E进一步包括:E11、从数据源中检索与所述搜索查询相关的内容,且该内容至少包含一个数值查询实例;E12、从每个步骤E11中检索出的所述搜索查询相关的内容中,根据预设的词库识别出候选意图;E13、生成候选意图集,且所述候选意图至少与一个数值查询实例共现。8.根据权利要求1所述的方法,其特征在于,步骤F进一步包括:F11、计算每一个所述数值查询实例的取值范围;F12、生成包含至少一个候选意图的数据集;F13、对于步骤F12中生成的所述数据集中的每一个意图,计算该意图的取值分布以及权值,所述意图的取值等于该意图的权值除以整个数值查询实例集合所包含意图的权值总和,且求得的该意图的取值与权值均与该意图对应地置于所述数据集中;F14、以所述候选意图的实例数值的最小值作为该候选意图的取值范围的左边界;F15、以所述候选意图的实例数值的最大值作为该候选意图的取值范围的右边界;F16、对每一个所述候选意图,计算其在取值范围内的总的分布值。9.根据权利要求8所述的方法,其特征在于,步骤F11进一步包括:F111、根据预设的数值类型,计算数值查询实例的取值范围。10.根据权利要求8所述的方法,其特征在于,步骤F14进一步包括:F1411、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最大值设为其左边界;F1412、对于选定的具有最大分布值的所述候选意图,获取其实例数值;F1413、如果当前的左边界值大于获取的实例数值,则将该实例数值设为左边界。11.根据权利要求8所述的方法,其特征在于,步骤F15进一步包括:F1511、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最小值设为其右边界;F1512、对于选定的具有最大分布值的所述候选意图,获取其实例数值;F1513、如果当前的右边界值小于获取的实例数值,则将该实例数值设为右边界。12.根据权利要求8所述的方法,其特征在于,步骤F进一步包括:F17、获取所述搜索查询的实例数值;F18、当获取的所述搜索查询的实例数值小于候选意图的取值范围的左边界值,对该实例数值对应的候选意图取值范围的分布值设定最小值;F19、当获取的所述搜索查询的实例数值在所述候选意图的取值范围内,对该实例数值对应的候选意图的分布值设定最大值。13.根据权利要求1所述的方法,其特征在于,步骤C中若无法识别出所述数值类型,则进行如下步骤:D′、从数据源中挖掘意图候选集;E′、对所述意图候选集中的候选意图进行排序;H、输出所述候选意图的意图列表;其中,步骤E′中的排序依据包括意图频率、同现频率、点击统计及编辑距离。14.根据权利要求1至13中任...
【专利技术属性】
技术研发人员:夏云庆,那森,黄耀海,赵欢,
申请(专利权)人:清华大学,佳能株式会社,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。