用于挖掘意图的方法和设备技术

技术编号：10246700 阅读：225 留言：0更新日期：2014-07-23 23:57

本发明专利技术公开了用于挖掘意图的方法和设备。一种用于挖掘意图的方法，包括：获取查询和要被获得的意图的数量n，其中n为自然数；针对所输入的查询挖掘一组候选意图；从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果；以及基于合计的非重叠率选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。

全部详细技术资料下载

【技术实现步骤摘要】
用于挖掘意图的方法和设备
本专利技术涉及信息搜索的方法和设备。特别地，本专利技术涉及用于挖掘意图的方法和设备。并且更特别地，本专利技术涉及用于针对由用户所提出的查询进行意图挖掘的方法和设备。
技术介绍
随着计算机和信息技术的不断发展，现在在整个世界中的信息产生的速率不断增加。现今世界中存在个人信息、职业信息、娱乐信息、科技信息、政府信息等诸多信息。因为信息过多，所以导致对信息的组织和访问成为问题。为了改进用户在信息搜索过程中的体验，用于帮助用户访问其所寻找的信息的方法和系统不断被研发。例如，在WeiSong,etc.HITSCIRSysteminNTCIR-9SubtopicMiningTask,ProceedingsofNTCIR-9WorkshopMeeting,December6-9,2011,Tokyo,Japan中提出了尝试理解用户所输入的查询背后的潜在意图。在用户输入简短并且含糊的查询的情况下，希望能够输出n个（例如，n=10）重要的并且多样化的最佳意图结果。表1示出了一种示例。表1例如，如表1所示，如果用户输入查询“thebeatles:rockband”（“thebeatles:rockband”为一款音乐视频游戏），则可以输出若干个与“thebeatles:rockband”有关的意图，以供用户进行选择。在意图挖掘处理中，通常用以下公式来评价意图挖掘结果的好坏：其中I-rec（Intentrecall）表示意图召回率，即在所获得的意图中，所获得的有用的意图的数量（即，所获得的正确结果）相对于希望获得的那些意图的数量（所有正确结果）的比率，...
用于挖掘意图的方法和设备

【技术保护点】
一种用于挖掘意图的方法，包括：获取查询和要被获得的意图的数量n，其中n为自然数；针对所输入的查询挖掘一组候选意图；从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果；以及基于合计的非重叠率选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n‑1个候选意图重叠的非重叠搜索结果的数量计算的。

【技术特征摘要】
1.一种用于挖掘意图的方法，包括：获取查询和要被获得的意图的数量n，其中n为自然数；针对所输入的查询挖掘一组候选意图；从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果；以及基于合计的非重叠率选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。2.如权利要求1所述的方法，其中基于合计的非重叠率选择n个意图包括：针对前n个候选意图计算合计的非重叠率；产生具有n个候选意图的备选候选意图列表；针对所述备选候选意图列表中的n个候选意图计算合计的非重叠率；如果所述备选候选意图列表中的n个候选意图的合计的非重叠率与所述前n个候选意图的合计的非重叠率之间的差大于第一阈值，则使用所述备选候选意图列表更新所述前n个候选意图，其中所述第一阈值大于0；以及将前n个候选意图作为意图输出。3.如权利要求1所述的方法，其中基于合计的非重叠率选择n个意图包括：计算前n个候选意图的第一总分，其中所述第一总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对前n个候选意图所计算的合计的非重叠率计算的；产生具有n个候选意图的备选候选意图列表；计算所述备选候选意图列表中的n个候选意图的第二总分，其中所述第二总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对所述备选候选意图列表中的n个候选意图计算的合计的非重叠率计算的；如果所述第二总分与所述第一总分之差大于第二阈值，则使用所述备选候选意图列表更新所述前n个候选意图，其中所述第二阈值大于0；以及将前n个候选意图作为意图输出。4.如权利要求1所述的方法，其中基于合计的非重叠率选择n个意图包括：基于所计算的合计的非重叠率使用贪婪算法选择n个意图。5.如权利要求1所述的方法，其中基于合计的非重叠率选择n个意图包括：基于以下总分使用贪婪算法选择n个意图，所述总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与所计算的合计的非重叠率计算的。6.如权利要求1-5中任一项所述的方法，其中针对n个候选意图的合计的非重叠率通过以下步骤来计算：对于每个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量；以及对于n个候选意图，将非重叠搜索结果的数量求和。7.如权利要求6所述的方法，其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算：基于所述和对于n个候选意图的非重叠搜索结果的数量求平均值。8.如权利要求7所述的方法，其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算：基于所述平均值对于n个候选意图的非重叠搜索结果的数量计算标准差。9.如权利要求6所述的方法，其中对于每个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量进一步包括：基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性；以及基于所计算的重要性计算非重叠搜索结果的加权后的数量。10.如权利要求6所述的方法，其中对于每个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量进一步包括：计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量；以及计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率，其中a大于或等于0。11.如权利要求10所述的方法，其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量是通过以下步骤计算的：基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重；以及通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。12.如权利要求10所述的方法，其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量是通过以下步骤计算的：基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性；以及基于所计算的重要性计算重叠搜索结果的加权后的数量。13.如权利要求6所述的方法，其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算：对于每个候选意图，计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量；对于n个候选意图，将重叠搜索结果的数量求和；以及计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率，其中a大于或等于0。14.如权利要求13所述的方法，其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量通过以下步骤来计算：基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重；以及通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。15.如权利要求1所述的方法，其中判断任意两个搜索结果是否重叠包括以下两种处理中的至少一种：(1)判断这两个搜索结果的URL是否相同；和(2)判断这两个搜索结果的相似度是否大于第三阈值，其中所述相似度包括文本相似度或基于用户行为的相似度。16.如权利要求1所述的方法，其中针对所输入的查询挖掘一组候选意图进一步包括：预获取步骤，基于所获取的查询来获取第一组候选意图；构建步骤，为所述查询构建至少一个临时意图模式；获取步骤，基于所述至少一个临时意图模式来获取第二组候选意图；以及组合步骤，将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图；其中，所述临时意图模式包括所述查询和上下文字符。17.如权利要求16所述的方法，其中针对所输入的查询挖掘一组候选意图进一步包括：根据各候选意图所对应的临时意图模式的参数，来将各候选意图进行排序，其中，所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。18.根据权利要求17所述的方法，其中，所述上下文字符是用户预先设定的，或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。19.如权利要求16-18中任一项所述的方法，在针对所输入的查询挖掘得到一组候选意图后，所述方法进一步包括：在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。20.如权利要求19所述的方法，所述方法进一步包括：利用所述至少一个排他合集使所挖掘出的候选意图多样化；其中，所述搜索结果是从至少一个数据搜索资源获取的与所输入的查询和多样化后的候选意图相关的一组搜索结果。21.如权利要求1-5中任一项所述的方法，在针对所输入的查询挖掘得到一组候选意图后，所述方法进一步包括：在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。22.如权利要求21所述的方法，所述方法进一步包括：利用所述至少一个排他合集使所挖掘出的候选意图多样化；其中，所述搜索结果是从至少一个数据搜索资源获取的与所输入的查询和多样化后的候选意图相关的一组搜索结果。23.一种用于挖掘意图的设备，包括：查...

【专利技术属性】
技术研发人员：胡钦谙，黄耀海，那森，夏云庆，
申请(专利权)人：佳能株式会社，清华大学，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人