用于挖掘意图的方法和设备技术

技术编号:10246700 阅读:210 留言:0更新日期:2014-07-23 23:57
本发明专利技术公开了用于挖掘意图的方法和设备。一种用于挖掘意图的方法,包括:获取查询和要被获得的意图的数量n,其中n为自然数;针对所输入的查询挖掘一组候选意图;从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果;以及基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。

【技术实现步骤摘要】
用于挖掘意图的方法和设备
本专利技术涉及信息搜索的方法和设备。特别地,本专利技术涉及用于挖掘意图的方法和设备。并且更特别地,本专利技术涉及用于针对由用户所提出的查询进行意图挖掘的方法和设备。
技术介绍
随着计算机和信息技术的不断发展,现在在整个世界中的信息产生的速率不断增加。现今世界中存在个人信息、职业信息、娱乐信息、科技信息、政府信息等诸多信息。因为信息过多,所以导致对信息的组织和访问成为问题。为了改进用户在信息搜索过程中的体验,用于帮助用户访问其所寻找的信息的方法和系统不断被研发。例如,在WeiSong,etc.HITSCIRSysteminNTCIR-9SubtopicMiningTask,ProceedingsofNTCIR-9WorkshopMeeting,December6-9,2011,Tokyo,Japan中提出了尝试理解用户所输入的查询背后的潜在意图。在用户输入简短并且含糊的查询的情况下,希望能够输出n个(例如,n=10)重要的并且多样化的最佳意图结果。表1示出了一种示例。表1例如,如表1所示,如果用户输入查询“thebeatles:rockband”(“thebeatles:rockband”为一款音乐视频游戏),则可以输出若干个与“thebeatles:rockband”有关的意图,以供用户进行选择。在意图挖掘处理中,通常用以下公式来评价意图挖掘结果的好坏:其中I-rec(Intentrecall)表示意图召回率,即在所获得的意图中,所获得的有用的意图的数量(即,所获得的正确结果)相对于希望获得的那些意图的数量(所有正确结果)的比率,往往用于度量意图的多样化;D-nDCG表示意图准确率(Intentprecision),D-nDCG为多样化的归一化折扣累积增益(Diversified-NormalizedDiscountedCumulativeGain),它基于位置计算搜索引擎返回的结果文档列表的相关度(参见Sakai和Song,EvaluatingDiversifiedSearchResultUsingPer-intentGradedRelevance,ProceedingsofSIGIR’11,2011Beijing),其用于度量意图的整体相关度;而D#-nDCG表示I-rec和D-nDCG的线性组合。在上式中,I_rec、D-nDCG以及D#-nDCG是基于查询的真实状态数据(groundtruth)被确定的,通常是通过将意图挖掘结果于真实状态数据进行比较来计算得到的,这些指标的获得是本领域公知的,因此将不再详细描述。作为示例,在现有技术中,可通过如下方式来获得查询的真实状态数据。例如,真实状态数据可以是人为设定的。再如真实状态数据是由评注者所提供并且由多个人投票产生的。在US2010/198837中公开了一种用于挖掘意图的方法。在该专利文献中,使用相似度分数来度量意图的多样性,所述相似度分数是基于意图名称、文档(例如标题和片段)或路径中的文本计算的。在该专利文献中,目标函数如公式(2)所示:其中,l代表候选意图的总数,n代表要输出的候选意图的数量,m=1,…,n,表示已选择的候选意图的数量,textsimilarity()函数是表示文本相似度的函数。在每一轮的选择新候选意图的过程中,通过该目标函数,选择与已经选择的m个候选意图具有最小文本相似度的候选意图。在该专利中通过将流行度分数除以相似度分数来对候选意图进行排序。图1A和图1B示出了在专利申请US2010/198837中所使用的方法的流程图,其中图1A示出了在该专利申请中所使用的方法的主流程图,图1B示出了图1A的步骤830的详细流程图。如图1A所示,首先,在步骤810中,用户输入查询以及要输出的意图的数量n。在步骤820中,针对所输入的查询,挖掘一组候选意图。在步骤830中,产生n个意图。如图1B所示,产生n个意图的步骤830更具体地包括以下三个子步骤。首先,在步骤831中,计算候选意图的流行度分数。接着,在步骤832中,计算候选意图的相似度分数。在步骤833中,基于流行度分数除以相似度分数的商,来获得n个意图。也就是说,在步骤833中,选择与已经选择的m个候选意图具有最小文本相似度的候选意图。返回参看图1A,在步骤840中,输出所获得的n个意图。但是根据实践,本领域技术人员发现,通过现有技术的专利申请US2010/198837中所公开的方法获得的意图召回率I-rec比意图准确率D-nDCG低很多。这表明多样化是该方法的一个瓶颈。并且,在很多情况下通过该方法所返回的意图并不是用户所希望返回的意图。在US2011/0055238中公开了用于挖掘意图的另一种方法。该专利申请支持所获得的搜索结果的多样化,并且在该专利申请中,以用户可以更容易地理解要被访问的内容的方式将搜索结果划分/组织成意图。该专利申请指出:意图要以可感知的、易于理解的、并且相对全面的方式划分搜索空间。使搜索结果多样化被理解为类似于所谓的集合覆盖问题。该专利申请选择与从中已经去除了和所选候选意图相关的搜索结果的最大数量的搜索结果相关的候选意图,作为意图。公式(3)示出了该专利申请的目标函数:其中,l代表候选意图的总数,n代表要输出的候选意图的数量,m=1,…,n,表示已选择的候选意图的数量,函数|A-B|表示在集合A中但不在集合B中的元素的数量。在每一轮的选择新候选意图的过程中,通过该目标函数,选择相对于已经选择的候选意图具有最大增量覆盖(incrementalcoverage)的候选意图。图2示出了在专利申请US2011/0055238中所使用的方法的流程图。如图2所示,在步骤910中,用户输入查询。在步骤920中,针对用户所输入的查询挖掘一组候选意图。在步骤930中,初始化一个空的候选意图列表。在步骤940中,计算数据搜索资源中的针对每个候选意图的搜索结果的数量。在步骤950中,将具有最大搜索结果数量的候选意图添加到候选意图列表中。在步骤960中,从所述搜索结果中去除与所添加的候选意图相关的搜索结果。在步骤970中,判断是否还有更多的搜索结果或者是否还有更多的候选意图要被添加。如果判断为仍然有更多的搜索结果或者更多的候选意图要被添加,则处理返回到步骤940,继续计算数据搜索资源中的针对每个候选意图的搜索结果的数量。如果判断为没有更多的搜索结果或者更多的候选意图要被添加,则处理前进到步骤980,在步骤980输出排序后的意图。在专利申请US2011/0055238中,假定候选意图是非重叠的,其仅仅考虑选择一个新候选意图所导致的增量覆盖,但是该专利申请中的方法忽略了由于选择所导致的重叠覆盖(overlappingcoverage)的副作用。重叠覆盖不会带来新的信息,甚至会对意图的多样性产生损害。因此,在很多情况下,通过该方法所返回的意图并不是用户所希望返回的意图。例如,仍以输入查询“thebeatles:rockband”为例,如表2所示,当搜索“thebeatles:rockband”时,从数据搜索资源中返回了10个URL(UniformResourceLocator,统一资源定位器)。在这些URL中,当搜索“thebeatles:rockbands本文档来自技高网...
用于挖掘意图的方法和设备

【技术保护点】
一种用于挖掘意图的方法,包括:获取查询和要被获得的意图的数量n,其中n为自然数;针对所输入的查询挖掘一组候选意图;从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果;以及基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n‑1个候选意图重叠的非重叠搜索结果的数量计算的。

【技术特征摘要】
1.一种用于挖掘意图的方法,包括:获取查询和要被获得的意图的数量n,其中n为自然数;针对所输入的查询挖掘一组候选意图;从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果;以及基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。2.如权利要求1所述的方法,其中基于合计的非重叠率选择n个意图包括:针对前n个候选意图计算合计的非重叠率;产生具有n个候选意图的备选候选意图列表;针对所述备选候选意图列表中的n个候选意图计算合计的非重叠率;如果所述备选候选意图列表中的n个候选意图的合计的非重叠率与所述前n个候选意图的合计的非重叠率之间的差大于第一阈值,则使用所述备选候选意图列表更新所述前n个候选意图,其中所述第一阈值大于0;以及将前n个候选意图作为意图输出。3.如权利要求1所述的方法,其中基于合计的非重叠率选择n个意图包括:计算前n个候选意图的第一总分,其中所述第一总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对前n个候选意图所计算的合计的非重叠率计算的;产生具有n个候选意图的备选候选意图列表;计算所述备选候选意图列表中的n个候选意图的第二总分,其中所述第二总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对所述备选候选意图列表中的n个候选意图计算的合计的非重叠率计算的;如果所述第二总分与所述第一总分之差大于第二阈值,则使用所述备选候选意图列表更新所述前n个候选意图,其中所述第二阈值大于0;以及将前n个候选意图作为意图输出。4.如权利要求1所述的方法,其中基于合计的非重叠率选择n个意图包括:基于所计算的合计的非重叠率使用贪婪算法选择n个意图。5.如权利要求1所述的方法,其中基于合计的非重叠率选择n个意图包括:基于以下总分使用贪婪算法选择n个意图,所述总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与所计算的合计的非重叠率计算的。6.如权利要求1-5中任一项所述的方法,其中针对n个候选意图的合计的非重叠率通过以下步骤来计算:对于每个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量;以及对于n个候选意图,将非重叠搜索结果的数量求和。7.如权利要求6所述的方法,其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算:基于所述和对于n个候选意图的非重叠搜索结果的数量求平均值。8.如权利要求7所述的方法,其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算:基于所述平均值对于n个候选意图的非重叠搜索结果的数量计算标准差。9.如权利要求6所述的方法,其中对于每个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量进一步包括:基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性;以及基于所计算的重要性计算非重叠搜索结果的加权后的数量。10.如权利要求6所述的方法,其中对于每个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量进一步包括:计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量;以及计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率,其中a大于或等于0。11.如权利要求10所述的方法,其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量是通过以下步骤计算的:基于与任意其它n-1个候选意图重叠的次数,计算重叠搜索结果的权重;以及通过所计算的权重,计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。12.如权利要求10所述的方法,其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量是通过以下步骤计算的:基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性;以及基于所计算的重要性计算重叠搜索结果的加权后的数量。13.如权利要求6所述的方法,其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算:对于每个候选意图,计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量;对于n个候选意图,将重叠搜索结果的数量求和;以及计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率,其中a大于或等于0。14.如权利要求13所述的方法,其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量通过以下步骤来计算:基于与任意其它n-1个候选意图重叠的次数,计算重叠搜索结果的权重;以及通过所计算的权重,计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。15.如权利要求1所述的方法,其中判断任意两个搜索结果是否重叠包括以下两种处理中的至少一种:(1)判断这两个搜索结果的URL是否相同;和(2)判断这两个搜索结果的相似度是否大于第三阈值,其中所述相似度包括文本相似度或基于用户行为的相似度。16.如权利要求1所述的方法,其中针对所输入的查询挖掘一组候选意图进一步包括:预获取步骤,基于所获取的查询来获取第一组候选意图;构建步骤,为所述查询构建至少一个临时意图模式;获取步骤,基于所述至少一个临时意图模式来获取第二组候选意图;以及组合步骤,将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图;其中,所述临时意图模式包括所述查询和上下文字符。17.如权利要求16所述的方法,其中针对所输入的查询挖掘一组候选意图进一步包括:根据各候选意图所对应的临时意图模式的参数,来将各候选意图进行排序,其中,所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。18.根据权利要求17所述的方法,其中,所述上下文字符是用户预先设定的,或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。19.如权利要求16-18中任一项所述的方法,在针对所输入的查询挖掘得到一组候选意图后,所述方法进一步包括:在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。20.如权利要求19所述的方法,所述方法进一步包括:利用所述至少一个排他合集使所挖掘出的候选意图多样化;其中,所述搜索结果是从至少一个数据搜索资源获取的与所输入的查询和多样化后的候选意图相关的一组搜索结果。21.如权利要求1-5中任一项所述的方法,在针对所输入的查询挖掘得到一组候选意图后,所述方法进一步包括:在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。22.如权利要求21所述的方法,所述方法进一步包括:利用所述至少一个排他合集使所挖掘出的候选意图多样化;其中,所述搜索结果是从至少一个数据搜索资源获取的与所输入的查询和多样化后的候选意图相关的一组搜索结果。23.一种用于挖掘意图的设备,包括:查...

【专利技术属性】
技术研发人员:胡钦谙黄耀海那森夏云庆
申请(专利权)人:佳能株式会社清华大学
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1