本发明专利技术公开了一种识别用户检索意图的搜索方法和系统,应用于信息检索领域,该方法包括以下步骤:接收用户的检索请求;计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;根据上述计算的三种度量确定用户检索意图;根据确定的用户检索意图进行搜索并输出搜索结果。通过本发明专利技术实施例,既考虑到检索词汇与意图特征库的相似度,又考虑到实体词的特殊作用以及整体的检索句法结构,从局部和整体上对检索关键字做意图识别,为搜索引擎提供尽可能多的信息支持,同时不完全依赖于线上搜索引擎的结果信息,更易于实现。
【技术实现步骤摘要】
本专利技术涉及信息检索领域,尤其涉及一种基于识别用户检索意图的搜索方法和系统。
技术介绍
搜索引擎的出现,让用户有了可以从海量数据中查找信息的工具。但是并非每个用户都了解搜索引擎的原理,所以用户在使用搜索引擎的过程一般是自己组织检索关键字来搜索,结果不满意时再变换一下检索关键字来重新获得搜索结果。如何能让用户更少的输入,使用搜索引擎来更快的获取自己需要的信息,那就有一项非常重要的工作一如何根据用户输入的检索请求来挖掘、识别用户的潜在检索意图。一旦搜索引擎能够把握住用 户检索的意图,就可以利用更少的资源来满足用户更大的需求。截止目前为止,有关搜索引擎中用户检索意图识别的方法,可归纳不外乎以下几种1、基于用户对搜索结果的点击信息;2、基于检索关键字的语义分析;3、基于检索关键字含有的特有的语义特征。中国专利CN101782909A的专利(基于用户操作意图的搜索引擎)公开了一种基于用户对网页搜索和操作网页的记录来计算用户后续需求意向的方法。通过记录用户对网页的点击数、点击速率、网页速度、浏览时长、浏览次数和链接文字的操作,计算出用户对搜索结果的喜好分值和后续需求意向。当用户点击一个超链接时,搜索引擎要实时的计算一个喜好分值,并将链接上的文字和检索请求相联系起来,可认为是相关联。其不足之处在于首先对搜索引擎要求高,要求搜索引擎实时的计算每个点击的分值,线上承载负荷会高;其次要求搜索引擎性能、效果稳定,搜索结果基本能满足用户的需求,否则记录的对结果的点击反馈将与用户实际需求相差太远;再次用户在搜索过程中的点击是多变的,多数时候是随意的,看到某个话题的链接,某个广告链接,可能都会点击进去查看,这样的点击信息其实是一种噪声,与检索请求关系不大,但是依然会被记录下来。最后也是很重要的一点,这样得到的结果作为一种意图,只是在后续有相同的检索请求时,才会将这类结果展现出来,使得召回较低。中国专利CN102246164A的专利(基于用户意图的信息搜索以及信息提供方法)提供了一种基于对检索关键字分析结果来检测搜索者的意图的方法。该方法的实施是将关键字(可为单词单元、短语单元以及句子单元)按词性分离为语意单词,对分离后的关键字参考语法文法规则字典,执行语法分析,通过分析句子内分离后的单词是否具有任何文法关系以及语义关联,来获取所述语法表达式(逻辑表达式、修饰-被修饰以及语法列表表达式)进而来检测搜索者的意图。该方法不依赖于用户的搜索结果信息,是一种事前处理的方法,但不足之处是如何根据不同类型的检索意图做不同的分析,没有明确的方法。只能将检索关键字按每种词性全部处理一遍,得到的分析结果也会有多种形式,哪个最优不得而知。基于事后搜索的检索意图识别,过分依赖于搜索结果和用户的反应,容易引入一些不必要的噪音(如广告、其它信息等),而且对搜索引擎有较高要求,在系统性能稳定,效果比较好的情况下才能支持。且在获取的用户检索意图的应用上,只能在后续用户输入相同的检索时起到借鉴作用,从而召回率较低。基于事前检索意图识别,利用的信息较少,仅局限于检索的局部词汇的完全匹配,对明显检索意图的检索有一定的效果,但也容易造成局部最优问题,且对更多的无明显检索意图字眼的检索,无法给出意图结果。虽然可以对检索关键字做语义分析,但不同类别的检索,含有的词性分布不同,如果按每个词性分离造成的分析结果会有多样性,不容易进一步择优。
技术实现思路
针对上述技术问题,本专利技术提出一种识别用户检索意图的搜索方法和系统,从局部和整体上对检索关键字做意图识别的基础上进行搜索。根据本专利技术的一方面,本专利技术提供的一种识别用户检索意图的搜索方法包括以下步骤接收用户的检索请求;计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;综合上述三种度量的计算结果确定用户检索意图;根据确定的用户检索意图进行搜索并输出搜索结果。根据本专利技术的另一方面,本专利技术提供的一种识别用户检索意图的搜索系统包括接收模块、计算模块、确定模块和搜索模块,其中接收模块用于接收用户的检索请求;计算模块用于计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;识别模块用于根据计算模块的计算的三种度量的权重确定用户检索意图;搜索模块用于根据识别模块确定的用户检索意图进行搜索并输出搜索结果。通过本专利技术实施例的方法和系统,从用户检索内容着手,建立检索意图打分模型,通过计算意图特征相似度、实体词关联度、句法格式相似度三种度量综合给检索意图打分来挖掘、识别检索的潜在意图,既考虑到检索词汇与意图特征库的相似度,又考虑到实体词的特殊作用以及整体的检索句法结构,避免了仅依靠检索词汇做完全匹配造成的局部最优问题,从局部和整体上对检索关键字做意图识别,为搜索引擎提供尽可能多的信息支持。同时不完全依赖于线上搜索引擎的结果信息,更易于实现。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图I为本专利技术实施例提供的一种识别用户检索意图的搜索方法流程图;图2为本专利技术优选实施例提供的一种意图空间相似度计算的方法流程图;图3为本专利技术优选实施例提供的一种实体词关联度计算的方法流程图4为本专利技术实施例提供的一种识别用户检索意图的搜索系统的模块结构图。具体实施例方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。需要说明地是,在使用本专利技术实施例之前,要先建立意图特征空间,具体包括建立意图特征库(Intension Feature Database,简称IFD),其中,意图特征库中包括每类检索意图的意图特征;意图特征包括与检索意图相关的词汇、短语、和/或规则;将所述意图特征库中的意图特征转换为向量数据格式的意图特征空间。所谓意图特征空间,是将意图特征库中的每类意图的特征转换为向量数据格式。意图特征空间可由m*n的矩阵IM来表示,其中m为意图类数目,η为意图特征库的特征的总数目,IM(k, j)表示第j个意图特征匕是否在意图Ik中,其中k为I到m的整数,j为I到η的整数。·关于检索意图的分类,早期的研究将其分为三类导航类、信息类和事务类。导航类是访问某一特定网站,事务类是进行一些活动(比如购物、下载等),而信息类是获取某一话题的相关信息。用户输入的信息类检索类,其实是很复杂多样的,也是搜索引擎检索的弱项。本专利技术在用户实际检索分析基础上,将检索意图分为五大类导航类(访问某个网址)、下载类(下载某项资源)、信息查找类(关于某话题的相关信息,可具有类别属性)、信息问答类(相关问题的直接答案、具有唯一性)、信息建议类(想得到建议,不唯一)。其中下载类又可细分为限制性下载(对具体某类资源的下载)和一般性下载,信息查找类又可细分为限制性信息查找(对具体某类资源的信息查找)和一般性信息查找。举例来说,导航类的意图特征包括了一系列的网站相关特征,如“网址”、“网站”、“URL”、“主页”以及实体词网站名称等;信息查找类的意图特征包括但不限于“检索”、“查找”、“列举”等;信息建议类的意图特征包括但本文档来自技高网...
【技术保护点】
一种识别用户检索意图的搜索方法,其特征在于,该方法包括以下步骤:接收用户的检索请求;计算所述检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;根据所述计算的三种度量确定用户检索意图;根据所述确定的用户检索意图进行搜索并输出搜索结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:车天文,雷大伟,石志伟,周步恋,杨振东,王更生,王喜民,何宏靖,徐忆苏,
申请(专利权)人:深圳市宜搜科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。