一种识别搜索需求的方法和装置制造方法及图纸

技术编号:8532897 阅读:179 留言:0更新日期:2013-04-04 15:55
本发明专利技术提供了一种识别搜索需求的方法和装置,其中方法包括:接收到待识别query后,获取所述待识别query的搜索结果;利用分类器基于预设的搜索结果文本特征对各搜索结果进行需求分类;对各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query的需求类型。这种方式完全不会受到待识别query中是否包含预设关键词的影响,对任何待识别query都能够实现需求识别;另外,由于用户搜索需求的时效性通常体现在搜索结果上,因此通过本发明专利技术的方式识别出的需求类型能够充分体现出搜索需求的时效性,从而提高了搜索需求识别的准确性。

【技术实现步骤摘要】
一种识别搜索需求的方法和装置
本专利技术涉及计算机
,特别涉及一种识别搜索需求的方法和装置。
技术介绍
随着互联网在全球范围内的迅速发展与成熟,网络上的信息资源不断丰富,信息数据量也在飞速膨胀,通过搜索引擎获取信息已经成为现代人获取信息的主要方式。为了向用户提供更加便捷、准确地查询服务是搜索引擎技术在当今和未来的发展方向。在搜索引擎技术中,对用户的搜索需求进行识别是提高搜索准确性和有效性的重要一环,特别在结构化搜索(即垂直搜索)中作用显著。现有的搜索需求识别通常简单的采用匹配预置关键词的方式,例如,对应视频需求预置一些关键词“在线观看”、“在线下载”、 “点播”、“高清观看”等,如果一个搜索请求(query)中包含某一个关键词,诸如query “家常菜高清观看”,则可以识别出该query具有视频需求。但这种方式具有以下缺陷缺陷一、如果query中不包含预置关键词,贝U无法识别出query的需求类型,例如如果query仅仅为“家常菜”,就很难直接根据该query判断出该query的需求。缺陷二、无法体现query需求的时效性。某些query的需求会随着时间的推移而发生改变,例如,“家常菜”这一 query,在电视剧《家常菜》未上映之前,该query的主要需求为菜谱类和美食类,但电视剧《家常菜》上映时,该query的主要需求可能就改变为视频类,而菜谱类和美食类可能变为次要需求。而当电视剧《家常菜》结束热映后,人们对于该电视剧的关注度下降,这时该query的主要需求又重新变回菜谱类和美食类。现有的搜索需求识别方法显然无法体现出这一变化。 上述两个缺陷最终都会导致搜索需求识别的准确性较低,造成针对该query的搜索结果无法准确地满足搜索需求,用户需要花费较多的时间和资源找到需要的内容。
技术实现思路
本专利技术提供了一种识别搜索需求的方法和装置,解决因query不包含预置关键词造成的需求无法识别以及无法体现query需求的时效性的缺陷,提高搜索需求识别的准确性。具体技术方案如下一种识别搜索需求的方法,该方法包括S1、接收到待识别query后,获取所述待识别query的搜索结果;S2、利用分类器基于预设的搜索结果文本特征对各搜索结果进行需求分类;S3、对各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query 的需求类型。根据本专利技术一优选实施例,所述步骤SI具体包括接收到待识别query后,将所述待识别query提供给搜索引擎进行搜索,从搜索引擎获取搜索结果中排在前N个的搜索结果;或者,接收到待识别query后,对所述待识别query进行扩展,将待识别query与扩展词的组合提供给搜索引擎进行搜索,并从搜索引擎获取所述待识别query与扩展词的组合对应的搜索结果中排在前N个的搜索结果,所述扩展词为预设的各需求类别的需求词;其中所述N为预设的正整数。根据本专利技术一优选实施例,在所述步骤S2中采用一个以上的分类器且每一个分类器分别采用不同的搜索结果文本特征。根据本专利技术一优选实施例,所述分类器包括针对网页标题建立的分类器、针对网页摘要建立的分类器或者针对网址的分类器。根据本专利技术一优选实施例,所述针对网页标题建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网页标题中是否出现所述待识别query以及出现所述待识别query的次数;由网页标题确定出的η元词组n-gram与各需求类型的核心词向量的重叠状况;以及;搜索日志中网页标题对应所述待识别query时被点击的次数占所述待识别query 对应所有网页标题的被点击总次数的比率。根据本专利技术一优选实施例,所述针对网页摘要建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网页摘要中出现所述待识别query的句子个数或比率;以及,网页摘要中包含的n-gram与需求类型核心词向量间的重叠状况。根据本专利技术一优选实施例,所述针对网址建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网址对应搜索结果的排序值;网址对应的页面类型;以及, 搜索日志中网址对应所述待识别query时被点击的次数与所述待识别query对应所有网址的被点击总次数的比率。根据本专利技术一优选实施例,所述需求类型的核心词向量的建立包括Al、获取所述需求类型的种子query ;A2、针对所述需求类型的各种子query进行搜索,分别获取排在前NI个的搜索结果,所述NI为预设的正整数;A3、对获取的搜索结果的文本进行分词处理,获取所有n-gram ;A4、根据词频tf*逆向文件频率idf值确定各n-gram的权重,获取权重值排在前 N2个的n-gram作为所述需求类型的核心词向量,所述N2为预设的正整数。根据本专利技术一优选实施例,所述步骤Al包括获取通过人工方式配置的所述需求类型的种子query ;或者,获取采用人工方式在搜索日志中标注的所述需求类型的种子query ;或者,从所述需求类型垂直搜索的搜索日志中,获取搜索次数高于预设第一阈值的 query作为所述需求类型的种子query ;或者,从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述搜索类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query作为所述需求类型的种子query。根据本专利技术一优选实施例,所述分类器为最大熵分类器或者支持向量机分类器。根据本专利技术一优选实施例,如果所述分类器为一个,则所述S3为根据需求分类结果中,各分类包含的搜索结果数量确定所述待识别query的需求类型;如果所述分类器为多个,则在所述步骤S3中采用基于boosting的融合方法,或者采用线性加权的多分类器融合方法。一种识别搜索需求的装置,该装置包括结果获取单元,用于接收到待识别query后,获取所述待识别query的搜索结果;分类器,用于基于预设的搜索结果文本特征对所述结果获取单元获取的各搜索结果进行需求分类;需求融合单元,用于对所述各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query的需求类型。根据本专利技术一优选实施例,所述结果获取单元接收到待识别query后,将所述待识别query提供给搜索引擎进行搜索,从搜索引擎获取搜索结果中排在前N个的搜索结果; 或者,接收到待识别query后,对所述待识别query进行扩展,将待识别query与扩展词的组合提供给搜索引擎进行搜索,并从搜索引擎获取所述待识别query与扩展词的组合对应的搜索结果中排在前N个的搜索结果,所述扩展词为预设的各需求类别的需求词;其中所述N为预设的正整数。根据本专利技术一优选实施例,该装置采用一个以上的分类器且每一个分类器分别采用不同的搜索结果文本特征。根据本专利技术一优选实施例,所述分类器包括针对网页标题建立的分类器、针对网页摘要建立的分类器或 者针对网址的分类器。根据本专利技术一优选实施例,所述针对网页标题建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网页标题中是否出现所述待识别query以及出现所述待识别query的次数;由网页标题确定出的η元词组n-gram与各需求类型的核心词向量的重叠状况;以及;搜索日志中网页标题对应所述待识别query时被点击的次数占所述待识别query 对本文档来自技高网
...

【技术保护点】
一种识别搜索需求的方法,其特征在于,该方法包括:S1、接收到待识别query后,获取所述待识别query的搜索结果;S2、利用分类器基于预设的搜索结果文本特征对各搜索结果进行需求分类;S3、对各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query的需求类型。

【技术特征摘要】
1.一种识别搜索需求的方法,其特征在于,该方法包括51、接收到待识别query后,获取所述待识别query的搜索结果;52、利用分类器基于预设的搜索结果文本特征对各搜索结果进行需求分类;53、对各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query的需求类型。2.根据权利要求1所述的方法,其特征在于,所述步骤SI具体包括接收到待识别query后,将所述待识别query提供给搜索引擎进行搜索,从搜索引擎获取搜索结果中排在前N个的搜索结果;或者,接收到待识别query后,对所述待识别query进行扩展,将待识别query与扩展词的组合提供给搜索引擎进行搜索,并从搜索引擎获取所述待识别query与扩展词的组合对应的搜索结果中排在前N个的搜索结果,所述扩展词为预设的各需求类别的需求词;其中所述N为预设的正整数。3.根据权利要求1所述的方法,其特征在于,在所述步骤S2中采用一个以上的分类器且每一个分类器分别采用不同的搜索结果文本特征。4.根据权利要求1所述的方法,其特征在于,所述分类器包括针对网页标题建立的分类器、针对网页摘要建立的分类器或者针对网址的分类器。5.根据权利要求4所述的方法,其特征在于,所述针对网页标题建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网页标题中是否出现所述待识别query以及出现所述待识别query的次数;由网页标题确定出的η元词组n-gram与各需求类型的核心词向量的重叠状况;以及;搜索日志中网页标题对应所述待识别query时被点击的次数占所述待识别query对应所有网页标题的被点击总次数的比率。6.根据权利要求4所述的方法,其特征在于,所述针对网页摘要建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网页摘要中出现所述待识别query的句子个数或比率;以及,网页摘要中包含的n-gram与需求类型核心词向量间的重叠状况。7.根据权利要求4所述的方法,其特征在于,所述针对网址建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网址对应搜索结果的排序值;网址对应的页面类型;以及,搜索日志中网址对应所述待识别query时被点击的次数与所述待识别query对应所有网址的被点击总次数的比率。8.根据权利要求5或6所述的方法,其特征在于,所述需求类型的核心词向量的建立包括Al、获取所述需求类型的种子query ;A2、针对所述需求类型的各种子query进行搜索,分别获取排在前NI个的搜索结果,所述NI为预设的正整数;A3、对获取的搜索结果的文本进行分词处理,获取所有n-gram ;A4、根据词频tf*逆向文件频率idf值确定各n-gram的权重,获取权重值排在前N2个的n-gram作为所述需求类型的核心词向量,所述N2为预设的正整数。9.根据权利要求8所述的方法,其特征在于,所述步骤Al包括获取通过人工方式配置的所述需求类型的种子query ;或者,获取采用人工方式在搜索日志中标注的所述需求类型的种子query ;或者,从所述需求类型垂直搜索的搜索日志中,获取搜索次数高于预设第一阈值的query作为所述需求类型的种子query ;或者,从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述搜索类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query作为所述需求类型的种子query。10.根据权利要求1至7任一权项所述的方法,其特征在于,所述分类器为最大熵分类器或者支持向量机分类器。11.根据权利要求1至7任一权项所述的方法,其特征在于,如果所述分类器为一个,则所述S3为根据需求分类结果中,各分类包含的搜索结果数量确定所述待识别query的需求类型;如果所述分类器为多个,则在所述步骤S3中采用基于boosting的融合方法,或者采用线性加权的多分类器融合方法。12.—种识别搜索需求的装置,其特征在于,该装置包括结果获取单元,用于接收到待识别query后,获取所述待识别que...

【专利技术属性】
技术研发人员:黄际洲
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1