【技术实现步骤摘要】
本专利技术涉自然语言处理技术,特别涉及一种搜索需求的挖掘方法、智能搜索方法及其装置。
技术介绍
随着互联网的普及,搜索引擎越来越成为人们生活中不可缺少的工具。搜索引擎极大地加快了信息传播的速度,改变了人们获取知识的途径,人们只需要向搜索引擎输入感兴趣的关键词,就可以从搜索引擎获取大量的相关信息。但是,现有的搜索引擎是通过在索引库中查询用户输入的关键词来获取字面匹配的搜索结果的,在这种方式下,无论用户输入的是什么类型的关键词,搜索引擎均只能向用户返回字面匹配的搜索结果,由于搜索引擎无法判断用户搜索时的真实需求,因此无法自适应用户的需要,为用户返回更准确的搜索结果。
技术实现思路
本专利技术所要解决的技术问题是提供一种搜索需求的挖掘方法、智能搜索方法及其装置,以提高搜索引擎返回结果的准确性。本专利技术为解决技术问题而采用的技术方案是提供一种搜索需求的挖掘方法,包括:A.从搜索日志的关键词中确定泛需求词;B.从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语;C.根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。根据本专利技术之一优选实施例,所述步骤 ...
【技术保护点】
一种搜索需求的挖掘方法,包括:A.从搜索日志的关键词中确定泛需求词;B.从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语;C.根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
【技术特征摘要】
1.一种搜索需求的挖掘方法,包括:
A.从搜索日志的关键词中确定泛需求词;
B.从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应
的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出
现在一个会话中且在该泛需求词之后出现的词语;
C.根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求
词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建
立对应关系词表。
2.根据权利要求1所述的方法,其特征在于,所述步骤A中确定泛需求词
的方式至少包括以下一种:
方式一、从搜索日志中提取以预设的模式词表中的词为前缀的关键词作为
泛需求词;或者,
方式二、从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并
将提取的关键词去除所述前缀后的剩余部分作为泛需求词;或者,
方式三、确定搜索日志中各关键词的后继词,并将属于同一实体类别的后
继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后
继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。
3.根据权利要求1所述的方法,其特征在于,所述步骤B中根据下列公式
计算泛需求词X与对应的后继词Y之间的关联强度:
其中,R表示X与Y的关联强度,m表示所述搜索日
志中Y作为互异泛需求词的后继词出现的总次数,n表示所述搜索日志中Y作
为X的后继词出现的总次数,wi表示Y在与X共同出现的第i个会话中的权重,
其中wi的大小与第i个会话中X的后继词总数成反比,与第i个会话中Y作为X
的后继词出现的位序成正比。
4.根据权利要求1所述的方法,其特征在于,所述过滤策略至少包括以下
一种:
策略一、将泛需求词对应的后继词中与该泛需求词之间的关联强度低于第
二设定阈值的后继词过滤掉;
策略二、将泛需求词对应的后继词中与该泛需求词具有相同分词的后继词
过滤掉;
策略三、将泛需求词对应的后继词中属于同一实体类别所占比例低于第三
设定阈值的后继词过滤掉。
5.一种智能搜索方法,包括:
获取用户的搜索关键词;
将所述搜索关键词与权利要求1至4中任一权项所述方法得到的对应关系
词表中的泛需求词进行匹配,并在匹配通过时,利用所述对应关系词表中所述
搜索关键词对应的精确需求词获取第一搜索结果。
6.根据权利要求5所述方法,其特征在于,所述第一搜索结果中的各结果
项分别由所述搜索关键词对应的不同精确需求词得到,且各结果项的排列顺序
由得到该结果项的精确需求词与所述搜索关键词之间的关联强度确定。
7.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:
利用所述搜索关键词获取第二搜索结果,并将所述第一搜索结果嵌入到所
述第二搜索结果中返回给用户。
8.一种搜索需求的挖掘装置,包括:
泛需求词挖掘单元,用于从搜索日志的关...
【专利技术属性】
技术研发人员:黄荣升,辜斯缪,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。