The invention discloses a retrieval device and pattern generation method based on search engine, which relates to the technical field of the Internet, and by clustering with potential retrieval mode expected, then the mining search mode with high purity, get the retrieval mode, so as to enhance the user search experience. The technical scheme of the invention are: to obtain the information retrieval pretreatment, get the word vector information retrieval; clustering algorithm using the processed information retrieval for clustering, classification and retrieval of information from a number of lists, the classification and retrieval of information list records with similar context information retrieval information extraction; pattern retrieval information corresponding to the list from the classification and retrieval, the retrieval model is able to represent a class of information model of information retrieval. The invention is mainly used for configuring search patterns for search engines.
【技术实现步骤摘要】
一种基于搜索引擎的检索模式生成方法及装置
本专利技术涉及互联网
,尤其涉及一种基于搜索引擎的检索模式生成方法及装置。
技术介绍
人们在使用Web搜索引擎,完成某一类检索需求时,往往依赖日常的生活用语习惯来构造检索模式,即querypattern。一个querypattern代表着一类检索信息query的集合,表达相同或相似的用户意图,比如询问距离的一个pattern:从#到#有多远,具体的检索信息有“从山西灵石到陕西华阴有多远”、“从霍山到英山有多远”、“从洛阳到少林寺有多远”、“从双井到牡丹园有多远”等等实例。这些pattern能够帮助理解用户的查询意图,pattern“从#到#有多远”可以用来识别query中的地点实体词,知道哪一个是起始地点、哪一个是结束地点,从而帮助搜索引擎检索到满足用户意图的结果。在Web搜索引擎中保存了用户的检索日志,积累了海量的用户历史检索信息query,从中挖掘出来表达用户各类检索需求的querypattern,可以进一步分析用户查询意图,助益相关性计算,返给用户最相关的结果,从而改善用户的搜索体验。然而目前的querypattern挖掘方法是一种贪婪算法,逐个去掉query中的分词,再遍历语料,统计余下部分的共现频率,共现高频的就有可能是pattern。但是,这种方法所要求的时间复杂度高,并且所挖掘pattern中有杂质,导致在实际应用中并不能为用户匹配出最佳的检索结果。
技术实现思路
有鉴于此,本专利技术提供一种基于搜索引擎的检索模式生成方法及装置,通过将具有潜在检索模式的预料进行聚类,再对其挖掘所含有的检索模式,得到 ...
【技术保护点】
一种基于搜索引擎的检索模式生成方法,其特征在于,所述方法包括:对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;从所述分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。
【技术特征摘要】
1.一种基于搜索引擎的检索模式生成方法,其特征在于,所述方法包括:对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;从所述分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。2.根据权利要求1所述的方法,其特征在于,所述对所获取的已有检索信息进行预处理包括:将所获取的已有检索信息逐条添加到有第一检索信息列表中;对所述第一检索信息列表中的检索信息进行分词以及词性标注处理,得到第二检索信息列表和第三检索信息列表,所述第二检索信息列表中保存有分词后的检索信息,所述第三检索信息列表中保存有对分词结果进行词性标注的检索信息;利用文本深度表示模型word2vec对第二检索信息列表中的分词进行向量化表示,将所述向量化的分词存储在词向量文件中;提取所述第三检索信息列表中词性标注为名词性的分词,将所述分词添加到分词列表中,所述分词列表中记录有分词以及所述分词在所述第三检索信息列表中出现的次数。3.根据权利要求2所述的方法,其特征在于,所述利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表包括:在所述词向量文件中查找所述分词列表中分词的向量值;根据所述向量值计算所述分词列表中任意两个分词间的欧氏距离;对所述分词列表中每个分词提取预置数量的邻近分词,组成分词组,所述邻近分词是根据所述欧氏距离进行由近至远排序得到的分词;在所述第一检索信息列表中提取含有所述分词组中至少一个分词的检索信息;将所提取的检索信息保存在一个分类检索信息列表中。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述从所述分类检索信息列表中提取对应的检索模式包括:利用FPGrowth算法逐一计算每个分类检索信息列表中的频繁项集合,所述频繁项集合含有至少一个频繁项集;调整所述频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式。5.根据权利要求4所述的方法,其特征在于,所述调整所述频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式包括:提取所述频繁项集中的一组频繁项;在所述分类检索信息列表中匹配含有所述一组频繁项的检索信息;将所述检索信息中非频繁项的分词替换为通用符;将含有通用符和所述一组频繁项且按照所述检索信息中的分词排序排列的信息确定为所述分类检索信息列表对应的检索模式。6.根据权利要求5所述的方法,其特征在于,所述调整所述频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式还包括:统计所生成的检索模式,计算所生成的相同检索模式的个数;保留所述个数大于预置阈值的检索模式。7.一种基于搜索引擎的检索模式生成装置,其特征在于,所述装置包括:处理单元,用于对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;聚...
【专利技术属性】
技术研发人员:庞伟,何晓峰,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。