一种基于搜索引擎的检索模式生成方法及装置制造方法及图纸

技术编号:15499820 阅读:51 留言:0更新日期:2017-06-03 21:58
本发明专利技术公开了一种基于搜索引擎的检索模式生成方法及装置,涉及互联网技术领域,通过将具有潜在检索模式的预料进行聚类,再对其挖掘所含有的检索模式,得到高纯净度的检索模式,从而提升用户的检索体验。本发明专利技术主要的技术方案为:对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;从所述分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。本发明专利技术主要用于为搜索引擎配置检索模式。

Search mode generation method and device based on search engine

The invention discloses a retrieval device and pattern generation method based on search engine, which relates to the technical field of the Internet, and by clustering with potential retrieval mode expected, then the mining search mode with high purity, get the retrieval mode, so as to enhance the user search experience. The technical scheme of the invention are: to obtain the information retrieval pretreatment, get the word vector information retrieval; clustering algorithm using the processed information retrieval for clustering, classification and retrieval of information from a number of lists, the classification and retrieval of information list records with similar context information retrieval information extraction; pattern retrieval information corresponding to the list from the classification and retrieval, the retrieval model is able to represent a class of information model of information retrieval. The invention is mainly used for configuring search patterns for search engines.

【技术实现步骤摘要】
一种基于搜索引擎的检索模式生成方法及装置
本专利技术涉及互联网
,尤其涉及一种基于搜索引擎的检索模式生成方法及装置。
技术介绍
人们在使用Web搜索引擎,完成某一类检索需求时,往往依赖日常的生活用语习惯来构造检索模式,即querypattern。一个querypattern代表着一类检索信息query的集合,表达相同或相似的用户意图,比如询问距离的一个pattern:从#到#有多远,具体的检索信息有“从山西灵石到陕西华阴有多远”、“从霍山到英山有多远”、“从洛阳到少林寺有多远”、“从双井到牡丹园有多远”等等实例。这些pattern能够帮助理解用户的查询意图,pattern“从#到#有多远”可以用来识别query中的地点实体词,知道哪一个是起始地点、哪一个是结束地点,从而帮助搜索引擎检索到满足用户意图的结果。在Web搜索引擎中保存了用户的检索日志,积累了海量的用户历史检索信息query,从中挖掘出来表达用户各类检索需求的querypattern,可以进一步分析用户查询意图,助益相关性计算,返给用户最相关的结果,从而改善用户的搜索体验。然而目前的querypattern挖掘方法是一种贪婪算法,逐个去掉query中的分词,再遍历语料,统计余下部分的共现频率,共现高频的就有可能是pattern。但是,这种方法所要求的时间复杂度高,并且所挖掘pattern中有杂质,导致在实际应用中并不能为用户匹配出最佳的检索结果。
技术实现思路
有鉴于此,本专利技术提供一种基于搜索引擎的检索模式生成方法及装置,通过将具有潜在检索模式的预料进行聚类,再对其挖掘所含有的检索模式,得到高纯净度的检索模式,从而提升用户的检索体验。依据本专利技术的一个方面,提出了一种基于搜索引擎的检索模式生成方法,该方法包括:对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;从所述分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。依据本专利技术的另一个方面,提出了一种基于搜索引擎的检索模式生成装置,该装置包括:处理单元,用于对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;聚类单元,用于利用聚类算法将所述处理单元处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;提取单元,用于从所述聚类单元得到的分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。本专利技术所采用的一种基于搜索引擎的检索模式生成方法及装置,通过对搜索引擎保存的已有检索信息进行词向量表示,利用聚类算法将具有相似上下文信息的检索信息进行聚类,再从聚合在一起的检索信息中提取对应的检索模式。相对于现有的检索模式的挖掘方法,本专利技术所采用的方法通过对检索信息的预处理,可以有效的减少遍历语料的次数,通过聚类算法将具有潜在检索模式的检索信息进行聚类,在同一类的检索信息中进行挖掘,大幅提高了检索模式的纯净度,同时提高的检索模式的挖掘速率,从而提高到了创建检索模式的效率,使得搜索引擎在更新检索模式时能够快速完成,为使用搜索引擎的用户提供更佳的检索服务。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提出的一种基于搜索引擎的检索模式生成方法流程图;图2示出了本专利技术实施例提出的对所获取的已有检索信息进行预处理的方法流程图;图3示出了本专利技术实施例提出的对检索信息进行聚类生成分类检索信息列表的方法流程图;图4示出了本专利技术实施例提出的从分类检索信息列表中提取对应检索模式的方法流程图;图5示出了本专利技术实施例提出的一种基于搜索引擎的检索模式生成装置的组成框图;图6示出了本专利技术实施例提出的另一种基于搜索引擎的检索模式生成装置的组成框图。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种基于搜索引擎的检索模式生成方法,该方法主要应用搜索引擎中,针对用户的对某一类信息检索的需求,以检索模式为关联纽带匹配出相关性较高的网页作为检索结果。需要说明的是,本专利技术实施例中的检索模式是对已有的检索信息进行统计分析后得到的能够代表一类检索信息的模式化信息。由于搜索引擎中保存有用户的检索日志,累积了海量的用户历史检索信息,通过对这些检索信息进行有效的挖掘,就可以得到用于针对匹配一类信息检索的检索模式信息库中的检索模式。对于本专利技术实施例申城检索模式的具体步骤如图1所示,包括:101、对所获取的已有检索信息进行预处理。通过获取搜索引擎中保存的用户历史检索信息并对其进行整理,以便于后续步骤的文本分析。其中,预处理主要包括对检索信息逐条地进行分词,词性标注,以及对各个分词进行向量化表示等。经过处理后的检索信息是以词向量表示的检索信息。通过词向量的表示,可以实现分词之间相关或相似的计算,比如,通过欧氏距离来衡量分词之间的远近,或者是通过余弦相似度计算两个分词之间的相关性。102、利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表。该步骤是将对向量化的检索信息进行聚类,也就是将可能含有相似检索模式的检索信息聚合在一起。进行聚类操作的前提,是出于对检索模式在同类检索信息中具有共性的认知,一般的,同义词、近义词或同位词的上下文信息是相似的,而在用户检索信息中的上下文信息就包含有所要挖掘的检索模式,由于检索模式一般是通过词向量表示的形式加以保存,那么,相反的,通过分析检索信息的词向量表示,就可以总结出对应的检索模式。因此,本步骤中的核心就是如何将具有相似的上下文信息的检索信息聚类到一起。一般的,检索信息都比较短小,因此,绝大所述的检索信息中都是以名词性词项为核心,围绕该词就基本可以确定检索信息中的上下文关系。所以,本专利技术实施例中,通过提取检索信息中的名词性词项,来分析这些词项的语义关系,即判断哪些名词性分词具有同义词、近义词或同位词的关系,将含有该关系分词的检索信息聚类到一起,再分析其中所具有的相似的上下文关系,即检索模式。103、从分类检索信息列表中提取对应的检索模式。上一步是将已有的检索信息通过聚类算法分为多个分类检索信息列表,每一个分类检索信息列表中存储有一类的检索信息。一般的,认为这一类的检索信息中会包含有同一类的检索模式,也就是根据检索信息中的非名词性分词的排序方式,来确定对应的检索模式。而在确定出的检索模式中含有的名词性分词的数量决定了该检索模式的阶数,阶数越本文档来自技高网...
一种基于搜索引擎的检索模式生成方法及装置

【技术保护点】
一种基于搜索引擎的检索模式生成方法,其特征在于,所述方法包括:对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;从所述分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。

【技术特征摘要】
1.一种基于搜索引擎的检索模式生成方法,其特征在于,所述方法包括:对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;从所述分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。2.根据权利要求1所述的方法,其特征在于,所述对所获取的已有检索信息进行预处理包括:将所获取的已有检索信息逐条添加到有第一检索信息列表中;对所述第一检索信息列表中的检索信息进行分词以及词性标注处理,得到第二检索信息列表和第三检索信息列表,所述第二检索信息列表中保存有分词后的检索信息,所述第三检索信息列表中保存有对分词结果进行词性标注的检索信息;利用文本深度表示模型word2vec对第二检索信息列表中的分词进行向量化表示,将所述向量化的分词存储在词向量文件中;提取所述第三检索信息列表中词性标注为名词性的分词,将所述分词添加到分词列表中,所述分词列表中记录有分词以及所述分词在所述第三检索信息列表中出现的次数。3.根据权利要求2所述的方法,其特征在于,所述利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表包括:在所述词向量文件中查找所述分词列表中分词的向量值;根据所述向量值计算所述分词列表中任意两个分词间的欧氏距离;对所述分词列表中每个分词提取预置数量的邻近分词,组成分词组,所述邻近分词是根据所述欧氏距离进行由近至远排序得到的分词;在所述第一检索信息列表中提取含有所述分词组中至少一个分词的检索信息;将所提取的检索信息保存在一个分类检索信息列表中。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述从所述分类检索信息列表中提取对应的检索模式包括:利用FPGrowth算法逐一计算每个分类检索信息列表中的频繁项集合,所述频繁项集合含有至少一个频繁项集;调整所述频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式。5.根据权利要求4所述的方法,其特征在于,所述调整所述频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式包括:提取所述频繁项集中的一组频繁项;在所述分类检索信息列表中匹配含有所述一组频繁项的检索信息;将所述检索信息中非频繁项的分词替换为通用符;将含有通用符和所述一组频繁项且按照所述检索信息中的分词排序排列的信息确定为所述分类检索信息列表对应的检索模式。6.根据权利要求5所述的方法,其特征在于,所述调整所述频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式还包括:统计所生成的检索模式,计算所生成的相同检索模式的个数;保留所述个数大于预置阈值的检索模式。7.一种基于搜索引擎的检索模式生成装置,其特征在于,所述装置包括:处理单元,用于对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;聚...

【专利技术属性】
技术研发人员:庞伟何晓峰
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1