应用搜索意图的识别方法、装置、应用搜索方法和服务器制造方法及图纸

技术编号:15329866 阅读:144 留言:0更新日期:2017-05-16 13:27
本发明专利技术公开了一种应用搜索意图的识别方法、装置、应用搜索方法和服务器,该方法包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词;根据各查询会话中的搜索词以及预设策略,挖掘出各搜索词的标签体系;根据每个搜索词的标签体系识别出该搜索词对应的应用搜索意图。该方案中与app应用标签体系相匹配的用户意图识别方法标签法的提出,灵活的表达用户细粒度的查询意图。基于无监督机器学习技术构建用户意图的标签体系,抛弃了传统的用户意图分类方法,实现了一套自动化用户意图挖掘流程,可生成高准确率、召回率的用户意图标签列表,把用户意图和app应用映射到同一个标签体系内,使得用户在搜索应用时,能够快速精准的获取能满足意图的app应用。

Identification method, device, application search method and server using search intention

The invention discloses a search intention recognition method, search method and device, application server, the method includes: obtaining the query session search word query session log in from the search engine application; according to the query session in search of words and preset strategy, dig out the search word tag system according to each search tag identification system; the application of the word search word corresponding to the search intention. In this scheme, the user intent recognition method, which matches the app tagging system, is proposed. The tag method is used to express the user's fine-grained query intention. The construction of user intention unsupervised machine learning technique based on the tag system, abandoning the traditional user intent classification method, to achieve a set of automated user intention mining process, can generate high precision and recall the intentions of the user a list of tags, the user intention and the application of APP mapping to the same tag system that allows users to the search application, can quickly and accurately get to meet app application intention.

【技术实现步骤摘要】
应用搜索意图的识别方法、装置、应用搜索方法和服务器
本专利技术涉及数据挖掘领域,具体涉及一种应用搜索意图的识别方法、装置、应用搜索方法和服务器。
技术介绍
应用搜索引擎是一款移动端软件应用搜索引擎服务,提供手机上的app搜索和下载,如360手机助手、腾讯应用宝、GooglePlay、Appstore等。应用搜索引擎是安装在手机上的移动搜索服务,如360手机助手app应用,由于搜索结果的展现平面小等客观条件限制,只有提供精准的搜索结果才能获得最佳的用户体验,也是移动搜索与PC端网页搜索的重要区别之一。移动端app应用数量巨大,有数百万的app应用,应用搜索引擎需要在理解用户查询意图的前提下,才能精准的展现给用户那一款心中所想的app应用。应用搜索引擎提供精准搜索服务的前提是精准理解用户的查询意图。用户的每个查询请求背后都隐含着潜在的搜索意图,如果应用搜索引擎能感知用户需求,将搜索词文本映射到对应的app应用功能或app应用类别上,将更符合用户意图的app应用结果排在前列,这显然会增强用户的搜索体验。因此用户意图识别是应用搜索引擎的核心技术,也是实现功能搜索技术的关键。在现有传统的web搜索引擎技术中,均是人工整理分类用户搜索意图,将用户搜索意图分为导航类、信息类和资源类三大类型,但这种针对网页的用户意图分类方法并不适用于app应用场景。因为每一款app应用都有固定的应用领域,为人们提供某一种具体化的功能,使用标签挖掘用户细粒度的功能需求是恰当的,基于分类的方法粒度广、宽泛因而不适用。所以,至今尚无一种非常灵活和有效的方法能满足用户日益增长的对app应用快速、精确搜索的需求。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种应用搜索意图的识别方法、装置、应用搜索方法和服务器。依据本专利技术的一个方面,提供了一种应用搜索意图的识别方法,该方法包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词;根据各查询会话中的搜索词以及预设策略,挖掘出各搜索词的标签体系;根据每个搜索词的标签体系识别出该搜索词对应的应用搜索意图。可选地,根据各查询会话中的搜索词以及预设策略,挖掘出各搜索词的标签体系包括:根据各查询会话中的搜索词,获得训练语料集合;将训练语料集合输入至LDA模型中进行训练,得到LDA模型输出的搜索词-主题概率分布结果以及主题-关键词概率分布结果;根据所述搜索词-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各搜索词的标签体系。可选地,所述根据各查询会话中的搜索词,获得训练语料集合包括:根据各查询会话中的搜索词,获得各搜索词的原始语料;各搜索词的原始语料构成原始语料集合;对所述原始语料集合进行预处理,获得训练语料集合。可选地,所述根据各查询会话中的搜索词,获得各搜索词的原始语料包括:根据各查询会话中的搜索词,获得多个查询会话对应的搜索词序列集合;以及,获得多个查询会话对应的搜索词集合;对所述搜索词序列集合进行训练得到N维的搜索词向量文件;对于所搜索词集合中的每个搜索词,根据所述N维的搜索词向量文件计算该搜索词与其他各搜索词之间的关联程度;将与该搜索词的关联程度符合符合预设条件的其他各搜索词作为该搜索词的原始语料。可选地,所述获得多个查询会话对应的搜索词序列集合包括:对于每个查询会话,将该查询会话中的搜索词按照顺序排成一个序列;如果该序列中的一个搜索词对应于应用下载操作,将所下载的应用的名称插入到该序列中的相应搜索词的后面相邻位置;得到该查询会话对应的搜索词序列;所述获得多个查询会话对应的搜索词集合包括:将多个查询会话中的搜索词的集合作为所述多个查询会话对应的搜索词集合。可选地,对所述搜索词序列集合进行训练得到N维的搜索词向量文件包括:将所述搜索词序列集合中的每个搜索词作为一个单词,利用深度学习工具包word2vec对所述搜索词序列集合进行训练,生成N维的搜索词向量文件。可选地,所述对于所搜索词集合中的每个搜索词,根据所述N维的搜索词向量文件计算该搜索词与其他各搜索词之间的关联程度;将与该搜索词的关联程度符合符合预设条件的其他各搜索词作为该搜索词的原始语料包括:利用KNN算法对所述搜索词集合以及所述N维的搜索词向量文件进行运算,根据所述N维的搜索词向量文件计算所述搜索词集合中的每两个搜索词之间的距离;对于所述搜索词集合中的每个搜索词,按照与该搜索词的距离从大到小排序,选取前第一预设阈值个搜索词作为该搜索词的原始语料。可选地,所述对所述原始语料集合进行预处理包括:在所述原始语料集合中,对于每个原始语料,对所述原始语料进行分词处理,得到包含多个词项的分词结果;查找由所述分词结果中的相邻词项构成的短语;保留所述短语、所述分词结果中属于名词的词项和属于动词的词项,作为该原始语料对应保留的关键词。可选地,所述查找由所述分词结果中的相邻词项构成的短语包括:计算分词结果中的每两个相邻词项的cPMId值,当两个相邻词项的cPMId值大于第二预设阈值时,确定这两个相邻词项构成短语。可选地,所述对所述原始语料集合进行预处理还包括:将每个搜索词的原始物料对应保留的关键词作为该搜索词的第一阶段训练语料;各搜索词的第一阶段训练语料构成第一阶段训练语料集合;对所述第一阶段训练语料集合中的关键词进行数据清洗。可选地,所述对所述第一阶段训练语料集合中的关键词进行数据清洗包括:在所述第一阶段训练语料集合中,对于每个搜索词的第一阶段训练语料,计算所述第一阶段训练语料中的每个关键词的TF-IDF值;将TF-IDF值高于第三预设阈值和/或低于第四预设阈值的关键词删除,得到该搜索词的训练语料;各搜索词的训练语料构成训练语料集合。可选地,所述根据所述搜索词-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各搜索词的标签体系包括:根据所述搜索词-主题概率分布结果和所述主题-关键词概率分布结果,计算得到搜索词-关键词概率分布结果;根据所述搜索词-关键词概率分布结果,对于每个搜索词,将关键词按照关于该搜索词的概率从大到小排序,选取前第五预设阈值数目的关键词。可选地,所述根据所述搜索词-主题概率分布结果和所述主题-关键词概率分布结果,计算得到搜索词-关键词概率分布结果包括:对于每个搜索词,根据所述搜索词-主题概率分布结果得到各主题关于该搜索词的概率;对于每个主题,根据所述主题-关键词概率分布结果得到各关键词关于该主题的概率;则对于每个关键词,将该关键词关于一个主题的概率与该主题关于一个搜索词的概率的乘积作为该关键词基于该主题的关于所述搜索词的概率;将该关键词基于各主题关于所述搜索词的概率之和作为该关键词关于所述搜索词的概率。可选地,所述根据所述搜索词-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各搜索词的标签体系还包括:将每个搜索词对应选取的前第五预设阈值数目的关键词作为该搜索词的第一阶段标签体系;对于每个搜索词的第一阶段标签体系,计算该搜索词的第一阶段标签体系中的每个关键词与该搜索词之间的语义关系值;对于每个关键词,将该关键词对应的语义关系值与该关键词关于该搜索词的概率的乘积作为该关键词关于该搜索词的修正概率;将该搜索词的第一阶段标签体系中的各关键词按照关于该搜索词的修正概本文档来自技高网
...
应用搜索意图的识别方法、装置、应用搜索方法和服务器

【技术保护点】
一种应用搜索意图的识别方法,其中,包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词;根据各查询会话中的搜索词以及预设策略,挖掘出各搜索词的标签体系;根据每个搜索词的标签体系识别出该搜索词对应的应用搜索意图。

【技术特征摘要】
1.一种应用搜索意图的识别方法,其中,包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词;根据各查询会话中的搜索词以及预设策略,挖掘出各搜索词的标签体系;根据每个搜索词的标签体系识别出该搜索词对应的应用搜索意图。2.如权利要求1所述的方法,其中,根据各查询会话中的搜索词以及预设策略,挖掘出各搜索词的标签体系包括:根据各查询会话中的搜索词,获得训练语料集合;将训练语料集合输入至LDA模型中进行训练,得到LDA模型输出的搜索词-主题概率分布结果以及主题-关键词概率分布结果;根据所述搜索词-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各搜索词的标签体系。3.如权利要求1或2所述的方法,其中,所述根据各查询会话中的搜索词,获得训练语料集合包括:根据各查询会话中的搜索词,获得各搜索词的原始语料;各搜索词的原始语料构成原始语料集合;对所述原始语料集合进行预处理,获得训练语料集合。4.如权利要求1-3中任一项所述的方法,其中,所述根据各查询会话中的搜索词,获得各搜索词的原始语料包括:根据各查询会话中的搜索词,获得多个查询会话对应的搜索词序列集合;以及,获得多个查询会话对应的搜索词集合;对所述搜索词序列集合进行训练得到N维的搜索词向量文件;对于所搜索词集合中的每个搜索词,根据所述N维的搜索词向量文件计算该搜索词与其他各搜索词之间的关联程度;将与该搜索词的关联程度符合预设条件的其他各搜索词作为该搜索词的原始语料。5.一种应用搜索方法,其中,包括:构建搜索词标签数据库,该搜索词标签数据库中包括多个搜索词的标签体系;接收客户端上传的当前搜索词,根据所述搜索词标签数据库获取当前搜索词的标签体系;计算当前搜索词的标签体系与各应用的标签体系之间的关联程度;当当前搜索词的标签体系与一个应用的标签体系之间的关联程度符合预设条件时,将该应用的相关信息返回至客户端进行展示;通过如权利要求1-4中任一项所述的方法构建所述搜索词标签数据库。6.一种应用搜索意...

【专利技术属性】
技术研发人员:庞伟
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1