搜索意图识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:24574949 阅读:29 留言:0更新日期:2020-06-21 00:14
本申请公开了搜索意图识别方法、装置、电子设备和存储介质。所述方法包括:响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图识别结果。该技术方案的有益效果在于,不仅关注搜索请求,还关注天气、位置、用户行为等与搜索请求关联的搜索场景信息,利用基于复合建模实现的搜索意图识别模型,参考多方面因素对用户真实需求进行预测,改善了仅根据搜索请求无法精确识别出搜索意图的问题,特别适合于生活服务类、LBS类搜索场景。

Search intent identification methods, devices, electronic devices, and storage media

【技术实现步骤摘要】
搜索意图识别方法、装置、电子设备和存储介质
本申请涉及搜索引擎领域,具体涉及搜索意图识别方法、装置、电子设备和存储介质。
技术介绍
准确预测用户的搜索意图,是搜索引擎至关重要的能力。其中,搜索意图通常指搜索行为背后体现的用户真实需求,例如,搜索“羽毛球”,可能是因为用户想购买羽毛球器械,也可能是寻找羽毛球场馆,亦可能是学习羽毛球规则,等等。在这个例子中,“购买器械”、“寻找场馆”以及“学习规则”就是与“羽毛球”这个搜索关键词相关的三类不同搜索意图。对搜索意图进行识别,现有技术中有如下的几种常见方案:1)基于业务专家制定的规则,利用搜索关键词与规则的文本匹配确定搜索意图;2)基于文本分类或聚类进行搜索意图的预测;3)通过主题模型等方式,将关键词映射到高维度的语义向量空间,以表达搜索意图。上述方案均存在着仅关注文本,缺少对其他因素关注的问题。可见,现有技术并不能满足业务需求,还有很大的改进空间。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的搜索意图识别方法、装置、电子设备和存储介质。依据本申请的第一方面,提供了一种搜索意图识别方法,包括:响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图识别结果。可选地,所述根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征包括:将所述搜索场景信息编码为场景特征向量,以及根据所述搜索请求编码得到与所述搜索请求对应的搜索请求特征向量;对所述场景特征向量和所述搜索请求特征向量进行融合,将得到的融合特征向量作为所述复合特征,其中搜索请求特征向量在所述融合特征向量中的维度占比不小于预设比值。可选地,所述将所述搜索场景信息编码为场景特征向量包括:将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量;所述场景维度包括如下的至少一种:位置维度,天气维度,用户行为维度,时间维度。可选地,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:对位置维度下的经纬度信息进行GeoHash处理,对处理结果进行独热编码,得到经纬度特征向量。可选地,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:将天气维度下的连续值类信息进行分桶离散化处理,对处理结果进行独热编码,得到天气特征向量。可选地,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:对用户行为维度下的用户行为序列,在用户行为序列中的用户行为个数不大于指定数量的情况下,选定该用户行为序列中的全部用户行为;在用户行为序列中的用户行为个数大于指定数量的情况下,以倒序方式选定用户行为序列中指定数量个用户行为;获取各选定的用户行为所对应目标的搜索意图;对获取的搜索意图进行特征嵌入处理,得到用户行为特征向量。可选地,所述指定数量是通过如下方式预先确定的:对搜索日志中每条包含下单行为的用户行为序列,统计该包含下单行为的用户行为序列中,连续点击行为序列的长度;所述连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为;将各连续点击行为序列的长度均值作为所述指定数量。可选地,所述搜索意图识别模型是通过如下方式训练得到的:根据搜索日志生成训练样本;根据训练样本生成复合特征;利用根据训练样本生成的复合特征进行搜索意图识别模型的训练。可选地,所述根据搜索日志生成训练样本包括:根据包含点击行为的搜索日志生成第一类正样本;根据包含下单行为的搜索日志生成第二类正样本;所述第一类正样本的权重小于第二类正样本的权重;根据仅包含浏览行为的搜索日志生成负样本。可选地,所述搜索意图识别结果为多个搜索意图的意图强度分布,该方法还包括:获取指定搜索意图及其意图位次;根据所述意图位次和所述意图强度分布,确定指定搜索意图的意图强度值;根据指定搜索意图的意图强度值和所述意图强度分布,生成包含所述指定搜索意图的意图强度分布。可选地,所述获取指定搜索意图及其意图位次包括:获取与所述搜索请求匹配、且在生效状态的指定搜索意图;所述生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。依据本申请的第二方面,提供了一种搜索意图识别装置,包括:响应单元,用于响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;复合特征生成单元,用于根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;搜索意图识别单元,用于将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图结果。可选地,所述复合特征生成单元,用于将所述搜索场景信息编码为场景特征向量,以及根据所述搜索请求编码得到与所述搜索请求对应的搜索请求特征向量;对所述场景特征向量和所述搜索请求特征向量进行融合,将得到的融合特征向量作为所述复合特征,其中搜索请求特征向量在所述融合特征向量中的维度占比不小于预设比值。可选地,所述复合特征生成单元,用于将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量;所述场景维度包括如下的至少一种:位置维度,天气维度,用户行为维度,时间维度。可选地,所述复合特征生成单元,用于对位置维度下的经纬度信息进行GeoHash处理,对处理结果进行独热编码,得到经纬度特征向量。可选地,所述复合特征生成单元,用于将天气维度下的连续值类信息进行分桶离散化处理,对处理结果进行独热编码,得到天气特征向量。可选地,所述复合特征生成单元,用于对用户行为维度下的用户行为序列,在用户行为序列中的用户行为个数不大于指定数量的情况下,选定该用户行为序列中的全部用户行为;在用户行为序列中的用户行为个数大于指定数量的情况下,以倒序方式选定用户行为序列中指定数量个用户行为;获取各选定的用户行为所对应目标的搜索意图;对获取的搜索意图进行特征嵌入处理,得到用户行为特征向量。可选地,所述装置还包括:预处理单元,用于对搜索日志中每条包含下单行为的用户行为序列,统计该包含下单行为的用户行为序列中,连续点击行为序列的长度;所述连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为;将各连续点击行为序列的长度均值作为所述指定数量。可选地,所述装置还包括:预处理单元,用于根据搜索日志生成训练样本;根据训练样本生成复合特征;训练单元,用于利用根据训练样本生成的复合特征进行搜索意图识别模型的训练。可选地,所述预处理单元,用于根据包含点击行为的搜索日志生成第一类正样本;根据包含下单行为的搜索日志生成第二类正样本;所述第一类正样本的权重小于第二类正样本的权重;根据仅包含浏览行为的搜索日志生成负样本。可选地,所述搜索意图识别结果为多个搜索意图的意图强度分布;所述装置还包括:意图调整单元,用于获取指定搜索意图及其意图位次;根据所述意图位次和所述意图强度分布本文档来自技高网...

【技术保护点】
1.一种搜索意图识别方法,包括:/n响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;/n根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;/n将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图识别结果。/n

【技术特征摘要】
1.一种搜索意图识别方法,包括:
响应于搜索请求,获取与所述搜索请求关联的搜索场景信息;
根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征;
将所述复合特征输入到搜索意图识别模型中,获取所述搜索意图识别模型输出的搜索意图识别结果。


2.如权利要求1所述的搜索意图识别方法,其特征在于,所述根据所述搜索场景信息以及所述搜索请求生成用于识别搜索意图的复合特征包括:
将所述搜索场景信息编码为场景特征向量,以及根据所述搜索请求编码得到与所述搜索请求对应的搜索请求特征向量;
对所述场景特征向量和所述搜索请求特征向量进行融合,将得到的融合特征向量作为所述复合特征,其中搜索请求特征向量在所述融合特征向量中的维度占比不小于预设比值。


3.如权利要求2所述的搜索意图识别方法,其特征在于,所述将所述搜索场景信息编码为场景特征向量包括:
将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量;所述场景维度包括如下的至少一种:位置维度,天气维度,用户行为维度,时间维度。


4.如权利要求3所述的搜索意图识别方法,其特征在于,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:
对位置维度下的经纬度信息进行GeoHash处理,对处理结果进行独热编码,得到经纬度特征向量。


5.如权利要求3所述的搜索意图识别方法,其特征在于,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:
将天气维度下的连续值类信息进行分桶离散化处理,对处理结果进行独热编码,得到天气特征向量。


6.如权利要求3所述的搜索意图识别方法,其特征在于,所述将所述场景信息按场景维度分别编码为与各场景维度对应的特征向量包括:
对用户行为维度下的用户行为序列,在用户行为序列中的用户行为个数不大于指定数量的情况下,选定该用户行为序列中的全部用户行为;在用户行为序列中的用户行为个数大于指定数量的情况下,以倒序方式选定用户行为序列中指定数量个用户行为;
获取各选定的用户行为所对应目标的搜索意图;
对获取的搜索意图进行特征嵌入处理,得到用户行为特征向量。


7.如权利要求6所述的搜索意图识别方法,其特征在于,所述指定数量是通过如下方式预先确定的:
对搜索日志中每条包含下单行为的用户行为序列,统计该包含下...

【专利技术属性】
技术研发人员:刘铭许鑫汪祖海王可吕梅于志安
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1