一种基于多意图判断的多路召回搜索重排方法、系统、计算机设备及计算机可读存储介质技术方案

技术编号:34551643 阅读:15 留言:0更新日期:2022-08-17 12:36
本发明专利技术公开了一种基于多意图判断的多路召回搜索重排方法、系统、计算机设备及计算机可读存储介质,该方法包括以下步骤:从服务商数据中采集与用户历史搜索数据意图相似的语料数据,将语料数据作为训练数据,利用NLP多标签文本分类算法训练得到基于服务商数据的意图识别分类器;利用意图识别分类器预测获取与用户搜索查询相对应的前N个意图类别,进行多路数据召回;利用LTR排序模型对多路召回的搜索结果进行分组或合并混排并返回给搜索前端。本发明专利技术在召回阶段、减少了粗召回可能需要计算的数据总量,提升粗排性能,极大地丰富了结果集中的数据类别,多样化用户的搜索结果,为用户提供一个类似于解决方案的搜索结果。户提供一个类似于解决方案的搜索结果。户提供一个类似于解决方案的搜索结果。

【技术实现步骤摘要】
一种基于多意图判断的多路召回搜索重排方法、系统、计算机设备及计算机可读存储介质


[0001]本专利技术涉及数据挖掘
,尤其涉及一种基于多意图判断的多路召回搜索重排方法、系统、计算机设备及计算机可读存储介质。

技术介绍

[0002]搜索的特点是目的明确,搜索的准确也就显的非常重要。在搜索服务的整个处理链路中,正确理解用户搜索的query,了解用户真实的想要查找的内容,能够保证在海量数据中有更好的粗排结果,同时,在高质量的粗召回结果的前提下,能极大的提高精排效果,从而协助用户找到满足用户的数据。
[0003]随着搜索技术的发展,特别是图谱、阅读理解等技术在搜索场景中的应用,用户甚至能够通过搜索引擎,直接从海量的数据中,直接获取该次搜索想要的答案。也就是说引擎以现有可能的努力,极大的提高搜索TOP 1的质量;如果用户已经在搜索的TOP 1能找到自己的结果,那么对于TOP 1下面大量的展示空间如何使用,如何给到用户更多的有用信息,是搜索引擎应该思考的一个问题。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种基于多意图判断的多路召回搜索重排方法、系统、计算机设备及计算机可读存储介质,用以解决上述
技术介绍
中存在的问题。
[0005]一种基于多意图判断的多路召回搜索重排方法,具体包括以下步骤:
[0006]S1,从服务商数据中采集与用户历史搜索数据意图相似的语料数据,将语料数据作为训练数据,利用NLP多标签文本分类算法训练得到基于服务商数据的意图识别分类器;
[0007]S2,利用意图识别分类器预测获取与用户搜索查询相对应的前N个意图类别,进行多路数据召回;
[0008]S3,利用LTR排序模型对多路召回的搜索结果进行分组排序或合并混排,并将排序结果返回给搜索前端。
[0009]优选地,步骤S1中从服务商数据中采集与用户历史搜索数据意图相似的语料数据的具体步骤为:
[0010]将服务商数据按照不同的查询意图进行分类,得到意图类别集合;
[0011]根据用户历史搜索数据从各个意图类别的数据中提取出与其查询意图相似的文本信息及每个文本所属的类别标签;
[0012]将相似文本数据集合中的文本向量化,并结合每个文本所属的类别标签,可以得到与用户历史搜索数据意图相似的语料数据。
[0013]优选地,步骤S1中将语料数据作为训练数据,利用NLP多标签文本分类算法训练得到基于服务商数据的意图识别分类器的具体步骤为:
[0014]将语料数据分为训练集、验证集和测试集;
[0015]将训练集和验证集的数据作为NLP多标签文本分类算法的训练数据,进行意图识别分类器的训练,训练完成后,利用测试集的数据测试意图识别分类器的意图识别效果,若意图识别分类器的意图识别准确率未达到设定的正确率,则重新调整训练数据以及固定分类器的权重值,进行重新训练和测试,直至满足要求为止。
[0016]优选地,步骤S2中利用意图识别分类器预测获取与用户搜索查询相对应的前N个意图类别的具体步骤为:
[0017]将用户搜索查询进行向量化处理;
[0018]将用户搜索查询向量输入训练好的意图识别分类器,预测得到与用户搜索查询相对应的所有的意图类别及每个意图类别的置信度;
[0019]按照置信度大小,从所有预测到的意图类别中提取出前N个意图类别;
[0020]根据提取出的前N个意图类别构建对应的搜索召回语句,从搜索引擎中召回对应的搜索结果。
[0021]优选地,所述搜索引擎为Elasticserch或Solr。
[0022]优选地,步骤S3中利用LTR排序模型对多路召回的搜索结果进行分组排序时,按照意图类别对多路召回的搜索结果进行分组,然后利用LTR排序模型以每组数据所属意图类别的置信度高低为组顺序进行排序,并将排序结果返回给搜索前端进行分组展示。
[0023]优选地,步骤S3中利用LTR排序模型对多路召回的搜索结果进行合并混排时,将多路召回的搜索结果中每类数据的意图类别置信度及其搜索结果的BM25分值、标题、PageRank都可作为特征,输入到LTR排序模型中,得到混排顺序,并将混排顺序结果返回给搜索前端进行展示。
[0024]一种基于多意图判断的多路召回搜索重排系统,包括:
[0025]多意图识别模块,用于将从服务商数据中采集到的与用户历史搜索数据意图相似的语料数据作为训练数据,训练得到基于服务商数据的意图识别分类器,从而利用意图识别分类器预测得到与用户搜索查询相对应的前N个意图类别;
[0026]多路数据召回模块,用于根据提取出的前N个意图类别从搜索引擎中召回对应的搜索结果;
[0027]搜索重排模块,用于利用LTR排序模型对多路召回的搜索结果进行分组排序或合并混排,并将排序结果返回给搜索前端。
[0028]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
[0029]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
[0030]本专利技术的有益效果是:
[0031]本专利技术的方法基于大意图分组召回服务商数据,在召回阶段、减少了粗召回可能需要计算的数据总量,提升粗排性能。又因为,召回的数据组,是用户关心的数据组,会极大的保证原有效果不下降;同时应为使用多路召回的方式,会极大的涵盖各数据组中的数据,能极大的丰富结果集中的数据类别,多样化用户的搜索结果,为用户提供一个类似于解决方案的搜索结果。
附图说明
[0032]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0033]图1是利用从服务商数据中采集得到的语料数据训练意图识别分类器的流程图。
[0034]图2是利用意图识别分类器预测意图类别以进行多路数据召回并进行展示的流程图。
[0035]图3是本专利技术的方法流程图。
具体实施方式
[0036]为了更好的理解本专利技术的技术方案,下面结合附图对本专利技术实施例进行详细描述。
[0037]应当明确,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0038]下面通过具体的实施例并结合附图对本申请做进一步的详细描述。
[0039]在理解用户输入query时,发现用户的意图其实很多时候并不单一,或者说信息的答案其实是多方面组成的,更像一个方案。比如“去XX地旅游”这个query,用户目的地是XX地,想要做的事情是旅游。相关联的,其附带信息有很多,比如攻略、酒店、交通方式、出行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多意图判断的多路召回搜索重排方法,其特征在于多意图识别召回,具体包括以下步骤:S1,从服务商数据中采集与用户历史搜索数据意图相似的语料数据,将语料数据作为训练数据,利用NLP多标签文本分类算法训练得到基于服务商数据的意图识别分类器;S2,利用意图识别分类器预测获取与用户搜索查询相对应的前N个意图类别,进行多路数据召回;S3,利用LTR排序模型对多路召回的搜索结果进行分组排序或合并混排,并将排序结果返回给搜索前端。2.根据权利要求1所述的基于多意图判断的多路召回搜索重排方法,其特征在于,步骤S1中从服务商数据中采集与用户历史搜索数据意图相似的语料数据的具体步骤为:将服务商数据按照不同的查询意图进行分类,得到意图类别集合;根据用户历史搜索数据从各个意图类别的数据中提取出与其查询意图相似的文本信息及每个文本所属的类别标签;将相似文本数据集合中的文本向量化,并结合每个文本所属的类别标签,可以得到与用户历史搜索数据意图相似的语料数据。3.根据权利要求1所述的基于多意图判断的多路召回搜索重排方法,其特征在于,步骤S1中将语料数据作为训练数据,利用NLP多标签文本分类算法训练得到基于服务商数据的意图识别分类器的具体步骤为:将语料数据分为训练集、验证集和测试集;将训练集和验证集的数据作为NLP多标签文本分类算法的训练数据,进行意图识别分类器的训练,训练完成后,利用测试集的数据测试意图识别分类器的意图识别效果,若意图识别分类器的意图识别准确率未达到设定的正确率,则重新调整训练数据以及固定分类器的权重值,进行重新训练和测试,直至满足要求为止。4.根据权利要求1所述的基于多意图判断的多路召回搜索重排方法,其特征在于,步骤S2中利用意图识别分类器预测获取与用户搜索查询相对应的前N个意图类别的具体步骤为:将用户搜索查询进行向量化处理;将用户搜索查询向量输入训练好的意图识别分类器,预测得到与用户搜索查询相对应的所有的意图类别及每个意图类别的置信度;按照置信度大小,从所有预测到的意图类...

【专利技术属性】
技术研发人员:周明星闫湘洲杨涵李通政于敬陈运文纪达麒
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1