查询内容库构建方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:34047082 阅读:54 留言:0更新日期:2022-07-06 14:53
本发明专利技术提供的查询内容库构建方法、装置、电子设备及可读存储介质,方法包括:获得多个被点击内容、每个被点击内容对应的全部查询语句、以及每条查询语句对应的搜索频率值;根据搜索频率值,将每个被点击内容对应的部分查询语句确定为目标查询语句;其中,针对每个被点击内容,目标查询语句的搜索频率值大于被点击内容的其他查询语句的搜索频率值;根据每个被点击内容对应的目标查询语句,构建查询内容库。本发明专利技术实施例的查询语句库是由每个被点击内容对应的部分具有高搜索频率值的目标查询语句一起构建的,不仅缩减了查询语句库的规模,还提高了查询语句库的质量。还提高了查询语句库的质量。还提高了查询语句库的质量。

Query content library construction method, device, electronic device and readable storage medium

【技术实现步骤摘要】
查询内容库构建方法、装置、电子设备及可读存储介质


[0001]本专利技术涉及搜索
,具体而言,涉及一种查询内容库构建方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着互联网技术的发展,用户在很多场景下都需要用到搜索功能,搜索结果与用户输入的查询内容对应。
[0003]目前,用户在输入查询内容时,可以从查询内容库中检索出与该查询内容最相关的扩展性查询语句,该查询内容库是基于不同场景下用户的历史搜索行为所构建的,但是,由于用户的历史搜索行为繁多杂乱,导致现有的查询内容库中查询内容冗余度较高,而且存在许多搜索频率低、质量差的内容,导致搜索结果不准确,无法满足用户的实际需求。
[0004]因此,如何精简现有的查询内容库,提高搜索结果的准确性,是需要解决的技术问题。

技术实现思路

[0005]本专利技术的目的之一在于提供一种查询内容库构建方法、装置、电子设备及可读存储介质,其能够精简现有的查询内容库,提高搜索结果的准确性。
[0006]第一方面,本专利技术提供一种查询内容库构建方法,所述方法包括:获得多个被点击内容、每个被点击内容对应的全部查询语句、以及每条查询语句对应的搜索频率值;根据所述搜索频率值,将每个被点击内容对应的部分查询语句确定为目标查询语句;其中,针对每个被点击内容,所述目标查询语句的搜索频率值大于所述被点击内容的其他查询语句的搜索频率值;根据每个被点击内容对应的目标查询语句,构建查询内容库。
[0007]第二方面,本专利技术提供一种查询内容库构建装置,包括:获取模块,用于获得多个被点击内容、每个被点击内容对应的全部查询语句、以及每条查询语句对应的搜索频率值;确定模块,用于根据所述搜索频率值,将每个被点击内容对应的部分查询语句确定为目标查询语句;其中,针对每个被点击内容,所述目标查询语句的搜索频率值大于所述被点击内容的其他查询语句的搜索频率值;构建模块,用于根据每个被点击内容对应的目标查询语句,构建查询内容库。
[0008]第三方面,本专利技术提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的方法。
[0009]第四方面,本专利技术提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
[0010]本专利技术提供的一种查询内容库构建方法、装置、电子设备及可读存储介质,方法包括:获得多个被点击内容、每个被点击内容对应的全部查询语句、以及每条查询语句对应的搜索频率值;根据所述搜索频率值,将每个被点击内容对应的部分查询语句确定为目标查
询语句;其中,针对每个被点击内容,所述目标查询语句的搜索频率值大于所述被点击内容的其他查询语句的搜索频率值;根据每个被点击内容对应的目标查询语句,构建查询内容库。本专利技术实施例在构建查询内容库之前,先确定每个被点击内容对应的全部查询内容的搜索频率值,可以理解的是,搜索频率值越大,表征该查询内容对用户越有用,质量越高,因此,本专利技术实施例针对每个被点击内容,统计将它召回的全部查询内容各自的搜索频率值,然后从全部查询内容中选取目标查询语句,这样一来,由每个被点击内容对应的具有高搜索频率值的目标查询语句一起构建查询语句库,不仅缩减了查询语句库的规模,还提高了查询语句库的质量。
附图说明
[0011]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0012]图1为本专利技术实施例提供的一种场景示意图;
[0013]图2为本专利技术实施例提供的电子设备的结构示意图;
[0014]图3为本专利技术实施例提供的查询内容库构建方法的流程示意图;
[0015]图4为本专利技术实施例提供的另一种查询语句库构建方法的流程示意图之一;
[0016]图5为本专利技术实施例提供的另一种查询内容库构建方法的流程示意图之二;
[0017]图6为本专利技术实施例提供的查询内容库构建装置的功能模块图。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0019]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0021]在本专利技术的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0022]此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0023]需要说明的是,在不冲突的情况下,本专利技术的实施例中的特征可以相互结合。
[0024]请参考图1,图1为本专利技术实施例提供的一种场景示意图,在该场景中,终端可以与服务器之间通信连接,查询内容库可以存储在云端,还可以存储在服务器中,此处不作限定。
[0025]其中,终端可以但不限于是:但不限于智能手机、平板电脑、便携计算机、穿戴式移动终端等等。服务器可以是独立的服务器,还可以是多个服务器组成的服务器集群,此处不作限定。
[0026]用户可以在终端的搜索区域内输入任意的一个查询内容(Quary),例终端将获得的Quary发送给服务器,并由服务器从查询内容库(Quary库)中找出N个与用于输入的Quary最相关的召回结果(Target Query)。
[0027]例如,用户在搜索界面输入某个小说名A,终端将获得的小说名A发送给服务器,服务器根据获得的小说名A,从查询内容库中进行检索,得到与小说名A最相关的目标查询内容,例如A最新章节、A电视剧观看、如何评价A等多个目标查询内容,因为Query库内维护的都是常见的搜索内容或常见问题,并都对应着高质量的召回内容或答案,所以通过现有的查询改写技术帮助用户检索出最相关的结果。
[0028]然而现有的查询内容库是基于不同场景下用户的历史搜索行为所构建的,由于用户的历史搜索行为繁多杂本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种查询内容库构建方法,其特征在于,所述方法包括:获得多个被点击内容、每个被点击内容对应的全部查询语句、以及每条查询语句对应的搜索频率值;根据所述搜索频率值,将每个被点击内容对应的部分查询语句确定为目标查询语句;其中,针对每个被点击内容,所述目标查询语句的搜索频率值大于所述被点击内容的其他查询语句的搜索频率值;根据每个被点击内容对应的目标查询语句,构建查询内容库。2.根据权利要求1所述的查询内容库构建方法,其特征在于,根据所述搜索频率值,将每个被点击内容对应的部分查询语句确定为目标查询语句,包括:根据预设的多个候选内容长度区间,将每个被点击内容对应的全部查询语句划分成多个语句组;在每个被点击内容对应的每个语句组中,根据所述搜索频率值,确定出预设数量个所述目标查询语句。3.根据权利要求1所述的查询内容库构建方法,其特征在于,根据所述搜索频率值,从每个被点击内容对应的全部查询语句中确定出目标查询语句,包括:根据预设的多个候选内容长度区间,将每个被点击内容对应的全部查询语句划分成多个语句组;根据所述多个候选内容长度区间各自的语句覆盖度,确定每个语句组对应的目标查询语句的数量;在每个被点击内容的每个语句组中,根据所述搜索频率值、以及所述目标查询语句的数量,确定出所述目标查询语句。4.根据权利要求1所述的查询内容库构建方法,其特征在于,根据所述搜索频率值,从每个被点击内容对应的全部查询语句中确定出目标查询语句,包括:将每个被点击内容对应的全部查询语句中,具有最大搜索频率值的一个查询语句,确定为目标查询语句。5.根据权利要求1所述的查询内容库构建方法,其特征在于,所述方法还包括:获取待查询内容;基于预先训练的向量编码模型、以及所述查询内容库,确定与所述待查询内容匹配的召回结果,其中,所述向量编码模型是基于训练样本、以及所述训练样本对应的正样本、负样本所训练得到的。6.根据权利要求5所述的查询内容库构建方法,其特征在于,所述向量编码模型是通过如下方式训练方式获得的:获得多组训练样本;每组训练样本中包含查询语句样本、所述查询语句样本对应的正样本和负样本;通过所述查询语句样本、所述查询语句样本对应的正样本和负样本,对待训练...

【专利技术属性】
技术研发人员:王哲
申请(专利权)人:上海喜马拉雅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1