信息搜索方法、装置、终端设备及计算机可读存储介质制造方法及图纸

技术编号:33286467 阅读:10 留言:0更新日期:2022-04-30 23:54
本申请适用于信息处理技术领域,提供了一种信息搜索方法、装置、终端设备及计算机可读存储介质,包括:提取用户输入的搜索问题中的第一关键词;根据所述第一关键词从预设知识库中获取K组候选问答对,所述K为正整数,每组候选问答对中包括一个问题和一个答案;分别计算所述搜索问题与所述K组候选问答对中每个问题之间的问题相似度;根据所述问题相似度从所述K组候选问答对中确定出目标问答对;将所述目标问答对中的答案确定为所述搜索问题的目标答案。通过上述方法,可以保证信息搜索准确率的基础上,有效提高信息搜索的效率。有效提高信息搜索的效率。有效提高信息搜索的效率。

【技术实现步骤摘要】
信息搜索方法、装置、终端设备及计算机可读存储介质


[0001]本申请属于信息处理
,尤其涉及一种信息搜索方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]在很多线上平台,都为用户提供了智能客服的功能。通过该功能,用户输入搜索问题,平台系统即可自动为用户推荐相关的回答。现有智能客服的实现方法中,通常是比较用户搜索问题与候选问题之间的相似度,将相似度较大的候选问题对应的回答推荐给用户。但是往往候选问题的数量较大,现有的这种信息搜索方式,需要分别计算搜索问题与每个候选问题之间的相似度,数据处理量较大,导致智能客服的应答时间较长,降低了用户的体验度。

技术实现思路

[0003]本申请实施例提供了一种信息搜索方法、装置、终端设备及计算机可读存储介质,可以保证信息搜索准确率的基础上,有效提高信息搜索的效率。
[0004]第一方面,本申请实施例提供了一种信息搜索方法,包括:
[0005]提取用户输入的搜索问题中的第一关键词;
[0006]根据所述第一关键词从预设知识库中获取K组候选问答对,所述K为正整数,每组候选问答对中包括一个问题和一个答案;
[0007]分别计算所述搜索问题与所述K组候选问答对中每个问题之间的问题相似度;
[0008]根据所述问题相似度从所述K组候选问答对中确定出目标问答对;
[0009]将所述目标问答对中的答案确定为所述搜索问题的目标答案。
[0010]本申请实施例中,先根据用户的搜索问题的关键词从预设知识库中筛选出候选问答对,再计算搜索问题与每个候选问答对中问题之间的相似度。相当于根据关键词进行粗筛选,再根据问题相似度进一步细筛选。由于问题之间的相似度的计算方式比关键词匹配的计算方式更为复杂,因此,通过上述方法,可以通过关键词筛选的步骤过滤掉不匹配的候选问答对,大大减少了细筛选的数据量,进而有效提高了信息搜索的效率。另外,由于上述方法中进行了两次筛选,可以有效保证信息搜索的准确率。
[0011]在第一方面的一种可能的实现方式中,所述预设知识库中包括M组预设问答对,每组预设问答对中包括一个问题和一个答案,且每组预设问答对中的问题对应一个关键词列表,M为大于K的整数;
[0012]所述根据所述第一关键词从预设知识库中获取K组候选问答对,包括:
[0013]计算每组所述预设问答对中问题对应的关键词列表与所述第一关键词之间的匹配值;
[0014]根据所述匹配值从大到小的顺序对所述预设问答对排序,获得第一序列;
[0015]将所述第一序列中前K组预设问答对确定为所述候选问答对。
[0016]在第一方面的一种可能的实现方式中,所述分别计算所述搜索问题与所述K组候选问答对中每个问题之间的问题相似度,包括:
[0017]对于每组所述候选问答对,计算所述搜索问题的第一关键词与所述候选问答对中问题对应的关键词列表之间的关键词相似度;
[0018]计算所述搜索问题与所述候选问答对中问题之间的语义相似度;
[0019]根据所述关键词相似度和所述语义相似度计算所述搜索问题与所述候选问答对中问题之间的问题相似度。
[0020]在第一方面的一种可能的实现方式中,所述计算所述搜索问题与所述候选问答对中问题之间的语义相似度,包括:
[0021]根据训练后的预设模型获取所述搜索问题的第一表示向量;
[0022]根据所述预设模型获取所述候选问答对中问题的第二表示向量;
[0023]计算所述第一表示向量和所述第二表示向量之间的向量相似度;
[0024]将所述向量相似度确定为所述语义相似度。
[0025]在第一方面的一种可能的实现方式中,所述计算所述搜索问题的第一关键词与所述候选问答对中问题对应的关键词列表之间的关键词相似度,包括:
[0026]通过公式计算所述关键词相似度,其中,A表示所述第一关键词的集合,B表示所述候选问答对中问题对应的关键词列表。
[0027]在第一方面的一种可能的实现方式中,所述根据所述关键词相似度和所述语义相似度计算所述搜索问题与所述候选问答对中问题之间的问题相似度,包括:
[0028]将所述关键词相似度和所述语义相似度加权求和,获得所述搜索问题与所述候选问答对中问题之间的所述问题相似度。
[0029]在第一方面的一种可能的实现方式中,在根据所述第一关键词从预设知识库中获取K组候选问答对之前,所述方法还包括:
[0030]利用训练语料训练所述预设模型,得到训练后的所述预设模型;
[0031]根据所述预设模型获取历史问答对中问题的第三表示向量;
[0032]生成所述历史问答对中问题的关键词列表;
[0033]根据所述历史问答对中问题的第三表示向量和关键词列表构建所述预设知识库。
[0034]在第一方面的一种可能的实现方式中,在利用训练语料训练所述预设模型,得到训练后的所述预设模型之前,所述方法还包括:
[0035]为所述历史问答对中的问题分别生成多个相似问题和多个不相似问题;
[0036]根据所述相似问题和所述不相似问题生成所述训练语料。
[0037]第二方面,本申请实施例提供了一种信息搜索装置,包括:
[0038]关键词提取单元,用于提取用户输入的搜索问题中的第一关键词;
[0039]问答对获取单元,用于根据所述第一关键词从预设知识库中获取K组候选问答对,所述K为正整数,每组候选问答对中包括一个问题和一个答案;
[0040]相似度计算单元,用于分别计算所述搜索问题与所述K组候选问答对中每个问题之间的问题相似度;
[0041]问答对筛选单元,用于根据所述问题相似度从所述K组候选问答对中确定出目标
等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0057]在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
[0058]首先介绍预设知识库的构建过程。
[0059]预设知识库中包括M组预设问答对,每组预设问答对中包括一个问题和一个答案,且每组预设问答对中的问题对应一个关键词列表,M为大于K的整数。
[0060]其中,预设问答对可以是系统中的历史问答对,也可以是人为预先设定的,还可以既包括历史问答对、又包括人为添加的问答对。
[0061]具体的,预设知识库的构建过程包括:
[0062]I、利用训练语料训练所述预设模型,得到训练后的所述预设模型。
[0063]本申请实施例中的预设模型用于将句子生成表示向量。预设模型可以采用如SentenceBert、w本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息搜索方法,其特征在于,包括:提取用户输入的搜索问题中的第一关键词;根据所述第一关键词从预设知识库中获取K组候选问答对,所述K为正整数,每组候选问答对中包括一个问题和一个答案;分别计算所述搜索问题与所述K组候选问答对中每个问题之间的问题相似度;根据所述问题相似度从所述K组候选问答对中确定出目标问答对;将所述目标问答对中的答案确定为所述搜索问题的目标答案。2.如权利要求1所述的信息搜索方法,其特征在于,所述预设知识库中包括M组预设问答对,每组预设问答对中包括一个问题和一个答案,且每组预设问答对中的问题对应一个关键词列表,M为大于K的整数;所述根据所述第一关键词从预设知识库中获取K组候选问答对,包括:计算每组所述预设问答对中问题对应的关键词列表与所述第一关键词之间的匹配值;根据所述匹配值从大到小的顺序对所述预设问答对排序,获得第一序列;将所述第一序列中前K组预设问答对确定为所述候选问答对。3.如权利要求2所述的信息搜索方法,其特征在于,所述分别计算所述搜索问题与所述K组候选问答对中每个问题之间的问题相似度,包括:对于每组所述候选问答对,计算所述搜索问题的第一关键词与所述候选问答对中问题对应的关键词列表之间的关键词相似度;计算所述搜索问题与所述候选问答对中问题之间的语义相似度;根据所述关键词相似度和所述语义相似度计算所述搜索问题与所述候选问答对中问题之间的问题相似度。4.如权利要求3所述的信息搜索方法,其特征在于,所述计算所述搜索问题与所述候选问答对中问题之间的语义相似度,包括:根据训练后的预设模型获取所述搜索问题的第一表示向量;根据所述预设模型获取所述候选问答对中问题的第二表示向量;计算所述第一表示向量和所述第二表示向量之间的向量相似度;...

【专利技术属性】
技术研发人员:赵洋陈龙刘迪蔡欣仪
申请(专利权)人:深圳价值在线信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1