搜索信息处理方法及系统、服务器、计算机可读介质技术方案

技术编号:26171111 阅读:26 留言:0更新日期:2020-10-31 13:41
本公开提供了一种搜索信息处理方法,包括:获取用户当前输入的第一搜索信息,以及所述用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息;对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词;对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体;针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,所述目标实体为所述指代词所指代的对象。本公开还提供了搜索信息处理系统、服务器及计算机可读介质。

Search information processing method and system, server and computer readable medium

【技术实现步骤摘要】
搜索信息处理方法及系统、服务器、计算机可读介质
本公开实施例涉及语音交互
,特别涉及搜索信息处理方法及系统、服务器、计算机可读介质。
技术介绍
语音是最简单、最自然的交互方式,也是人类沟通最基本的方式。随着语音识别技术的发展,语音识别技术的应用领域越来越广,使用语音发起搜索的用户也越来越多。在语音搜索场景下,用户更自然更习惯地会使用指代词对上文搜索内容或搜索结果继续发起追问,针对当前搜索询问(Query)中出现指代词的情况,搜索引擎通常不会对当前搜索询问中的指代词做理解,而是直接针对该当前搜索询问进行搜索。
技术实现思路
本公开实施例提供一种搜索信息处理方法及系统、服务器、计算机可读介质。第一方面,本公开实施例提供一种搜索信息处理方法,该搜索信息处理方法包括:获取用户当前输入的第一搜索信息,以及所述用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息;对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词;对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体;针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,所述目标实体为所述指代词所指代的对象。在一些实施例中,所述第二搜索信息的数量为至少一个,所述基于预设的候选实体评价模型,计算该候选实体与所述代词的匹配概率包括:针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的至少一种;针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率。在一些实施例中,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:针对每个候选实体,根据该候选实体所在的第二搜索信息中每个词语对应的第一词向量,生成该候选实体所在的第二搜索信息对应的第一复合词向量;针对每个候选实体,根据所述第一搜索信息中每个词语对应的第二词向量,生成所述第一搜索信息对应的第二复合词向量;针对每个候选实体,计算该候选实体对应的所述第一复合词向量和所述第二复合词向量之间的相似度,第一复合词向量和第二复合词向量之间的相似度为该候选实体所在的第二搜索信息和所述第一搜索信息之间的相似度。在一些实施例中,所述计算所述第一复合词向量和所述第二复合词向量之间的相似度包括:针对每个候选实体,计算该候选实体对应的所述第一复合词向量和所述第二复合词向量之间的距离;针对每个候选实体,对所述距离进行归一化处理,得到所述距离对应的归一化结果,所述归一化结果为该候选实体对应的所述相似度。在一些实施例中,所述评价参数包括该候选实体对应的特定属性参数,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:针对每个候选实体,根据预设的知识图谱,确定该候选实体对应的特定属性;针对每个候选实体,基于该候选实体对应的特定属性,根据预设的特定属性与特定属性参数的对应关系,确定出该候选实体对应的特定属性参数。在一些实施例中,所述评价参数包括所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:针对每个候选实体,获取该候选实体对应的属性类型;针对每个候选实体,根据预设的指代词、实体的属性类型以及预设匹配度的映射关系,确定出所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度。在一些实施例中,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数和所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度;所述针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率包括:将该候选实体对应的所述相似度进行归一化处理,得到所述相似度对应的归一化结果;将该候选实体对应的所述次数进行归一化处理,得到所述次数对应的归一化结果;将该候选实体对应的所述特定属性参数进行归一化处理,得到所述特定属性参数对应的归一化结果;将该候选实体对应的所述匹配度进行归一化处理,得到所述匹配度对应的归一化结果;将所述相似度对应的归一化结果、所述次数对应的归一化结果、所述特定属性参数对应的归一化结果和所述匹配度对应的归一化结果进行相加处理,得到该候选实体与所述第一搜索信息中的指代词的匹配概率。在一些实施例中,所述根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体包括:根据至少一个候选实体对应的匹配概率,确定出匹配概率最大的候选实体;判断该匹配概率最大的候选实体对应的匹配概率是否大于预设阈值;若判断出该匹配概率最大的候选实体对应的匹配概率大于预设阈值时,将该匹配概率最大的候选实体作为所述目标实体。在一些实施例中,所述对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体包括:根据所述第二搜索信息和预设的词向量模型,得到所述第二搜索信息中的每个词语所对应的第一词向量;依次将所述第二搜索信息中的每个词语所对应的第一词向量输入预设的长短期记忆网络模型,得到每个第一词向量所对应的第一输出结果;依次将每个第一词向量所对应的第一输出结果输入预设的条件随机场模型,得到每个第一输出结果对应的最优标签;根据每个第一输出结果对应的最优标签,确定出第二搜索信息中的候选实体。在一些实施例中,所述对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词包括:根据所述第一搜索信息和预设的词向量模型,得到所述第一搜索信息中的每个词语所对应的第二词向量;依次将所述第一搜索信息中的每个词语所对应的第二词向量输入预设的长短期记忆网络模型,得到每个第二词向量所对应的第二输出结果;依次将每个第二词向量所对应的第二输出结果输入预设的条件随机场模型,得到每个第二输出结果对应的最优标签;根据每个第二输出结果对应的最优标签,确定出第一搜索信息中的指代词。在一些实施例中,所述根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体本文档来自技高网...

【技术保护点】
1.一种搜索信息处理方法,包括:/n获取用户当前输入的第一搜索信息,以及所述用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息;/n对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词;/n对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体;/n针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;/n根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,所述目标实体为所述指代词所指代的对象。/n

【技术特征摘要】
1.一种搜索信息处理方法,包括:
获取用户当前输入的第一搜索信息,以及所述用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息;
对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词;
对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体;
针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;
根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,所述目标实体为所述指代词所指代的对象。


2.根据权利要求1所述的搜索信息处理方法,其中,所述第二搜索信息的数量为至少一个,所述基于预设的候选实体评价模型,计算该候选实体与所述代词的匹配概率包括:
针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的至少一种;
针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率。


3.根据权利要求2所述的搜索信息处理方法,其中,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:
针对每个候选实体,根据该候选实体所在的第二搜索信息中每个词语对应的第一词向量,生成该候选实体所在的第二搜索信息对应的第一复合词向量;
针对每个候选实体,根据所述第一搜索信息中每个词语对应的第二词向量,生成所述第一搜索信息对应的第二复合词向量;
针对每个候选实体,计算该候选实体对应的所述第一复合词向量和所述第二复合词向量之间的相似度,第一复合词向量和第二复合词向量之间的相似度为该候选实体所在的第二搜索信息和所述第一搜索信息之间的相似度。


4.根据权利要求3所述的搜索信息处理方法,其中,所述计算所述第一复合词向量和所述第二复合词向量之间的相似度包括:
针对每个候选实体,计算该候选实体对应的所述第一复合词向量和所述第二复合词向量之间的距离;
针对每个候选实体,对所述距离进行归一化处理,得到所述距离对应的归一化结果,所述归一化结果为该候选实体对应的所述相似度。


5.根据权利要求2所述的搜索信息处理方法,其中,所述评价参数包括该候选实体对应的特定属性参数,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:
针对每个候选实体,根据预设的知识图谱,确定该候选实体对应的特定属性;
针对每个候选实体,基于该候选实体对应的特定属性,根据预设的特定属性与特定属性参数的对应关系,确定出该候选实体对应的特定属性参数。


6.根据权利要求2所述的搜索信息处理方法,其中,所述评价参数包括所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:
针对每个候选实体,获取该候选实体对应的属性类型;
针对每个候选实体,根据预设的指代词、实体的属性类型以及预设匹配度的映射关系,确定出所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度。


7.根据权利要求2所述的搜索信息处理方法,其中,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数和所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度;
所述针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率包括:
将该候选实体对应的所述相似度进行归一化处理,得到所述相似度对应的归一化结果;
将该候选实体对应的所述次数进行归一化处理,得到所述次数对应的归一化结果;
将该候选实体对应的所述特定属性参数进行归一化处理,得到所述特定属性参数对应的归一化结果;
将该候选实体对应的所述匹配度进行归一化处理,得到所述匹配度对应的归一化结果;
将所述相似度对应的归一化结果、所述次数对应的归一化结果、所述特定属性参数对应的归一化结果和所述匹配度对应的归一化结果进行相加处理,得到该候选实体与所述第一搜索信息中的指代词的匹配概率。


8.根据权利要求1所述的搜索信息处理方法,其中,所述根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体包括:
根据至少一个候选实体对应的匹配概率,确定出匹配概率最大的候选实体;
判断该匹配概率最大的候选实体对应的匹配概率是否大于预设阈值;
若判断出该匹配概率最大的候选实体对应的匹配概率大于预设阈值时,将该匹配概率最大的候选实体作为所述目标实体。


9.根据权利要求1所述的搜索信息处理方法,其中,所述对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体包括:
根据所述第二搜索信息和预设的词向量模型,得到所述第二搜索信息中的每个词语所对应的第一词向量;
依次将所述第二搜索信息中的每个词语所对应的第一词向量输入预设的长短期记忆网络模型,得到每个第一词向量所对应的第一输出结果;
依次将每个第一词向量所对应的第一输出结果输入预设的条件随机...

【专利技术属性】
技术研发人员:朱群燕张羽翔李裕东
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1