用于信息搜索的方法、电子设备和存储介质技术

技术编号：26970597 阅读：25 留言：0更新日期：2021-01-06 00:00

本公开的实施例涉及用于信息搜索的方法、电子设备和计算机存储介质，涉及信息处理领域。根据该方法，将搜索词转换为拼音字母，以生成第一拼音字母序列；在第一树中搜索第一词语集；如果在第一树中找到第一词语集，则将找到的第一词语集作为纠错候选词集；如果在第一树中未找到第一词语集，则在第二树中确定第二词语集作为纠错候选词集；基于多元语言模型，确定与纠错候选词集相关联的得分集；从纠错候选词集确定得分最高的第一纠错候选词；以及基于第一纠错候选词进行搜索，以得到搜索结果。由此，能够提高搜索的召回率。

全部详细技术资料下载

【技术实现步骤摘要】
用于信息搜索的方法、电子设备和存储介质
本公开的实施例总体涉及信息处理领域，具体涉及用于信息搜索的方法、电子设备和计算机存储介质。
技术介绍
随着电商技术的发展，越来越多的商品通过网络进行售卖，使得人们越来越多地通过网络搜索商品信息。在用户搜索商品时，用户输入的搜索词并不总是正确的，错误的查询词可能导致查询结果不符合预期或者是无结果。
技术实现思路
提供了一种用于信息搜索的方法、电子设备以及计算机存储介质，能够提高搜索的召回率。根据本公开的第一方面，提供了一种用于信息搜索的方法。该方法包括：将用户输入的搜索词转换为拼音字母，以生成第一拼音字母序列；在第一树中搜索第一词语集，第一词语集中的每个词语的拼音字母序列与第一拼音字母序列的至少一部分相匹配，第一树以词语为叶节点以及以拼音字母为非叶节点，从根节点到叶节点的路径上的非叶节点所表示的拼音字母构成叶节点所表示的词语的拼音字母序列，词语包括产品标识和品牌标识；如果确定在第一树中找到第一词语集，则将找到的第一词语集作为纠错候选词集；如果确定在第一树中未找到第一词语集，则在第二树中确定第二词语集作为纠错候选词集，第二词语集中的每个词语的拼音字母序列与第一拼音字母序列的至少一部分之间的编辑距离小于预定编辑距离，第二树中的节点以词语的拼音字母序列为节点检索值以及以词语为节点内容，第二树中的边表示与边相关联的两个节点的节点检索值之间的编辑距离；基于多元语言模型，确定与纠错候选词集相关联的得分集；从纠错候选词集确定得分最高的第一纠错候选词；以及基于第一纠错候选词进...

【技术保护点】
1.一种用于信息搜索的方法，包括：/n将用户输入的搜索词转换为拼音字母，以生成第一拼音字母序列；/n在第一树中搜索第一词语集，所述第一词语集中的每个词语的拼音字母序列与所述第一拼音字母序列的至少一部分相匹配，所述第一树以词语为叶节点以及以拼音字母为非叶节点，从根节点到叶节点的路径上的非叶节点所表示的拼音字母构成所述叶节点所表示的词语的拼音字母序列，所述词语包括产品标识和品牌标识；/n如果确定在所述第一树中找到所述第一词语集，则将找到的所述第一词语集作为纠错候选词集；/n如果确定在所述第一树中未找到所述第一词语集，则在第二树中确定第二词语集作为所述纠错候选词集，所述第二词语集中的每个词语的拼音字母序列与所述第一拼音字母序列的至少一部分之间的编辑距离小于预定编辑距离，所述第二树中的节点以词语的拼音字母序列为节点检索值以及以词语为节点内容，所述第二树中的边表示与所述边相关联的两个节点的节点检索值之间的编辑距离；/n基于多元语言模型，确定与所述纠错候选词集相关联的得分集；/n从所述纠错候选词集确定得分最高的第一纠错候选词；以及/n基于所述第一纠错候选词进行搜索，以得到搜索结果。/n

【技术特征摘要】
1.一种用于信息搜索的方法，包括：
将用户输入的搜索词转换为拼音字母，以生成第一拼音字母序列；
在第一树中搜索第一词语集，所述第一词语集中的每个词语的拼音字母序列与所述第一拼音字母序列的至少一部分相匹配，所述第一树以词语为叶节点以及以拼音字母为非叶节点，从根节点到叶节点的路径上的非叶节点所表示的拼音字母构成所述叶节点所表示的词语的拼音字母序列，所述词语包括产品标识和品牌标识；
如果确定在所述第一树中找到所述第一词语集，则将找到的所述第一词语集作为纠错候选词集；
如果确定在所述第一树中未找到所述第一词语集，则在第二树中确定第二词语集作为所述纠错候选词集，所述第二词语集中的每个词语的拼音字母序列与所述第一拼音字母序列的至少一部分之间的编辑距离小于预定编辑距离，所述第二树中的节点以词语的拼音字母序列为节点检索值以及以词语为节点内容，所述第二树中的边表示与所述边相关联的两个节点的节点检索值之间的编辑距离；
基于多元语言模型，确定与所述纠错候选词集相关联的得分集；
从所述纠错候选词集确定得分最高的第一纠错候选词；以及
基于所述第一纠错候选词进行搜索，以得到搜索结果。

2.根据权利要求1所述的方法，其中确定所述第二词语集包括：
确定所述第二树的根节点作为当前节点；
S1：确定所述第一拼音字母序列与所述当前节点的节点检索值之间的第一编辑距离；
S2：如果确定所述第一编辑距离小于所述预定编辑距离，则将所述当前节点的节点内容添加到所述第二词语集；以及
S3：遍历所述当前节点的子节点中与所述当前节点之间的编辑距离位于第一距离区间的子节点，作为所述当前节点，重复步骤S1-S3，所述第一距离区间大于或等于所述第一编辑距离与所述预定编辑距离之差且小于或等于所述第一编辑距离与所述预定编辑距离之和。

3.根据权利要求1所述的方法，其中确定所述得分集包括：
对于所述纠错候选词集中的每个纠错候选词，执行以下步骤：
基于训练样本集，确定所述纠错候选词中包括的每一个词项相对于前两个词项的条件概率；以及
基于所述纠错候选词中的每一个词项相对于前两个词项的条件概率，确定所述纠错候选词的得分。

4.根据权利要求3所述的方法，其中确定所述条件概率包括：
对于在训练样本集中未出现的、所述纠错候选词中包括的词项，通过KN平滑确定所述词项相对于前两个词项的条件概率。

5.根据权利要求1所述的方法，其中将用户输入的搜索词转换为拼音字母包...

【专利技术属性】
技术研发人员：杨涵，陈广顺，
申请(专利权)人：震坤行网络技术南京有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人