用于信息搜索的方法、电子设备和存储介质技术

技术编号:26970597 阅读:19 留言:0更新日期:2021-01-06 00:00
本公开的实施例涉及用于信息搜索的方法、电子设备和计算机存储介质,涉及信息处理领域。根据该方法,将搜索词转换为拼音字母,以生成第一拼音字母序列;在第一树中搜索第一词语集;如果在第一树中找到第一词语集,则将找到的第一词语集作为纠错候选词集;如果在第一树中未找到第一词语集,则在第二树中确定第二词语集作为纠错候选词集;基于多元语言模型,确定与纠错候选词集相关联的得分集;从纠错候选词集确定得分最高的第一纠错候选词;以及基于第一纠错候选词进行搜索,以得到搜索结果。由此,能够提高搜索的召回率。

【技术实现步骤摘要】
用于信息搜索的方法、电子设备和存储介质
本公开的实施例总体涉及信息处理领域,具体涉及用于信息搜索的方法、电子设备和计算机存储介质。
技术介绍
随着电商技术的发展,越来越多的商品通过网络进行售卖,使得人们越来越多地通过网络搜索商品信息。在用户搜索商品时,用户输入的搜索词并不总是正确的,错误的查询词可能导致查询结果不符合预期或者是无结果。
技术实现思路
提供了一种用于信息搜索的方法、电子设备以及计算机存储介质,能够提高搜索的召回率。根据本公开的第一方面,提供了一种用于信息搜索的方法。该方法包括:将用户输入的搜索词转换为拼音字母,以生成第一拼音字母序列;在第一树中搜索第一词语集,第一词语集中的每个词语的拼音字母序列与第一拼音字母序列的至少一部分相匹配,第一树以词语为叶节点以及以拼音字母为非叶节点,从根节点到叶节点的路径上的非叶节点所表示的拼音字母构成叶节点所表示的词语的拼音字母序列,词语包括产品标识和品牌标识;如果确定在第一树中找到第一词语集,则将找到的第一词语集作为纠错候选词集;如果确定在第一树中未找到第一词语集,则在第二树中确定第二词语集作为纠错候选词集,第二词语集中的每个词语的拼音字母序列与第一拼音字母序列的至少一部分之间的编辑距离小于预定编辑距离,第二树中的节点以词语的拼音字母序列为节点检索值以及以词语为节点内容,第二树中的边表示与边相关联的两个节点的节点检索值之间的编辑距离;基于多元语言模型,确定与纠错候选词集相关联的得分集;从纠错候选词集确定得分最高的第一纠错候选词;以及基于第一纠错候选词进行搜索,以得到搜索结果。根据本公开的第二方面,提供了一种电子设备。该电子设备包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据第一方面所述的方法。在本公开的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。由此,本公开的方案能够提高搜索的召回率。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。图1是根据本公开的实施例的信息处理环境100的示意图。图2是根据本公开的实施例的用于信息搜索的方法200的示意图。图3是根据本公开的实施例的用于确定第二词语集的方法300的示意图。图4是根据本公开的实施例的用于确定得分集的方法400的示意图。图5是根据本公开的实施例的用于基于第一纠错候选词进行搜索的方法500的示意图。图6是根据本公开的实施例的第一树600的示意框图。图7是根据本公开的实施例的第二树700的示意框图。图8是根据本公开的实施例的第三树800的示意框图。图9是用来实现本公开实施例的用于信息搜索的方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。如上所述,在用户搜索商品时,用户输入的搜索词并不总是正确的,错误的查询词可能导致查询结果不符合预期或者是无结果。为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于信息搜索的方案。在该方案中,将用户输入的搜索词转换为拼音字母,以生成第一拼音字母序列;在第一树中搜索第一词语集,第一词语集中的每个词语的拼音字母序列与第一拼音字母序列的至少一部分相匹配,第一树以词语为叶节点以及以拼音字母为非叶节点,从根节点到叶节点的路径上的非叶节点所表示的拼音字母构成叶节点所表示的词语的拼音字母序列,词语包括产品标识和品牌标识;如果确定在第一树中找到第一词语集,则将找到的第一词语集作为纠错候选词集;如果确定在第一树中未找到第一词语集,则在第二树中确定第二词语集作为纠错候选词集,第二词语集中的每个词语的拼音字母序列与第一拼音字母序列的至少一部分之间的编辑距离小于预定编辑距离,第二树中的节点以词语的拼音字母序列为节点检索值以及以词语为节点内容,第二树中的边表示与边相关联的两个节点的节点检索值之间的编辑距离;基于多元语言模型,确定与纠错候选词集相关联的得分集;从纠错候选词集确定得分最高的第一纠错候选词;以及基于第一纠错候选词进行搜索,以得到搜索结果。以此方式,能够提高搜索的召回率。在下文中,将结合附图更详细地描述本方案的具体示例。图1示出了根据本公开的实施例的信息处理环境100的示例的示意图。信息处理环境100可以包括计算设备110、搜索词120和搜索结果130。计算设备110例如包括但不限于服务器计算机、多处理器系统、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。在一些实施例中,计算设备110可以具有一个或多个处理单元,包括诸如图像处理单元GPU、现场可编程门阵列FPGA和专用集成电路ASIC等的专用处理单元以及诸如中央处理单元CPU的通用处理单元。计算设备110用于将用户输入的搜索词120转换为拼音字母,以生成第一拼音字母序列;在第一树中搜索第一词语集,第一词语集中的每个词语的拼音字母序列与第一拼音字母序列的至少一部分相匹配,第一树以词语为叶节点以及以拼音字母为非叶节点,从根节点到叶节点的路径上的非叶节点所表示的拼音字母构成叶节点所表示的词语的拼音字母序列,词语包括产品标识和品牌标识;如果确定在第一树中找到第一词语集,则将找到的第一词语集作为纠错候选词集;如果确定在第一树中未找到第一词语集,则在第二树中确定第二词语集作为纠错候选词集,第二词语集中的每个词语的拼音字母序列与第一拼音字母序列的至少一部分之间的编辑距离小于预定编辑距离,第二树中的节点以词语的拼音字母序列为节点检索值以及以词语为节点内容,第二树中的边表示与边相关联的两个节点的节点检索值之间的编辑距离;基于多元语言模型,确定与纠错候选词集相关联的得分集;从纠错候选词集确定得分最高的第一纠错候选词;以及基于第一纠错候选词进行搜索,以得到搜索结果130。由此,能够提高搜索本文档来自技高网...

【技术保护点】
1.一种用于信息搜索的方法,包括:/n将用户输入的搜索词转换为拼音字母,以生成第一拼音字母序列;/n在第一树中搜索第一词语集,所述第一词语集中的每个词语的拼音字母序列与所述第一拼音字母序列的至少一部分相匹配,所述第一树以词语为叶节点以及以拼音字母为非叶节点,从根节点到叶节点的路径上的非叶节点所表示的拼音字母构成所述叶节点所表示的词语的拼音字母序列,所述词语包括产品标识和品牌标识;/n如果确定在所述第一树中找到所述第一词语集,则将找到的所述第一词语集作为纠错候选词集;/n如果确定在所述第一树中未找到所述第一词语集,则在第二树中确定第二词语集作为所述纠错候选词集,所述第二词语集中的每个词语的拼音字母序列与所述第一拼音字母序列的至少一部分之间的编辑距离小于预定编辑距离,所述第二树中的节点以词语的拼音字母序列为节点检索值以及以词语为节点内容,所述第二树中的边表示与所述边相关联的两个节点的节点检索值之间的编辑距离;/n基于多元语言模型,确定与所述纠错候选词集相关联的得分集;/n从所述纠错候选词集确定得分最高的第一纠错候选词;以及/n基于所述第一纠错候选词进行搜索,以得到搜索结果。/n

【技术特征摘要】
1.一种用于信息搜索的方法,包括:
将用户输入的搜索词转换为拼音字母,以生成第一拼音字母序列;
在第一树中搜索第一词语集,所述第一词语集中的每个词语的拼音字母序列与所述第一拼音字母序列的至少一部分相匹配,所述第一树以词语为叶节点以及以拼音字母为非叶节点,从根节点到叶节点的路径上的非叶节点所表示的拼音字母构成所述叶节点所表示的词语的拼音字母序列,所述词语包括产品标识和品牌标识;
如果确定在所述第一树中找到所述第一词语集,则将找到的所述第一词语集作为纠错候选词集;
如果确定在所述第一树中未找到所述第一词语集,则在第二树中确定第二词语集作为所述纠错候选词集,所述第二词语集中的每个词语的拼音字母序列与所述第一拼音字母序列的至少一部分之间的编辑距离小于预定编辑距离,所述第二树中的节点以词语的拼音字母序列为节点检索值以及以词语为节点内容,所述第二树中的边表示与所述边相关联的两个节点的节点检索值之间的编辑距离;
基于多元语言模型,确定与所述纠错候选词集相关联的得分集;
从所述纠错候选词集确定得分最高的第一纠错候选词;以及
基于所述第一纠错候选词进行搜索,以得到搜索结果。


2.根据权利要求1所述的方法,其中确定所述第二词语集包括:
确定所述第二树的根节点作为当前节点;
S1:确定所述第一拼音字母序列与所述当前节点的节点检索值之间的第一编辑距离;
S2:如果确定所述第一编辑距离小于所述预定编辑距离,则将所述当前节点的节点内容添加到所述第二词语集;以及
S3:遍历所述当前节点的子节点中与所述当前节点之间的编辑距离位于第一距离区间的子节点,作为所述当前节点,重复步骤S1-S3,所述第一距离区间大于或等于所述第一编辑距离与所述预定编辑距离之差且小于或等于所述第一编辑距离与所述预定编辑距离之和。


3.根据权利要求1所述的方法,其中确定所述得分集包括:
对于所述纠错候选词集中的每个纠错候选词,执行以下步骤:
基于训练样本集,确定所述纠错候选词中包括的每一个词项相对于前两个词项的条件概率;以及
基于所述纠错候选词中的每一个词项相对于前两个词项的条件概率,确定所述纠错候选词的得分。


4.根据权利要求3所述的方法,其中确定所述条件概率包括:
对于在训练样本集中未出现的、所述纠错候选词中包括的词项,通过KN平滑确定所述词项相对于前两个词项的条件概率。


5.根据权利要求1所述的方法,其中将用户输入的搜索词转换为拼音字母包...

【专利技术属性】
技术研发人员:杨涵陈广顺
申请(专利权)人:震坤行网络技术南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1