商品搜索数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:28503289 阅读:23 留言:0更新日期:2021-05-19 22:51
本发明专利技术涉及大数据领域,公开了一种商品搜索数据处理方法、装置、设备及存储介质。该方法包括:获取用户输入的商品搜索语句;将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。本发明专利技术能快速提取用户搜索语句中的实体词,并精准地输出与用户搜索意图相匹配的强关联商品。联商品。联商品。

【技术实现步骤摘要】
商品搜索数据处理方法、装置、设备及存储介质


[0001]本专利技术涉及大数据领域,尤其涉及一种商品搜索数据处理方法、装置、设备及存储介质。

技术介绍

[0002]互联网购物是现今社会主流的购物方式之一,用户只需登录到电商网站搜索自己想要购买的商品,就能获得与自己搜索意图相匹配的相关商品,进而挑选出要购买的商品并下单成交。而各电商网站为了获得更多的成交量,需要对商品搜索的方式不断地优化和改进,使呈现出来的商品更符合用户的搜索意图,提高用户体验的同时促成交易。
[0003]现有技术中,对于商品搜索数据的处理方式繁多,大多是基于搜索关键词和商品标题的匹配算法,或者基于搜索关键词和商品分类信息的匹配算法,这些搜索数据处理方式可能会因关键词提取不准确导致匹配商品不准确、或因匹配到的商品数据量过大导致用户难以筛选意向商品的问题。另外,现有的对商品搜索数据的处理方法并未涉及到对用户不同购买意向强度的商品数据进行筛选处理,因而商品搜索结果很难符合用户预期。

技术实现思路

[0004]本专利技术的主要目的在于解决商品搜索数据的处理方式单一导致的商品搜索结果不准确的技术问题。
[0005]本专利技术第一方面提供了一种商品搜索数据处理方法,包括:
[0006]获取用户输入的商品搜索语句;
[0007]将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
[0008]根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;<br/>[0009]获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
[0010]根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
[0011]可选的,在本专利技术第一方面的第一种实现方式中,所述实体词提取模型包括双向LSTM层、CRF层及SoftMax层,所述将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词包括:
[0012]将所述商品搜索语句转化为多个one

hot稀疏向量并映射为稠密向量;
[0013]对所述各稠密向量进行随机失活处理,得到多个新的稠密向量;
[0014]将所述各新的稠密向量输入所述双向LSTM层进行特征提取,得到隐状态特征序列;
[0015]将所述隐状态特征序列输入所述CRF层进行词性标签的转移概率计算,得到标签
转移矩阵;
[0016]将所述标签转移矩阵输入所述SoftMax层进行归一化处理,得到所述商品搜索语句中各字词对应的实体词概率,并将最高实体词概率对应的字词作为目标实体词。
[0017]可选的,在本专利技术第一方面的第二种实现方式中,在所述获取用户输入的商品搜索语句之前,还包括:
[0018]接收新增商品请求,其中,所述请求包括商品属性信息及商品实体词;
[0019]根据所述商品属性信息及所述商品实体词,对所述商品实体词进行编码,得到实体词编码并存入实体词编码库中,其中,所述实体词编码包括商品属性码及商品实体词ID。
[0020]可选的,在本专利技术第一方面的第三种实现方式中,在所述获取用户输入的商品搜索语句之前,还包括:
[0021]获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表;
[0022]分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词,得到多个实体词列表;
[0023]查找所述实体词编码库,得到所述各实体词列表对应的词编码列表;
[0024]计算所述各词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集。
[0025]可选的,在本专利技术第一方面的第四种实现方式中,所述计算所述词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集包括:
[0026]将所述第一商品列表对应的词编码列表中的各词编码进行组合,得到多个第一项集,以及将所述第二商品列表对应的词编码列表中的各词编码进行组合,得到多个第二项集;
[0027]分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度;
[0028]根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集。
[0029]可选的,在本专利技术第一方面的第五种实现方式中,所述根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集包括:
[0030]以包含一个词编码的所述第一项集为最小第一项集,以及以包含一个词编码的所述第二项集为最小第二项集;
[0031]分别判断所述各最小第一项集的支持度是否小于预置最小支持度,若小于,则剔除所述最小第一项集和所述最小第一项集的超集,若不小于,则将所述最小第一项集和所述最小第一项集的子集作为第一频繁项集;
[0032]分别判断所述各最小第二项集的支持度是否小于所述最小支持度,若小于,则剔除所述最小第二项集和所述最小第二项集的超集,若不小于,则将所述最小第二项集和所述最小第二项集的子集作为第二频繁项集;
[0033]增加一个词编码数量的所述第一项集为所述最小第一项集,以及增加一个所述词编码数量的所述第二项集为所述最小第二项集,并继续重复执行判断所述各最小第一项集的支持度是否小于预置最小支持度步骤,以及重复执行判断所述各最小第二项集的支持度是否小于所述最小支持度步骤;
[0034]当所述最小第一项集、所述最小第二项集的支持度均大于所述最小支持度时,停
止增加所述第一项集和所述第二项集。
[0035]可选的,在本专利技术第一方面的第六种实现方式中,所述获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码包括:
[0036]获取包含所述实体词编码的所述第一频繁项集和所述第二频繁项集,并定义第一权值和第二权值,其中所述第二权值大于所述第一权值;
[0037]分别计算所述实体词编码与所述各第一频繁项集之间的第一置信度,以及分别计算所述实体词编码与所述各第二频繁项集之间的第二置信度;
[0038]分别计算所述各第一置信度与所述第一权值的乘积,得到第一加权置信度,以及分别计算所述各第二置信度与所述第二权值的乘积,得到第二加权置信度;
[0039]根据所述第一加权置信度以及所述第二加权置信度,确定加权置信度最高的频繁项集中的实体词编码为关联实体词编码。
[0040]本专利技术第二方面提供了一种商品搜索数据处理装置,包括:
[0041]第一获取模块,用于获取用户输入的商品搜索语句;
[0042]识别模块,用于将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
[0043]第一查找模块,用于根据所述目标实体词,查找预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种商品搜索数据处理方法,其特征在于,所述商品搜索数据处理方法包括:获取用户输入的商品搜索语句;将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。2.根据权利要求1所述的商品搜索数据处理方法,其特征在于,所述实体词提取模型包括双向LSTM层、CRF层及SoftMax层,所述将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词包括:将所述商品搜索语句转化为多个one

hot稀疏向量并映射为稠密向量;对所述各稠密向量进行随机失活处理,得到多个新的稠密向量;将所述各新的稠密向量输入所述双向LSTM层进行特征提取,得到隐状态特征序列;将所述隐状态特征序列输入所述CRF层进行词性标签的转移概率计算,得到标签转移矩阵;将所述标签转移矩阵输入所述SoftMax层进行归一化处理,得到所述商品搜索语句中各字词对应的实体词概率,并将最高实体词概率对应的字词作为目标实体词。3.根据权利要求1所述的商品搜索数据处理方法,其特征在于,在所述获取用户输入的商品搜索语句之前,还包括:接收新增商品请求,其中,所述请求包括商品属性信息及商品实体词;根据所述商品属性信息及所述商品实体词,对所述商品实体词进行编码,得到实体词编码并存入实体词编码库中,其中,所述实体词编码包括商品属性码及商品实体词ID。4.根据权利要求3所述的商品搜索数据处理方法,其特征在于,在所述获取用户输入的商品搜索语句之前,还包括:获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表;分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词,得到多个实体词列表;查找所述实体词编码库,得到所述各实体词列表对应的词编码列表;计算所述各词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集。5.根据权利要求4所述的商品搜索数据处理方法,其特征在于,所述计算所述词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集包括:将所述第一商品列表对应的词编码列表中的各词编码进行组合,得到多个第一项集,以及将所述第二商品列表对应的词编码列表中的各词编码进行组合,得到多个第二项集;分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度;根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多
个第二频繁项集。6.根据权利要求5所述的商品搜索数据处理方法,其特征在于,所述根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集包括:以包含一个词编...

【专利技术属性】
技术研发人员:谷坤蒋贝贝
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1