一种搜索目标商品集的方法及装置,所述方法包括:根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。上述的方案可以提高定位目标商品的准确性。
【技术实现步骤摘要】
本专利技术涉及互联网爬虫领域,特别是涉及一种搜索目标商品集的方法及装置。
技术介绍
近年来,随着电商、微商网站日趋增多,互联网上的商品数据也呈指数级增长,因此,为查找到某一目标商品的具体信息,需要通过输入已知的商品信息,然后根据该已知的商品信息从海量商品库中进行搜索定位。比如,消费者为买到某一款商品,可以通过提供已知的商品信息,搜索引擎根据该商品信息在海量数据中搜索定位输出与该商品信息相关的信息,消费者可再次浏览搜索引擎反馈的商品集以找出中意的商品,比如从反馈的商品集中挑选出在价格方面较优的商品,或在消费者评论方面较好的商品以最终确定购买哪一件商品。除消费者以外,电商平台和销售商家都有从海量商品信息库中定位某一目标商品的需求。然而,在现有技术中,搜索定位标品类商品比较容易,而对于搜索定位其他类型商品来说,搜索得到的结果准确性较低,具体说来,反馈的搜索结果中存在很多与目标商品无关的商品条目,搜索定位的准确性较低。
技术实现思路
本专利技术解决的技术问题是提供一种搜索目标商品集的方法及装置,提高定位所述待搜索商品信息的准确性。为解决上述技术问题,本专利技术实施例提供一种搜索目标商品集的方法,所述方法包括:根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应;当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库;将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词;从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。可选地,所述搜索目标商品集的方法,还包括:由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。可选地,所述已知的模板有多个并具有不同的优先级,根据具有不同的优先级的所述已知的模板得到的所述指定模板有多个并具有对应的不同的优先级。可选地,所述从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,包括:按照所述多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到所述第一搜索结果。可选地,所述搜索目标商品集的方法,还包括:从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,其中,对于同一指定模板,所述多个目标关键词中所述模板词以外的词为非模板Τ.κ| ο可选地,所述搜索目标商品集的方法,还包括:由所述第二搜索结果得到对应的商品的集合,记为优选集合,所述优选集合中的商品比所述目标商品集中的其他商品具有更尚的排序优先级。可选地,所述根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,包括:提取所述商品信息中与所述词典库中的关键词相同的词作为所述目标关键词。本专利技术实施例还提供一种搜索目标商品集的装置,包括:分词单元,适于根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应;模板确定单元,适于当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库;模板词确定单元,适于将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词;第一搜索单元,适于从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。可选地,所述搜索目标商品集的装置还包括:目标商品集确定单元,适于由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。可选地,所述已知的模板有多个并具有不同的优先级,根据具有不同的优先级的所述已知的模板得到的所述指定模板有多个并具有对应的不同的优先级。可选地,所述第一搜索单元还适于:按照所述多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到所述第一搜索结果。可选地,所述搜索目标商品集的装置,还包括:第二搜索单元,适于从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,其中,对于同一指定模板,所述多个目标关键词中所述模板词以外的词为非模板词。可选地,所述搜索目标商品集的装置,还包括:优选集确定子单元,适于由所述第二搜索结果得到对应的商品的集合,记为优选集合,所述优选集合中的商品比所述目标商品集中的其他商品具有更高的排序优先级。可选地,所述分词单元适于:提取所述商品信息中与所述词典库中的关键词相同的词作为所述目标关键词。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术实施例的技术方案通过对待搜索商品信息进行分词,得到多个目标关键词后,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,从而实现精准匹配到与指定模板中所有模板词均相同的商品,相比现有技术,由于本专利技术实施例的技术方案通过已知的模板确定的所述指定模板对应的模板词来定位目标商品,而并非不加区分地使用待搜索商品信息分词后的词语或者词语组合来进行搜索定位,从而提高了搜索定位目标商品信息的准确性。进一步地,本专利技术实施例的技术方案通过按照多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到第一搜索结果,从而使第一搜索结果中由较高优先级的指定模板对应的模板词搜索的目标商品信息具有与所述待搜索商品信息较高的匹配度,从而可以通过排序从第一搜索结果中优先得到具有较高匹配度的目标商品信息,提尚定位目标商品?目息的准确性。进一步地,本专利技术实施例的技术方案通过从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,将所述第二搜索结果对应的商品集作为目标商品集中有较高匹配度的优选集合,从而可以通过排序从第一搜索结果中优先得到具有较高匹配度的目标商品信息,提高定位目标商品信息的准确性。【附图说明】图1是本专利技术实施例中的一种搜索目标商品集的方法的流程图;图2是本专利技术实施例中的另一种搜索目标商品集的方法的流程图;图3是本专利技术实施例中的一种搜索目标商品集的装置的结构示意图;图4是本专利技术实施例中的另一种搜索目标商品集的装置的结构示意图。【具体实施方式】如
技术介绍
所言,实际应用场景中,存在从海量商品信息中查找目标商品的需求,然而,现有技术中定位标品类商品比较容易,而对于其他商品类型来说,搜索得到的结果准确性较低,比如反馈的搜索结果中存在很多与目标商品无关的商品条目,也就是说,定位目标商品信息的准本文档来自技高网...
【技术保护点】
一种搜索目标商品集的方法,其特征在于,包括:根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应;当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库;将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词;从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。
【技术特征摘要】
【专利技术属性】
技术研发人员:汤奇峰,王万宝,
申请(专利权)人:上海晶赞科技发展有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。