本发明专利技术公开了一种选购热点标签的挖掘方法,包括以下步骤:搜索步骤,根据用户输入的关键词进行搜索,得到与搜索结果有关的商品标题;分词步骤,使用分词工具对搜索到的商品标题进行分词;组合步骤,使用语言模型N-Gram对分词结果进行组合,得到候选标签;和交集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到的修饰词与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在有效时间内,点击搜索率高于某阈值的查询式。由此,能将商品的卖点及特色以比较简单的方式展示给用户,同时能减少运营人员的工作量,并完成及时更新,最快地将最近的选购热点标签反映给用户。
【技术实现步骤摘要】
本专利技术提供一种基于海量商品数据的选购热点标签挖掘方法。
技术介绍
随着电子商务迅速的发展,网上购物由于其节省时间和提供丰富的可对比选择商 品受到人们的青睐。目前京东(公司名称)商品库中有海量的商品提供给用户选择,随着商 品数量的剧增、商品名称书写的不规范等因素的出现,当用户搜索一类产品时,搜索结果页 会召回成千上万的商品,用户可能在短时间内无法获取当前比较流行的各个元素的商品。 例如,用户搜索连衣裙,召回的商品包含成千上万,可能排名靠前的并不是用户喜欢的类 型,用户无法短时间内找到自己心仪的商品,这样可能会造成部分用户流失。有些比较有耐 心的用户,会在搜索框中补充信息,如:"修身显瘦连衣裙"、"蕾丝拼接连衣裙","小香风连 衣裙"等,搜索自己喜欢类型的连衣裙。通过用户增加关键词召回商品增加了用户购物的复 杂性。结合用户喜欢选购当前比较流行元素的商品这一习惯,我们从海量的商品中结合 商品类目、该类目下商家最近上架的商品描述的文本信息和用户的搜索习惯,挖掘出各个 类别商品的热点选购词。给每一个商品打上标签,这些标签可以反映当前该类商品流行的 趋势,选购热点标签将商品的卖点及特色以一种比较简洁的方式展示给用户,可以对用户 进行导购,将其从海量的商品选购中解放出来。 热点选购标签与其他导航属性相比,更能吸引用户的眼球,符合大众挑选用户的 习惯,节省用户购买商品的成本。 与本专利技术相关的技术有新词识别,新词识别主要有两类方法:一是基于统计的方 法,对待处理的文本统计其重复字符串的频率,然后利用信息熵计算词边界;二是基于监督 的方法,首先选取能区分词边界的特征,然后利用大量训练语料训练,利用学习的模型进行 分词。 现有技术存在以下缺点。现有技术虽然可以提取到新词,但是选购热点标签又不 同于一般的新词,选购热点标签大部分是修饰新词,目前还没有修饰词提取较为成熟的技 术。目前电子商务网站中的选购热点标签都是由运营人员编辑设定的,所以存在不能及时 发现并更新的问题。而且维护这些标签会浪费大量的人力物力。
技术实现思路
本专利技术提供一种基于海量商品数据的选购热点标签挖掘方法,其目的有两个:一 是将商品的卖点及特色以一种比较简单的方式展示给用户,可以对用户进行导购,将其从 海量的商品选购中解放出来;二是减少运营人员的工作量,并完成及时更新,最快地将最近 的选购热点标签反映给用户。 与本专利技术相关的主要技术有以下三个方面: ?按照商品类目挖掘标签,该技术是新词识别,将描述商品的材质、 类型、风格的词识别出来,这类词主要是修饰词。 ?优质搜索词提取,该技术提取用户点击率高于基准值(例如1000次) 的搜索词(即,优质搜索词),过滤掉用户反馈不好以及包含错别字 的搜索词。 ?产品词类别判断,该技术是高相关分类,通过用户在一段时间内的 搜索点击行为给搜索词一个最相关的类目信息。 本专利技术的包括以下步骤:搜索步骤,根据用户输入的关 键词进行搜索,得到与搜索结果有关的商品标题;分词步骤,使用分词工具对搜索到的商品 标题进行分词;组合步骤,使用语言模型N-Gram对分词结果进行组合,得到候选标签;和交 集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到的修饰词 与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在有效时间 内,点击搜索率高于某阈值的查询式。专利技术效果 根据本专利技术,能将商品的卖点及特色以一种比较简单的方式展示给用户,可以对 用户进行导购,将其从海量的商品选购中解放出来,另外能减少运营人员的工作量,并完成 及时更新,最快地将最近的选购热点标签反映给用户。【附图说明】 图1是表示本专利技术的概要的流程图。 图2是利用优质搜索词挖掘选购热点标签的流程图。图3是利用高相关分类挖掘选购热点标签的流程图。【具体实施方式】下面结合图1对本专利技术的概要进行说明,图1是表示本专利技术的概要的流程图。 本专利技术的一方式的,包括以下步骤:搜索步骤,根据用户 输入的关键词进行搜索,得到与搜索结果有关的商品标题;分词步骤,使用分词工具对搜索 到的商品标题进行分词;组合步骤,使用语言模型N-Gram对分词结果进行组合,得到候选标 签;和交集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到 的修饰词与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在 有效时间内,点击搜索率高于某阈值的查询式。 根据上述方式所述的,其中,在上述组合步骤中,保留组 合之后词长大于等于第1词长且小于等于第2词长的标签,并且对只包含字母和汉字的标签 进行N-Gram计算,其中,上述第1词长小于上述第2词长。 根据上述方式所述的,其中,在上述组合步骤中,在采用 语言模型N-Gram获取候选标签时删除了商品标题的前部和后部的商品信息。 根据上述方式所述的,其中,在上述组合步骤中,在采用 语言模型N-Gram获取候选标签时删除了商品标题的前部1/5和后部1/5的商品信息。 根据上述方式所述的,其中,上述优质搜索词满足的条 件如下:条件(1),搜索词在最近N天的点击搜索日志中出现,其中N = 7;条件(2),累计搜索 量大于等于某阈值TIME,其中TIME = 100;条件(3),点击搜索率大于等于某阈值P,其中P = 15%〇根据上述方式所述的,其中,挖掘上述优质 搜索词的步骤包括:当EK 7时,一旦满足上述条件(1 )、(2)、(3),则输出查询式,作 为优质搜索词,当满足上述条件(1)、(2)且不满足条件(3)时,则输出查询式,作为低反馈 词,该低反馈词是指点击搜索率低于某阈值的搜索词,当只满足上述条件(1)时,继续计算 第D+1天的点击搜索量;当D>7时,将不符合上述条件(1)的查询式输出,其余的处理逻辑与 D < 7的情况相同,当D = 180时,结束统计,其中,上述D是指统计的日期距当日的天数。 根据上述方式所述的,其中,在上述交集步骤之后,还包 括通过商品标题的关键词匹配来绑定上述选购热点标签的步骤。 下面对具体的实施方式进行说明。 本专利技术基于京东海量的商品标题并结合用户的搜索习惯自动挖掘出选购热点标 签,整个技术方案分为以下三个部分: -、挖掘17个一级类目下商品的候选热点标签 17个一级类目涉及的三级类目有800多个(此处列举的数字只是京东海量的商品 数量的一个例子),统计的数据是最近4个月上架且仍然在柜上的商品,商家为了使自己的 商品更容易被用户搜索到,会在商品名称中填写一系列热点选购标签组合。下面是一个商 品名称的例子:花田雅织2015宽松大码九分裤女小脚裤韩国BF风破洞牛仔图片色29。其中,"宽松大码"、"九分裤"、"小脚裤"、"BF风"、"破洞牛仔"都是描述牛仔裤的标 签。因此,本专利技术通过商品标题提取到大量的候选热点标签。将提取到的商品名称按照类别分别放在各个文件夹中。京东商品有自己的三级类 目体系,将不同类别的商品区分开。选购热点标签与商品类目有密切的关系,每个类别下的 标签差别很大,因此需要分别处理。如连衣裙类目下的标签:"波西米亚"、"欧根纱"、"收腰 显瘦"等;牛仔裤类目下的标签:"高腰排扣"、"韩版破洞"、"BF风"等。首先,我们使用分词工 具对上面的商本文档来自技高网...
【技术保护点】
一种选购热点标签的挖掘方法,包括以下步骤:搜索步骤,根据用户输入的关键词进行搜索,得到与搜索结果有关的商品标题;分词步骤,使用分词工具对搜索到的商品标题进行分词;组合步骤,使用语言模型N‑Gram对分词结果进行组合,得到候选标签;和交集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到的修饰词与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在有效时间内,点击搜索率高于某阈值的查询式。
【技术特征摘要】
【专利技术属性】
技术研发人员:王颖,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。