本申请涉及电商信息技术领域中一种商品标题关键词提取方法及其装置、设备、介质、产品,所述方法包括:获取商品的标题文本;从所述标题文本中提取出属于产品词和属性词的候选关键词;将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。本申请利用文本分类模型经训练获得的语义识别能力,实现对标题文本中的冗余信息的过滤,命中具有较高信息价值的目标关键词,能提升电商平台的商品信息匹配效率。能提升电商平台的商品信息匹配效率。能提升电商平台的商品信息匹配效率。
Keyword extraction method of commodity title and its device, equipment, medium and product
【技术实现步骤摘要】
商品标题关键词提取方法及其装置、设备、介质、产品
[0001]本申请涉及电商信息处理
,尤其涉及一种商品标题关键词提取方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
技术介绍
[0002]电子商务网站上线售卖的商品,通常会在其标题中堆砌很多描述词汇,以提高SEO(Search Engine Optimization,搜索引擎优化)的流量,导致商品标题变得非常冗长,存在一定的冗余信息,甚至是商品无关的信息。在商品搜索、广告、推荐的算法模型中,商品标题是重要的输入信息,需要滤除其中的冗余和噪声,抽取出关键的摘要信息。
[0003]自然语言处理技术存在一些从一段文本或长文本生提取关键词的方案,但这些技术方案并未考虑电子商务网站的商品标题的特殊性,因而无法直接用于处理商品标题。
[0004]商品标题一般是一个堆砌许多词语的、没有完整语法结构的句子,与目前已有关键词提取相关的技术所处理的文本差异较大。因此,如何从商品标题中,提取出关键词,仍是亟待解决的问题。
技术实现思路
[0005]本申请的首要目的在于解决上述问题至少之一而提供一种商品标题关键词提取方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
[0006]为满足本申请的各个目的,本申请采用如下技术方案:
[0007]适应本申请的目的之一而提供的一种商品标题关键词提取方法,包括如下步骤:
[0008]获取商品的标题文本;
[0009]从所述标题文本中提取出属于产品词和属性词的候选关键词;
[0010]将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;
[0011]筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。
[0012]深化的部分实施例中,从所述标题文本中提取出候选关键词,包括如下步骤:
[0013]将所述标题文本与预设的产品词库进行匹配,获得该标题文本中的产品词;
[0014]将所述标题文本与预设的属性词库进行匹配,获得该标题文本中的属性词;
[0015]将所述产品词和属性词确定为该标题文本的候选关键词。
[0016]扩展的部分实施例中,将所述产品词和属性词确定为该标题文本的候选关键词的步骤之前,包括如下步骤:
[0017]根据所述标题文本与其产品词或属性词的语义相似度,过滤其中语义相似度低于预设阈值的产品词或属性词。
[0018]扩展的部分实施例中,将每个候选关键词与所述标题文本组成句对,采用已经训
练至收敛状态的文本分类模型分别对各个句对进行分类的步骤之前,包括如下步骤:
[0019]采用预设的数据集中的训练样本对文本分类模型实施迭代训练,将其训练至收敛状态,所述训练样本包括标题文本及该标题文本所包含的单个候选关键词。
[0020]扩展的部分实施例中,将其中的候选关键词作为所述标题文本的目标关键词的步骤之后,包括如下步骤:
[0021]根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征;
[0022]根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征;
[0023]所述标题文本的每个目标关键词的词频特征与位置特征量化确定该目标关键词的信息评分;
[0024]根据所述信息评分选取所述产品词与所述属性词的组合文本作为所述商品的标题摘要。
[0025]深化的部分实施例中,根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征,包括如下步骤:
[0026]根据每个目标关键词在第一标题库中的统计词频确定其第一词频特征,所述第一标题库为与所述商品属于同类的商品的标题文本所构成的标题库;
[0027]根据每个目标关键词在第二标题库中的统计词频确定其第二词频特征,所述第二标题库为与所述商品属于相同线上店铺的商品的标题文本所构成的标题库。
[0028]深化的部分实施例中,根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征,包括如下步骤:
[0029]根据每个目标关键词在所述标题文本中的绝对位置确定其绝对位置特征;
[0030]根据属于属性词的每个目标关键词在所述标题文本中相对于其最接近的产品词的相对位置确定其相对位置特征;
[0031]针对属于产品词的每个目标关键词以标准值确定其相对位置特征。
[0032]适应本申请的目的之一而提供的一种商品标题关键词提取装置,包括标题获取模块、词条提取模块、词条分类模块,以及目标确定模块,其中:所述标题获取模块,用于获取商品的标题文本;所述词条提取模块,用于从所述标题文本中提取出属于产品词和属性词的候选关键词;所述词条分类模块,用于将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;所述目标确定模块,用于筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。
[0033]深化的部分实施例中,所述词条提取模块,包括:产品词提取单元,用于将所述标题文本与预设的产品词库进行匹配,获得该标题文本中的产品词;属性词提取单元,用于将所述标题文本与预设的属性词库进行匹配,获得该标题文本中的属性词;候选集确定单元,用于将所述产品词和属性词确定为该标题文本的候选关键词。
[0034]扩展的部分实施例中,先于所述候选集确定单元,包括:相似过滤单元,用于根据所述标题文本与其产品词或属性词的语义相似度,过滤其中语义相似度低于预设阈值的产品词或属性词。
[0035]扩展的部分实施例中,先于所述词条分类模块,包括:模型训练模块,用于采用预
设的数据集中的训练样本对文本分类模型实施迭代训练,将其训练至收敛状态,所述训练样本包括标题文本及该标题文本所包含的单个候选关键词。
[0036]扩展的部分实施例中,后于所述目标确定单元,包括:词频特征确定单元,用于根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征;位置特征确定单元,用于根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征;信息评分确定单元,用于所述标题文本的每个目标关键词的词频特征与位置特征量化确定该目标关键词的信息评分;标题摘要选取单元,用于根据所述信息评分选取所述产品词与所述属性词的组合文本作为所述商品的标题摘要。
[0037]深化的部分实施例中,所述词频特征确定单元,包括:词频特征第一单元,用于根据每个目标关键词在第一标题库中的统计词频确定其第一词频特征,所述第一标题库为与所述商品属于同类的商品的标题文本所构成的标题库;词频特征第二单元,用于根据每个目标关键词在第二标题库中的统计词本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种商品标题关键词提取方法,其特征在于,包括如下步骤:获取商品的标题文本;从所述标题文本中提取出属于产品词和属性词的候选关键词;将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。2.根据权利要求1所述的商品标题关键词提取方法,其特征在于,从所述标题文本中提取出候选关键词,包括如下步骤:将所述标题文本与预设的产品词库进行匹配,获得该标题文本中的产品词;将所述标题文本与预设的属性词库进行匹配,获得该标题文本中的属性词;将所述产品词和属性词确定为该标题文本的候选关键词。3.根据权利要求2所述的商品标题关键词提取方法,其特征在于,将所述产品词和属性词确定为该标题文本的候选关键词的步骤之前,包括如下步骤:根据所述标题文本与其产品词或属性词的语义相似度,过滤其中语义相似度低于预设阈值的产品词或属性词。4.根据权利要求3所述的商品标题关键词提取方法,其特征在于,将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类的步骤之前,包括如下步骤:采用预设的数据集中的训练样本对文本分类模型实施迭代训练,将其训练至收敛状态,所述训练样本包括标题文本及该标题文本所包含的单个候选关键词。5.根据权利要求2所述的商品标题关键词提取方法,其特征在于,将其中的候选关键词作为所述标题文本的目标关键词的步骤之后,包括如下步骤:根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征;根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征;所述标题文本的每个目标关键词的词频特征与位置特征量化确定该目标关键词的信息评分;根据所述信息评分选取所述产品词与所述属性词的组合文...
【专利技术属性】
技术研发人员:葛莉,
申请(专利权)人:广州欢聚时代信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。