数据分类方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:30764072 阅读:18 留言:0更新日期:2021-11-10 12:19
本申请公开了一种数据分类方法、装置、计算机设备及计算机可读存储介质,涉及互联网技术领域,综合候选数据类目下的概率分布,确定需要将待分类数据划分到哪个类目下,提升数据分类的准确性,保证分类后的类目下数据的质量,推动了类目数据挖掘的广度和深度的进程。所述方法包括:确定待分类数据,为待分类数据确定多个候选数据类目;统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象划分至多个候选数据类目的类目概率;将多个候选数据类目中每个候选数据类目下对应的多个实体对象的多个类目概率进行累加,得到每个候选数据类目的划分概率;在多个候选数据类目中提取目标数据类目,将待分类数据划分至目标数据类目下。标数据类目下。标数据类目下。

【技术实现步骤摘要】
数据分类方法、装置、计算机设备及计算机可读存储介质


[0001]本申请涉及互联网
,特别是涉及一种数据分类方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]随着互联网技术的不断发展,智能终端已经成为人们生活、工作中不可或缺的一部分,而智能终端提供的线上购物功能由于其独有的便捷性和直观性而受到用户的欢迎。很多提供线上购物功能的平台为了便于用户浏览,会对线上提供的门店、商品等数据进行整理,确定这些数据所属的数据类目,按照数据类目将门店、商品等进行分类后提供给用户选择。
[0003]相关技术中,在进行数据分类时,先提取待分类数据的特征信息,比如名称、城市、商品、价格、评论等等。随后,基于特征融合的方式将提取到的特征信息输入至用于对词向量进行训练的模型中进行学习,确定各个特征信息以及特征信息之间的交互关系,进而根据交互关系确定该待分类数据应当所属的类目,完成数据的分类。
[0004]在实现本申请的过程中,申请人发现相关技术至少存在以下问题:
[0005]有些数据的特征信息的丰富度较差,能够体现该数据所属类目的信息内容很少,而且有的数据的特征信息对类目的确定存在误导性,比如店名中包括“馄饨”二字的门店中只有一种与馄饨相关的商品,大部分商品是盖浇饭,导致数据分类的准确率不高,分类后的类目下数据的质量较低,影响了推动类目数据挖掘的广度和深度的进程。

技术实现思路

[0006]有鉴于此,本申请提供了一种数据分类方法、装置、计算机设备及计算机可读存储介质,主要目的在于解决目前数据分类的准确率不高,分类后的类目下数据的质量较低,影响了推动类目数据挖掘的广度和深度的进程的问题。
[0007]依据本申请第一方面,提供了一种数据分类方法,该方法包括:
[0008]确定待分类数据,为所述待分类数据确定多个候选数据类目;
[0009]统计所述待分类数据关联的多个实体对象,基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,所述类目预测模型是基于标注有样本类目标签的多个训练样本训练的用于预测特征所属类目的模型;
[0010]将所述多个候选数据类目中每个候选数据类目下对应的所述多个实体对象的多个类目概率进行累加,得到所述每个候选数据类目的划分概率;
[0011]在所述多个候选数据类目中提取目标数据类目,将所述待分类数据划分至所述目标数据类目下,所述目标数据类目对应的划分概率大于所述多个候选数据类目中除所述目标数据类目外的其他候选数据类目。
[0012]可选地,所述确定待分类数据,为所述待分类数据确定多个候选数据类目之前,所述方法还包括:
[0013]获取多个训练样本,所述多个训练样本中每个训练样本标注有类目样本标签;
[0014]在所述多个训练样本中确定目标训练样本,所述目标训练样本在所述多个训练样本中存在至少两个内容一致的重复训练样本;
[0015]查询所述目标训练样本和至少两个重复训练样本的多个类目样本标签,在所述目标训练样本和至少两个重复训练样本中确定保留的训练样本,所述保留的训练样本标记的类目样本标签在所述多个类目样本标签中的出现次数最大;
[0016]将所述目标训练样本和至少两个重复训练样本中除所述保留的训练样本外的其他训练样本过滤;
[0017]采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型。
[0018]可选地,所述采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型之前,所述方法还包括:
[0019]对于所述过滤后的多个训练样本中每个训练样本,查询所述训练样本是否包括次级样本数据;
[0020]若所述训练样本包括次级样本数据,则将所述次级样本数据与预设类目样本进行比对;
[0021]当所述次级样本数据与所述预设类目样本一致时,将所述次级样本数据保留,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本;
[0022]当所述次级样本数据与所述预设类目样本不一致时,在所述训练样本中将所述次级样本数据删除,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本。
[0023]可选地,所述为所述待分类数据确定多个候选数据类目,包括:
[0024]对所述待分类数据进行识别,确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词;
[0025]查询所述待分类数据对应的城市特征,采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目。
[0026]可选地,所述确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词,包括:
[0027]对所述待分类数据进行拆分,得到多个单字符;
[0028]将所述多个单字符与预设类目样本进行比对,按照比对结果,为所述多个单字符添加字符标记,所述字符标记指示了相应的单字符是否属于组成所述预设类目样本的类目字符;
[0029]在所述多个单字符中确定至少一个第一单字符,将所述至少一个第一单字符作为所述数据名称,所述至少一个第一单字符对应的字符标记指示所述至少一个第一单字符不属于组成所述预设类目样本的类目字符;
[0030]在所述多个单字符中确定至少一个第二单字符,对所述至少一个第二单字符进行组合,得到所述至少一个类目词,所述至少一个第二单字符对应的字符标记指示所述至少一个第二单字符属于组成所述预设类目样本的类目字符。
[0031]可选地,所述对所述至少一个第二单字符进行组合,得到所述至少一个类目词,包括:
[0032]读取所述至少一个第二单字符中首位第二单字符的下一第二单字符标记的字符标记;
[0033]当所述下一第二单字符标记的字符标记指示所述下一第二单字符处于非起始位置时,读取所述下一第二单字符的下一第二单字符,直至确定字符标记指示处于起始位置的目标第二单字符;
[0034]确定所述目标第二单字符在所述至少一个第二单字符中的上一第二单字符,提取所述首位第二单字符、所述上一第二单字符以及所述首位第二单字符与所述上一第二单字符之间的第二单字符作为类目词;
[0035]继续识别所述目标第二单字符的下一单字符,直至遍历所述至少一个第二单字符,得到所述至少一个类目词。
[0036]可选地,所述采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目,包括:
[0037]将所述数据名称和所述城市特征输入至所述类目预测模型进行训练,得到所述多个候选数据类目;和/或,
[0038]将所述至少一个类目词输入至所述类目预测模型进行训练,得到所述多个候选数据类目。
[0039]可选地,所述基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,包括:
[0040]对于所述多个实体对象中每个实体对象,在所述多个候选数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:确定待分类数据,为所述待分类数据确定多个候选数据类目;统计所述待分类数据关联的多个实体对象,基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,所述类目预测模型是基于标注有样本类目标签的多个训练样本训练的用于预测特征所属类目的模型;将所述多个候选数据类目中每个候选数据类目下对应的所述多个实体对象的多个类目概率进行累加,得到所述每个候选数据类目的划分概率;在所述多个候选数据类目中提取目标数据类目,将所述待分类数据划分至所述目标数据类目下,所述目标数据类目对应的划分概率大于所述多个候选数据类目中除所述目标数据类目外的其他候选数据类目。2.根据权利要求1所述的方法,其特征在于,所述确定待分类数据,为所述待分类数据确定多个候选数据类目之前,所述方法还包括:获取多个训练样本,所述多个训练样本中每个训练样本标注有类目样本标签;在所述多个训练样本中确定目标训练样本,所述目标训练样本在所述多个训练样本中存在至少两个内容一致的重复训练样本;查询所述目标训练样本和至少两个重复训练样本的多个类目样本标签,在所述目标训练样本和至少两个重复训练样本中确定保留的训练样本,所述保留的训练样本标记的类目样本标签在所述多个类目样本标签中的出现次数最大;将所述目标训练样本和至少两个重复训练样本中除所述保留的训练样本外的其他训练样本过滤;采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型。3.根据权利要求2所述的方法,其特征在于,所述采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型之前,所述方法还包括:对于所述过滤后的多个训练样本中每个训练样本,查询所述训练样本是否包括次级样本数据;若所述训练样本包括次级样本数据,则将所述次级样本数据与预设类目样本进行比对;当所述次级样本数据与所述预设类目样本一致时,将所述次级样本数据保留,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本;当所述次级样本数据与所述预设类目样本不一致时,在所述训练样本中将所述次级样本数据删除,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本。4.根据权利要求1所述的方法,其特征在于,所述为所述待分类数据确定多个候选数据类目,包括:对所述待分类数据进行识别,确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词;查询所述待分类数据对应的城市特征,采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目。5.根据权利要求4所述的方法,其特征在于,所述确定所述待分类数据的数据名称以及
所述待分类数据包括的至少一个类目词,包括:对所述待分类数据进行拆分,得到多个单字符;将所述多个单字符与预设类目样本进行比对,按照比对结果,为所述多...

【专利技术属性】
技术研发人员:常福张慧斌匡载华
申请(专利权)人:口碑上海信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1