一种大数据挖掘方法技术

技术编号:17007525 阅读:27 留言:0更新日期:2018-01-11 03:52
本发明专利技术实施例提供了一种大数据挖掘方法,所述方法包括:获取用户浏览数据中的商品的数量;根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合;根据所述目标用户集合中每个用户的单用户特征向量;根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合,其中,分级用户集合的数量与预定分级数量相等。应用本发明专利技术实施例,一方面能够更有针对性,减少运算的数据量,另一方面能排除不同类的用户数据对于聚类效果的干扰,使用户群体划分更加准确,便于根据用户群体划分结果进行精准式、个性化的服务。

【技术实现步骤摘要】
一种大数据挖掘方法
本专利技术涉及数据处理领域,特别是涉及一种大数据挖掘方法。
技术介绍
随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的中心,云计算、大数据正在成为一种趋势和潮流,包括存储容量、可用性、I/O性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V:Volume(大量),数据量持续快速增加;Velocity(高速),数据I/O速度更快;Variety(多样),数据类型和来源多样化;Value(价值),其存在各方面的可用价值。如何从海量的数据中提取、获得想要的知识或感兴趣的信息,这是利用好大数据,进而更好地服务于社会发展的要求。因此,数据挖掘方法应运而生。数据挖掘是作为一门学科诞生于20世纪80年代,从技术的角度看就是从大量复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。在大数据应用领域,往往可以根据用户的各种行为特征将用户群体划分成若干类,以便于针对用户群的特征进行精准式、个性化的服务。聚类是对用户群体进行划分一种方式。聚类是将数据对象分成类的过程,使同一个类中的对象具有很高的相似度,而使不同类中的对象高度相异。相异度通常使用距离来进行度量。但是,聚类操作中针对用户行为特征对用户群体进行划分的效果在很大程度上依赖于基础数据的质量,现有的基于聚类算法的用户群体划分往往不能够很好的反映用户的行为特征,存在聚类不准确的问题,难以利用聚类结果对用户群进行精准式、个性化的服务。
技术实现思路
本专利技术实施例的目的在于提供一种大数据挖掘方法,以实现于提高用户群体划分的准确度。为了达到上述目的,本专利技术实施例公开了一种大数据挖掘方法,所述方法包括:获取用户浏览数据中的商品的数量;根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合;根据所述目标用户集合中每个用户的单用户特征向量;根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合,其中,分级用户集合的数量与预定分级数量相等。可选的,所述根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合,包括:将每个用户浏览数据中的商品的数量输入到预先训练好的神经网络,对用户分类,确定目标用户集合。可选的,所述根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合,包括:采用聚类的方法对每个用户浏览数据中的商品的数量进行聚类,按照聚类结果对用户分类,确定目标用户集合。可选的,所述根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合包括:根据每个用户的所述单用户特征向量确定高密度区域用户;从所述高密度区域用户中选择作为初始聚类中心的用户,所述初始聚类中心的数量与所述预定分级数量相等;根据所述初始聚类中心,基于K均值算法确定所述分级用户集合。可选的,所述从所述高密度区域用户中选择作为初始聚类中心,包括:根据所述单用户特征向量在所述高密度区域用户中选择密度参数最大的用户作为第一初始聚类中心;从所述高密度区域用户中选取距离所述第一初始聚类中心最远的用户作为第二初始聚类中心;从所述高密度区域用户中选取距离所述第一初始聚类中心和所述第二初始聚类中心集合的距离最远的用户作为第三初始聚类中心;依次类推直至确定全部所述初始聚类中心。可选的,所述方法还包括:将所述单用户特征向量中的特征向量指标进行数据标准化处理;根据标准化处理后的所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合。可选的,所述用户浏览数据中的商品的数量是预处理后的用户浏览数据中的商品的数量。本专利技术实施例提供的大数据挖掘方法,可以先将用户进行分类,在一个分类内进行用户聚类,从而能够选择适合的目标用户进行聚类分析,一方面能够更有针对性,减少运算的数据量,另一方面能排除不同类的用户数据对于聚类效果的干扰,使用户群体划分更加准确,便于根据用户群体划分结果进行精准式、个性化的服务。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的大数据挖掘方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的大数据挖掘方法的流程示意图,该方法包括步骤:S101:获取用户浏览数据中的商品的数量。在本专利技术实施例提供的方案中,可以在用户对应的浏览行为中获得用户浏览数据中的商品的数量。服务运营商会存储用户的浏览行为,用户在服务中的所有行为均会被记录下来。一种具体实现方式中,所述用户浏览数据中的商品的数量是预处理后的用户浏览数据中的商品的数量。可以理解的是,预处理包括检测用户浏览数据中的商品的数量的完整性和一致性,对每个数据进行去噪声处理。这样使得后续分类的结果更加的准确。S102:根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合。在本专利技术一具体实现方式中,所述根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合,可以包括:将每个用户浏览数据中的商品的数量输入到预先训练好的神经网络,对用户分类,确定目标用户集合。可以理解的是,神经网络(NeuralNetworks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络对人们的巨大吸引力主要体现在以下几个方面:1.并行分布处理。2.高度鲁棒性和容错能力。3.分布存储及学习能力。4.能充分逼近复杂的非线性关系。而对神经网络的训练方法大致过程如下:收集训练样本集,将训练样本集中的数据输入到神经网络,对神经网络进行训练,直至神经网络的输出达到预设的期望。在本专利技术实施例中,神经网络可以将用户分类,可以选择一个或多个分类分别作为目标用户集合。在本专利技术的一个实施方式中,所述根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合,可以包括:采用聚类的方法对每个用户浏览数据中的商品的数量进行聚类,按照聚类结果对用户分类,确定目标用户集合。需要说明的是,在本专利技术实施例提供的方案中,所提及的聚类,是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。在本专利技术实施例中,通过每个用户浏览数据中的商品的数量,可以将用户分成不同的集合,选择一个或多个集合作为目标用户集合。具体的,聚类的时候可以将用户浏览数据中的商品的数量在一个数值本文档来自技高网...
一种大数据挖掘方法

【技术保护点】
一种大数据挖掘方法,其特征在于,所述方法包括:获取用户浏览数据中的商品的数量;根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合;根据所述目标用户集合中每个用户的单用户特征向量;根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合,其中,分级用户集合的数量与预定分级数量相等。

【技术特征摘要】
1.一种大数据挖掘方法,其特征在于,所述方法包括:获取用户浏览数据中的商品的数量;根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合;根据所述目标用户集合中每个用户的单用户特征向量;根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合,其中,分级用户集合的数量与预定分级数量相等。2.根据权利要求1所述的方法,其特征在于,所述根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合,包括:将每个用户浏览数据中的商品的数量输入到预先训练好的神经网络,对用户分类,确定目标用户集合。3.根据权利要求1所述的方法,其特征在于,所述根据每个用户浏览数据中的商品的数量对用户进行分类,确定目标用户集合,包括:采用聚类的方法对每个用户浏览数据中的商品的数量进行聚类,按照聚类结果对用户分类,确定目标用户集合。4.根据权利要求1所述的方法,其特征在于,所述根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合包括:根据每个用户的所述单用户特征...

【专利技术属性】
技术研发人员:徐秋养
申请(专利权)人:佛山市深研信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1