The invention discloses a method based on the tourism data MapReduce customer segmentation, relates to the field of tourism data application, using K improved means method based on customer segmentation data slice, by constructing a Map function, combine function, Reduce function to achieve customer segmentation and MapReduce algorithm; the Map function to read each customer data slice and calculate the clustering center, Map output as a result of the combine function input, combine function to calculate the new clustering center and Reduce as a function of the input, the Reduce function after convergence algorithm over, otherwise the output of the Reduce function and Map function as input for iteration until convergence. The invention not only provides decision support for large-scale online travel enterprises, but also provides an effective method for the tourism authorities to monitor and manage the tourist market.
【技术实现步骤摘要】
基于MapReduce的旅游大数据客户细分方法
本专利技术涉及旅游大数据应用领域,具体的说是基于MapReduce的旅游大数据客户细分方法。
技术介绍
在移动互联网和Web技术快速发展等因素的影响下,国内大型旅游OTA的业务量以前所未有的速度增长。在黄金周等旅游高峰期,每天的酒店预订量可达到几十万间。伴随着旅游消费产生了大量的过程采集、消费点评和产品推荐等数据,这些数据以各种形式保存到中心服务器上,包括文本、图片、声音、视频等。分阶段地对这些旅游过程中产生的海量数据进行挖掘和分析是对大型线上旅游企业提出的迫切挑战。目前,我国大型在线旅游企业数据挖掘的数据规模已达GB级甚至TB级,传统的分析手段已难以满足现实的需要,迫切需要一种针对旅游大数据的客户细分方法,从而可以进行有效的旅游客户细分、旅游客户维护和精准营销等商业活动。因而本专利技术提出一种基于MapReduce的旅游大数据客户细分方法。所述MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
技术实现思路
本专利技术针对目前技术发展的需求和不足之处,提供基于MapReduce的旅游大数据客户细分方法。本专利技 ...
【技术保护点】
基于MapReduce的旅游大数据客户细分方法,其特征在于,利用K‑means算法中各对象到中心点的距离是独立运算的特点,运用三边关系定理的思想改进K‑means算法对象归类的过程,并通过构造Map函数、combine函数与Reduce函数,Map函数读取每条客户数据分片并计算聚类中心,Map输出结果作为combine函数输入,combine函数计算新聚类中心又作为Reduce函数的输入,Reduce函数后算法收敛则算法结束,否则Reduce函数输出再作为Map函数输入进行迭代计算,直到算法收敛;最终实现MapReduce算法的旅游大数据客户细分。
【技术特征摘要】
1.基于MapReduce的旅游大数据客户细分方法,其特征在于,利用K-means算法中各对象到中心点的距离是独立运算的特点,运用三边关系定理的思想改进K-means算法对象归类的过程,并通过构造Map函数、combine函数与Reduce函数,Map函数读取每条客户数据分片并计算聚类中心,Map输出结果作为combine函数输入,combine函数计算新聚类中心又作为Reduce函数的输入,Reduce函数后算法收敛则算法结束,否则Reduce函数输出再作为Map函数输入进行迭代计算,直到算法收敛;最终实现MapReduce算法的旅游大数据客户细分。2.根据权利要求1所述基于MapReduce的旅游大数据客户细分方法,其特征在于,运用三边关系定理的思想改进K-means算法对象归类的过程,具体包括如下步骤:1)给定含有n个对象的数据集X,Cl为k个初始中心,l=1,2,……,k;2)计算每个聚类中心的距离,其中d(Ci,Cj),其中i,j=1,2,……,k;3)计算对象Xi与当前所在类中心的距离d(Xi,Cm);考察新的聚类中心Cj,若d(Cm,Cj)≥2d(Xi,Cm),说明Cj不是新的中心,可以不用计算d(Xi,Cj);否则,计算d(Xi,Cj),并与d(Xi,Cm)比较;继续步骤3,直到将Xi归属到最近的聚类中心。3.根据权利要求2所述基...
【专利技术属性】
技术研发人员:张娜娜,齐光鹏,李强,郑海兵,李国生,侯居永,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。