本发明专利技术涉及一种基于大数据任意客群多维度实时聚类分析的方法,包括步骤:针对数据源进行预处理,对数据进行标签并进行可视化配置;针对标签后的数据进行分析维度配置;确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群进行聚类分析计算,并将分析结果进行可视化显示。本发明专利技术能够对目标客群实现实时分析,适应业务的快速变化需要对客群精准细分需求。
A Multi-Dimensional Real-Time Clustering Analysis Method Based on Large Data Arbitrary Crowds
【技术实现步骤摘要】
一种基于大数据任意客群多维度实时聚类分析的方法
本专利技术涉及一种基于大数据任意客群多维度实时聚类分析的方法。
技术介绍
大数据时代,数据正在迅速膨胀变大,它决定着企业的未来发展,随着时间的推移,人们将越来越多的意识到数据对企业的重要性。利用好大数据为企业提升生产力,一套专业的分析工具平台是非常有必要的,利用统计分析方法提取有用信息和形成结论而对数据加以详细研究和概括总结。互联网+时代的到来,新零售的到来,打破原来很多企业原有的业务模式,企业以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式。企业为了跟上时代的快速发展,业务不断的更新迭代,导致业务指标也跟着快速变化,负责业务的产品经理及业务人员为了能全面、快速掌握相关的信息,需要许多分析人员人工支撑和IT部门支撑,获取数据的流程复杂且时间较长。由于业务的快速变化,基于聚类分析计算获得的分析报表没有多长时间又不能满足业务需求,需要重新开发。
技术实现思路
本专利技术的专利技术目的在于提供一种基于大数据任意客群多维度实时聚类分析的方法,能够对目标客群实现实时分析,适应业务的快速变化需要对客群精准细分需求。实现本专利技术目的的技术方案:一种基于大数据任意客群多维度实时聚类分析的方法,其特征在于,包括如下步骤:步骤1:针对数据源进行预处理,对数据进行标签并进行可视化配置;步骤2:针对标签后的数据进行分析维度配置;步骤3:确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群进行聚类分析计算,并将分析结果进行可视化显示。进一步地,步骤1中,所说数据源采用SparkSQL分布式集群存储,根据业务需求目标对数据源进行获取。进一步地,所说数据源包括对接企业用户基础信息、消费行为数据、流失行为数据、营销数据。进一步地,步骤1中,对数据源进行预处理包括数据清洗和数据标签。进一步地,步骤2中,分析维度配置包括标签分层可视化配置、定向分析维度可视化配置、子定向分析维度可视化配置。进一步地,步骤2中,标签分层可视化配置为,对连续性数字型数据进行分层枚举配置。进一步地,步骤2中,定向分析维度包括地域分析、流失预测、消费特征、营销转化,子定向分析维度包括对定向分析维度每个指标的支持次数值、用户数、累计值、均值。进一步地,步骤3中,聚类分析计算通过后台计算层实现,计算层采用分布式SparkSQL计算层。进一步地,步骤3中,需实时分析的目标客群数据可通过本地系统导入。本专利技术具有的有益效果:本专利技术针对数据源进行预处理,对数据进行标签并进行可视化配置;针对标签后的数据进行分析维度配置;确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群,进通过后台计算层进行聚类分析计算,并将分析结果进行可视化显示。本专利技术能够对目标客群实现实时分析,适应业务的快速变化需要对客群精准细分需求,满足可视化灵活配置分析维度和分析指标,任意指定分析客群,指定数据时间,实现实时计算聚类分析,获取分析结果并通过可视化分析功能模块进行专业图表展示。本专利技术解决不会SQL操作的业务人员,通过系统一键分析操作,便可以对任意客群进行多维度分析。本专利技术涉及的多维度多指标是可以灵活配置,解决由于业务变动,分析维度和分析指标经常会变动,只需要进行简单参数配置修改就能快速改变分析维度和分析指标。本专利技术可广泛适用于征信、银行、运营商等企业单位提供数据分析服务。本专利技术所说数据源采用SparkSQL分布式集群存储,根据业务需求目标对数据源进行获取,并进行相应的预处理,保证数据源获取的全面性,保证对目标客群的分析效果。本专利技术分析维度配置包括标签分层可视化配置、定向分析维度可视化配置、子定向分析维度可视化配置;标签分层可视化配置为,对连续性数字型数据进行分层枚举配置;定向分析维度包括地域分析、流失预测、消费特征、营销转化,子定向分析维度包括对定向分析维度每个指标的支持次数值、用户数、累计值、均值,本专利技术通过对分析维度的可视化配置,更加方便用户对分析目标的细分,保证对目标客群的分析效果。附图说明图1是本专利技术基于大数据任意客群多维度实时聚类分析的方法工作流程图;图2是本专利技术数据标签可视化配置示意图;图3是本专利技术数值分层配置示意图;图4是本专利技术定向维度配置示意图;图5是本专利技术子分析维度配置示意图;图6是本专利技术目标客户群选择示意图;图7是本专利技术聚类分析结果样例示意图。具体实施方式如图1所示,本专利技术一种基于大数据任意客群多维度实时聚类分析的方法,其特征在于,包括如下步骤:步骤1:针对数据源进行预处理,对数据进行标签并进行可视化配置。所说数据源采用SparkSQL分布式集群存储,根据业务需求如某指标提升,ARPU提升、套餐迁移等,确认数据分析多维度,确认获取接入的数据源。对数据源进行预处理包括数据清洗和数据标签,所说数据清洗为ETL处理,即数据抽取(extract)、交互转换(transform)、加载(load),形成高价值的准实时数据标签。步骤2:针对标签后的数据进行分析维度配置。分析维度配置包括标签分层可视化配置、定向分析维度可视化配置、子定向分析维度可视化配置。如图3所示,标签分层可视化配置为,对连续性数字型数据进行分层枚举配置。如图4所示,定向分析维度包括地域分析、流失预测、消费特征、营销转化。如图5所示,子定向分析维度包括对定向分析维度每个指标的支持次数值(count)、用户数(distinct去重)、累计值(求和∑)、均值(avg)。如确认一个大的定向维度地域,那么在地域基础上面进一步设置子分析维度,地域的用户数分布其中用户数就是分析子分析维度,地域的ARPU分层分布,ARPU分层分布也是子分析维度。当业务发生变化时,业务分析指标会跟着变更,提供可视化灵活配置功能。如原来某业务指标5MB以上为低流量,随着业务发展30MB以上为低流量,只需要简单可视化参数配置就能满足业务需求。步骤3:确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群进行聚类分析计算,并将分析结果进行可视化显示。聚类分析计算通过后台计算层实现,计算层采用分布式SparkSQL计算层。可采用一键聚类分析,即只需要一键操作,自动把要分析的用户群传送至后台计算层(大数据计算层)。计算层接收到目标客群,基于步骤2的分析维度配置,自动多表关联查找目标数据,通过USERID用户的唯一键进行多表关联聚类分析。如图7所示,秒级在页面可视化图标展示分析内容,把SparkSQL计算层的准实时结果数据在页面图标可视化展示,可快速查询多维度分析结果。需实时分析的目标客群数据可通过本地系统导入。支持从取数模型中选择目标客群,取数模型可以实现多维度的标签条件组合形成最终的用户群。本文档来自技高网...
【技术保护点】
1.一种基于大数据任意客群多维度实时聚类分析的方法,其特征在于,包括如下步骤:步骤1:针对数据源进行预处理,对数据进行标签并进行可视化配置;步骤2:针对标签后的数据进行分析维度配置;步骤3:确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群进行聚类分析计算,并将分析结果进行可视化显示。
【技术特征摘要】
1.一种基于大数据任意客群多维度实时聚类分析的方法,其特征在于,包括如下步骤:步骤1:针对数据源进行预处理,对数据进行标签并进行可视化配置;步骤2:针对标签后的数据进行分析维度配置;步骤3:确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群进行聚类分析计算,并将分析结果进行可视化显示。2.根据权利要求1所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:步骤1中,所说数据源采用SparkSQL分布式集群存储,根据业务需求目标对数据源进行获取。3.根据权利要求1所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:所说数据源包括对接企业用户基础信息、消费行为数据、流失行为数据、营销数据。4.根据权利要求1所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:步骤1中,对数据源进行预处理包括数据清洗和数据标签。5.根据权利要求1所述的基于大数据任意客...
【专利技术属性】
技术研发人员:饶翔,李红颖,
申请(专利权)人:南京安讯科技有限责任公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。