本发明专利技术公开了一种基于移动通信信令大数据挖掘职住位置标签的系统及方法,其技术方案要点是,包括用于建立用户个体活动序列的用户个体活动序列建立单元,用于将小区位置信息划分成均匀的网格单元的网格生成单元,用于调用网格聚类分析算法计算得到在指定时段内的占用密集网格簇的网格聚类分析计算单元,用于调用密度聚类分析算法计算得到占用密集网格簇的质心的密度聚类分析计算单元,以及用于生成用户的职住位置标签的职住位置标签生成单元;本发明专利技术具有以下优点,1)不需要对用户行为序列数据的分布做任何假设,分析得到的结果与数据记录处理的顺序无关,客观度较好;2)自动发现存在聚类可能的子空间;3)降低了数据ETL的复杂度。
【技术实现步骤摘要】
本专利技术涉及基于大数据挖掘位置标签的
,更具体地说涉及基于移动通信信令大数据挖掘职住位置标签的系统及方法。
技术介绍
随着用户终端、业务应用及市场环境的不断发展,更多精确营销、业务发展和企业应用需要获知用户的工作及居住位置区域信息(职住位置),作为普及渗透率已高达70%的移动手机终端,其自身具有的随时携带性和网络终端定期/非定期交互特征,使得移动通信信令交互数据和用户行为数据成为分析用户职住位置标签的首选,并且因为移动通信信令数据中的位置信息是以无线小区(CI)标记的,而目前网络条件下的无线小区的平均覆盖半径在350米到700之间,所以可以在合理保护用户隐私的前提下,对用户的职住位置标签的评估分析和挖掘探查起到有效的支撑。现有对移动用户的职住位置标签的分析方法主要是采用在用户手机终端APP内嵌定期上报AGPS位置的代码,然后由手机或者无线上网卡连到无线网络,使得服务器端能够获取用户的位置信息以达到对位置信息的收集,然后采用TopN统计分析方法获得职住位置标签,并通过电话调查以及营业厅在进行业务办理时所采集到的身份证信息对由TopN统计分析方法获得结果进行验证。但目前省级运营商移动用户规模已达千万量级、无线基站小区数量也达到了数十万个,如此庞大的用户数量和深度覆盖水平,采用上述方式进行用户的职住位置标签的分析,显然在时效性、经济成本方面都是无法满足要求的。并且基于移动通信信令大数据进行用户的职住位置标签的挖掘分析时,需要引入时间序列和业务行为类型数据对用户行为与移动位置轨迹进行建模分析,使得数据具有较大的维度,而TopN统计分析方法对大维度数据的分析无法达到较理想的效果。聚类分析(ClusterAnalysis)方法能够支持对海量数据的多元统计分析,也常被用于用户的位置轨迹点出入规律的数据挖掘,但对于基于移动通信信令大数据进行职住位置的挖掘,由于缺乏先验知识和可供参考的预知模式,所以仅是一位用户在一个统计周期(两周或者一个月)内采集到的数据即可高达数千甚至上万个,从而形成了高维数据集合,众所周知,受“维度效应”的影响,许多在低维度数据空间表现良好的聚类方法在运用到高维数据集合中往往无法达到理想的聚类效果。因此,确有必要就基于移动通信信令大数据进行批量、高效的职住位置标签的挖掘分析进行更深一步的研究。
技术实现思路
本专利技术的第一目的在于提供一种基于移动通信信令大数据挖掘职住位置标签的系统,具有降低数据集合的维度,提高用户的职住位置标签的挖掘发现能力和计算效率的优点。本专利技术的上述目的是通过以下技术方案得以实现的:一种基于移动通信信令大数据挖掘职住位置标签的系统,包括用户个体活动序列建立单元,用于基于CS域移动用户信令数据和PS域移动用户信令及业务XDR详单日志中的用户行为和网络事件记录,按照“事件活动位置—事件起始时间—事件持续时长”模型建立用户个体活动序列;网格生成单元,用于将移动用户信令和行为XDR日志中记录的小区位置信息按照经纬度信息划分成均匀的网格单元;网格聚类分析计算单元,用于将XDR记录中的LAC/CI信息按照经纬度信息映射到对应的所述网格单元中,并调用网格聚类分析算法计算得到在指定时段内的占用密集网格簇;密度聚类分析计算单元,用于调用密度聚类分析算法计算得到所述占用密集网格簇的质心;职住位置标签生成单元,用于基于所述网格簇的质心生成用户的职住位置标签。采用上述方案,将CS域移动用户信令数据和PS域移动用户信令及业务XDR详单日志中的用户行为和网络事件的数据记录构建为用户个体活动序列,降低了数据集合的维度,使得采用网格聚类分析算法能够获得较理想的聚类效果,从而实现对用户位置轨迹点出入规律的数据挖掘。作为优选,所述网格聚类分析计算单元包括网格筛选子单元,用于在调用网格聚类分析算法之前,根据预设的密度阈值和稀疏密度阈值将网格单元分类为密集网格单元和稀疏网格单元,并删除所述稀疏网格单元。采用上述方案,通过理论分析和实验证明,删除稀疏网格单元不会影响到网格聚类分析算法的聚类质量,并且删除稀疏网格单元可减少不必要的计算数据,提高网格聚类分析算法的计算速度。作为优选,所述网格聚类分析计算单元还包括网格聚类结果输出子单元,用于根据计算得到的所述占用密集网格簇,调用TopN统计分析方法分别生成在指定时段内的Top5用户活动密集区块、用户事件发生频度最高小区以及用户事件持续时长最高小区,并分别写入所述网格聚类结果输出子单元中建有的二级表单中。采用上述方案,通过采用TopN统计分析方法对占用密集网格簇进行分析,可获得一个粗略的区域范围结果。作为优选,所述密度聚类分析计算单元调用的密度聚类分析算法为DBSCAN算法。采用上述方案,DBSCAN算法是一个比较有代表性的基于密度的聚类算法,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。作为优选,所述密度聚类分析计算单元调用的DBSCAN算法用于将所述占用密集网格簇中的所有点标记为核心点、边界点或者噪声点,并将任意两个距离小于预设的距离阈值的所述核心点归为同一个簇,以及将与所述核心点的距离小于距离阈值的所述边界点也归为同一个簇。采用上述方案,在数据量较大时,DBSCAN算法的时间复杂度是相当高,如此一来就需要进行非常多次的区域查询,通过上述方式,改进DBSCAN的时间复杂度,以起到降低区域查询次数的作用,提高计算速度。本专利技术的第二目的在于提供一种基于移动通信信令大数据挖掘职住位置标签的方法,具有降低数据集合的维度,提高用户的职住位置标签的挖掘发现能力和计算效率的优点。本专利技术的上述目的是通过以下技术方案得以实现的:一种基于移动通信信令大数据挖掘职住位置标签的方法,包括下列步骤:步骤一,基于CS域移动用户信令数据和PS域移动用户信令及业务XDR详单日志中的用户行为和网络事件记录,按照“事件活动位置—事件起始时间—事件持续时长”模型建立用户个体活动序列;步骤二,将移动用户信令和行为XDR日志中记录的小区位置信息按照经纬度信息划分成均匀的网格单元;步骤三,将XDR记录中的LAC/CI信息按照经纬度信息映射到对应的所述网格单元中,并调用网格聚类分析算法计算得到在指定时段内的占用密集网格簇;步骤四,调用密度聚类分析算法计算得到所述占用密集网格簇的质心;步骤五,基于所述网格簇的质心生成用户的职住位置标签。采用上述方案,将CS域移动用户信令数据和PS域移动用户信令及业务XDR详单日志中的用户行为和网络事件的数据记录构建为用户个体活动序列,降低了数据集合的维度,使得采用网格聚类分析算法能够获得较理想的聚类效果,从而实现对用户位置轨迹点出入规律的数据挖掘。作为优选,所述步骤二还包括:在调用网格聚类分析算法之前,根据预设的密度阈值和稀疏密度阈值将网格单元分类为密集网格单元和稀疏网格单元,并删除所述稀疏网格单元。采用上述方案,通过理论分析和实验证明,删除稀疏网格单元不会影响到网格聚类分析算法的聚类质量,并且删除稀疏网格单元可减少不必要的计算数据,提高网格聚类分析算法的计算速度。作为优选,所述步骤二还包括:根据计算得到占用密集网格簇后,调用TopN统计分析方法分别生成在指定时段内的Top5用户活动密集区块、用户事件发生频度最高小区以及用户事件持本文档来自技高网...
【技术保护点】
一种基于移动通信信令大数据挖掘职住位置标签的系统,其特征是:包括用户个体活动序列建立单元(101),用于基于CS域移动用户信令数据和PS域移动用户信令及业务XDR详单日志中的用户行为和网络事件记录,按照“事件活动位置—事件起始时间—事件持续时长” 模型建立用户个体活动序列;网格生成单元(102),用于将移动用户信令和行为XDR日志中记录的小区位置信息按照经纬度信息划分成均匀的网格单元;网格聚类分析计算单元(103),用于将XDR记录中的LAC/CI信息按照经纬度信息映射到对应的所述网格单元中,并调用网格聚类分析算法计算得到在指定时段内的占用密集网格簇;密度聚类分析计算单元(104),用于调用密度聚类分析算法计算得到所述占用密集网格簇的质心;职住位置标签生成单元(105),用于基于所述网格簇的质心生成用户的职住位置标签。
【技术特征摘要】
1.一种基于移动通信信令大数据挖掘职住位置标签的系统,其特征是:包括用户个体活动序列建立单元(101),用于基于CS域移动用户信令数据和PS域移动用户信令及业务XDR详单日志中的用户行为和网络事件记录,按照“事件活动位置—事件起始时间—事件持续时长”模型建立用户个体活动序列;网格生成单元(102),用于将移动用户信令和行为XDR日志中记录的小区位置信息按照经纬度信息划分成均匀的网格单元;网格聚类分析计算单元(103),用于将XDR记录中的LAC/CI信息按照经纬度信息映射到对应的所述网格单元中,并调用网格聚类分析算法计算得到在指定时段内的占用密集网格簇;密度聚类分析计算单元(104),用于调用密度聚类分析算法计算得到所述占用密集网格簇的质心;职住位置标签生成单元(105),用于基于所述网格簇的质心生成用户的职住位置标签。2.根据权利要求1所述的基于移动通信信令大数据挖掘职住位置标签的系统,其特征是:所述网格聚类分析计算单元(103)包括网格筛选子单元(1031),用于在调用网格聚类分析算法之前,根据预设的密度阈值和稀疏密度阈值将所述网格单元分类为密集网格单元和稀疏网格单元,并删除所述稀疏网格单元。3.根据权利要求2所述的基于移动通信信令大数据挖掘职住位置标签的系统,其特征是:所述网格聚类分析计算单元(103)还包括网格聚类结果输出子单元(1032),用于根据计算得到的所述占用密集网格簇,调用TopN统计分析方法分别生成在指定时段内的Top5用户活动密集区块、用户事件发生频度最高小区以及用户事件持续时长最高小区,并分别写入所述网格聚类结果输出子单元中建有的二级表单中。4.根据权利要求1所述的基于移动通信信令大数据挖掘职住位置标签的系统,其特征是:所述密度聚类分析计算单元(104)调用的密度聚类分析算法为DBSCAN算法。5.根据权利要求4所述的基于移动通信信令大数据挖掘职住位置标签的系统,其特征是:所述密度聚类分析计算单元(104)调用的DBSCAN算法用于将所述占用密集网格...
【专利技术属性】
技术研发人员:刘禹,
申请(专利权)人:浙江夏农信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。