一种基于大数据的手机用户类型标记方法技术

技术编号:20628285 阅读:25 留言:0更新日期:2019-03-20 17:51
本发明专利技术涉及数据分析技术领域,具体涉及一种基于大数据的手机用户类型标记方法。本发明专利技术通过每天获取通信运营商提供的前一天的移动业务信令数据,与地图服务商提供的地理实体边界有机结合,通过对手机用户每一次驻留的具体地理实体进行精确定位,形成该用户当天的定位轨迹链,并结合历史的定位轨迹链,分析出该用户的工作地点、居住地点、经常去的娱乐场所等信息,并形成用户特征标签,能够使移动业务信令数据的价值得到充分的释放,具有极强的实用性。

A Mobile User Type Marking Method Based on Big Data

The invention relates to the technical field of data analysis, in particular to a mobile phone user type marking method based on large data. The invention obtains the mobile service signaling data of the previous day provided by the telecommunication operator every day, combines with the geographical entity boundary provided by the map service provider organically, and accurately locates the specific geographical entity of the mobile phone user each time he resides to form the location trajectory chain of the user on the same day, and combines the historical location trajectory chain to analyze the user's work place and residence. Location, frequently visited entertainment places and other information, and the formation of user feature labels, can make the value of mobile service signaling data fully released, with strong practicability.

【技术实现步骤摘要】
一种基于大数据的手机用户类型标记方法
本专利技术涉及数据分析
,具体涉及一种基于大数据的手机用户类型标记方法。
技术介绍
生活在现代,手机给我们每一个人都带来了很大的便利,不管是订外卖还是打车,一部电话,可以说是把所有的事情都可以搞定了。可以这么说,手机是现代最伟大的专利技术也不为过,因为它极速的增加了我们与这个世界的沟通与交流,也缩短了人与人交流的障碍。从早上起床,到晚上睡觉的一整天时间里,手机总是被人们放置在触控范围内。出门时,手机也是和钥匙具有同等重要的地位,因此,手机与人基本上是24小时寸步不离。手机在连接通信网络时,是通过设置在各地的基站进行的,在同一时间,一个手机也只会与一个基站进行连接,因为各地的基站设置位置是固定和已知的,故当手机与基站进行连接时,就可以知道该手机的大概位置,即使用手机的用户的大概位置。但是现有的利用移动业务信令数据进行手机用户定位分析的方法大多存在定位不准确,不智能,更不能通过该业务信令数据分析出手机用户的个人情况,不能充分利用现有的移动业务信令的问题。
技术实现思路
本专利技术目提供了一种基于大数据的手机用户类型标记方法,解决了现有技术中不能对手机用户的个人情况进行分析的问题。本专利技术所采用的技术方案为:一种基于大数据的手机用户类型标记方法,包括以下步骤:S1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;S2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;S3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;由于是业务信令,即一个时间点只有一个基站。但由于用户在一个位置时,可能由于多种因素会发生基站切换,即用户连续的多条业务信令可能均指向一个位置,因此需要将用户的业务信令按时间、空间关系进行聚合;S4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;S5、根据用户每一时刻的定位,按照时间先后生成用户每天的定位轨迹链,结合用户历史的定位轨迹链,为用户打上特征标签,标签内容包括职业、居住地和工作地。作为上述技术方案的优选,所述步骤S2中,形成地理实体特征指纹的步骤为:S201、根据基站工程参数计算基站的覆盖面;S202、根据地理实体的覆盖范围和基站的覆盖面,通过gis空间计算引擎,计算得到地理实体和基站覆盖的交叉面积S;所述地理实体的覆盖范围为:将地图服务商提供的地理实体实际位置坐标点进行两两相连,形成封闭的覆盖区域,即为地理实体覆盖范围;S203:通过基站的工程参数计算出基站的覆盖面积Sb;S204:通过基站的覆盖面积Sb和交叉面积S,通过方程计算地理实体和基站的空间关系系数α,计算方程为:α=S÷Sb;S205:输出地理实体和覆盖该地理实体的基站的关系:{B,{Lc1,α},{Lc2,α}{Lc3,α}..{Lcn,α}}(1)其中,B为地理实体,Lc为基站编号。作为上述技术方案的优选,所述步骤S3中,确定用户的业务信令轨迹数据特征包括如下步骤:S301、对用户业务信令记录按发生时间进行排序,如连续的业务信令记录出现往复切换,则将这两条业务信令记录合并;例如基站A->…->基站A这样的切换,如两次出现基站A的时间间隔不超过2小时,且两次基站A之前出现的其他基站和基站A之间的距离均不超过1km,则将这些记录合并;S302、将时间间隔在1分钟的业务信令数据合并;由于业务信令采集来源为多个数据源,且各数据源时间可能有些许差异,故将时间间隔在1分钟的业务信令数据合并;S303、迭代执行步骤S301和步骤S302,直到无法合并为止;S304、合并后的记录按“开始-结束”时间划分为多个时段,每个时段内存在多条记录,修正错误数据,找到每个时段内出现时间最长的基站,并剔除时段内跟该基站距离大于1km的记录;S305、历史数据学习,将步骤S304处理后的记录存入数据库,并与历史记录进行相似度匹配,将相似的历史记录并入该时段;S306、计算同一时段中出现过的每个基站在近一个月中的出现频次W;S307、输出合并后的记录:{U,Ts,Te,{Lc1,W1},{Lc2,W2},{Lc3,W3}…{Lcn,Wn}}(2)其中,U为用户标识,Ts为时段开始时间,Te为时段结束时间,Lcn为基站小区标识,Wn为基站小区在近一个月的出现频次。作为上述技术方案的优选,所述S305中,如历史记录中存在跟该时段相似度大于80%,且均为工作日或均为非工作日,且历史记录的中的基站经纬度跟当前时段中所有基站的经纬度距离均小于1km,则将历史记录也并入该时段。时段相似度=两时段内相同分钟数的平方÷(时段一分钟数×时段二分钟数)。作为上述技术方案的优选,所述步骤S4中,判断用户在每一时段所处的具体地理实体包括:将式(1)和式(2)按照方程(3)进行关联计算,得到用户在该时段可能所在的可能性大小P,方程(3)为:P{u,b}=∑W*α(3)形成每个用户每个时段在各地理实体内的可能性大小数据集,{U,Ts,Te,{B1,P1},{B2,P2},{B3,P3}…{Bn,Pn}}(4)其中P最大的一个地理实体即为用户该时段的驻留位置。作为上述技术方案的优选,所述基站工程参数包括地区区域码、基站识别码、网络制式、天线类型、天线方位角、基站覆盖类型、基站天线位置经度坐标和基站天线位置纬度坐标;所述移动业务信令数据包括时间、用户号码和基站编号。作为上述技术方案的优选,所述基站覆盖类型包括室内型和非室内型;所述天线类型包括全向天线和定向天线;所述室内型基站的覆盖半径R为固定值;非室内型基站的覆盖半径R为,该基站天线经纬度坐标和最近的三个非室内型基站的平均距离与特定系数的乘积。所述特定系数为1.6;所述室内型基站的覆盖半径R默认为400米;作为上述技术方案的优选,所述全向天线基站覆盖面的计算方法为:以天线经纬度为中心点,每隔45度向外延伸基站覆盖半径R的长度,分别得到八个坐标点,将相邻的坐标点用直线两两连接,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面。作为上述技术方案的优选,所述定向天线基站覆盖面的计算方法为:以天线经纬度为中心点,分别按角度A、A+H÷6、A+H÷3、A+H÷2、A-H÷6、A-H÷3和A+H÷2向外延伸基站覆盖半径R的长度,得到七个坐标点,将相邻的坐标点用直线两两连接,两端的两个坐标点分别与天线经纬度点相连,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面;所述角度A为天线方位角,角度H为水平波瓣角度。所述水平波瓣角度计算方法为,若该基站定向天线数量小于等于2,则为180度,否则为120度。作为上述技术方案的优选,所述步骤S5中,为用户打上特征标签的方法为:S501、根据用户的历史定位轨迹链,统计出用户当月在该地理实体的驻留频次、驻留开始时段、驻留结束时段、平均驻留时长、工作日驻留天数、非工作日驻留天数和同类位置驻留天数;S502、根据S501中统计出的数据,对用户的每一次驻留行为打上行为标签,行为标签包括居住和工作;S503、根据行为标签,结合地理实体类型,采用非监督聚类分析方法,为用户打上特征标签。所述地理实体类型由地图服务商提供。本发本文档来自技高网...

【技术保护点】
1.一种基于大数据的手机用户类型标记方法,其特征在于,包括以下步骤:S1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;S2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;S3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;S4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;S5、根据用户每一时刻的定位,按照时间先后生成用户每天的定位轨迹链,结合用户历史的定位轨迹链,为用户打上特征标签,特征标签内容包括职业、居住地和工作地。

【技术特征摘要】
1.一种基于大数据的手机用户类型标记方法,其特征在于,包括以下步骤:S1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;S2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;S3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;S4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;S5、根据用户每一时刻的定位,按照时间先后生成用户每天的定位轨迹链,结合用户历史的定位轨迹链,为用户打上特征标签,特征标签内容包括职业、居住地和工作地。2.根据权利要求1所述的基于大数据的手机用户类型标记方法,其特征在于,所述步骤S2中,形成地理实体特征指纹的步骤为:S201、根据基站工程参数计算基站的覆盖面;S202、根据地理实体的覆盖范围和基站的覆盖面,通过gis空间计算引擎,计算得到地理实体和基站覆盖的交叉面积S;S203:通过基站的工程参数计算出基站的覆盖面积Sb;S204:通过基站的覆盖面积Sb和交叉面积S,通过方程计算地理实体和基站的空间关系系数α,计算方程为:α=S÷Sb;S205:输出地理实体和覆盖该地理实体的基站的关系:{B,{Lc1,α},{Lc2,α}{Lc3,α}..{Lcn,α}}(1)其中,B为地理实体,Lc为基站编号。3.根据权利要求2所述的基于大数据的手机用户类型标记方法,其特征在于,所述步骤S3中,确定用户的业务信令轨迹数据特征包括如下步骤:S301、对用户业务信令记录按发生时间进行排序,如连续的业务信令记录出现往复切换,则将这两条业务信令记录合并;S302、将时间间隔在1分钟的业务信令数据合并;S303、迭代执行步骤S301和步骤S302,直到无法合并为止;S304、修正错误数据,找到每个时段内出现时间最长的基站,并剔除时段内跟该基站距离大于1km的记录;S305、历史数据学习,将步骤S304处理后的记录存入数据库,并与历史记录进行相似度匹配,将相似的历史记录并入该时段;S306、计算同一时段中出现过的每个基站在近一个月中的出现频次W;S307、输出合并后的记录:{U,Ts,Te,{Lc1,W1},{Lc2,W2},{Lc3,W3}…{Lcn,Wn}}(2)其中,U为用户标识,Ts为时段开始时间,Te为时段结束时间,Lcn为基站小区标识,Wn为基站小区在近一个月的出现频次。4.根据权利要求3所述的基于大数据的手机用户类型标记方法,其特征在于,所述S305中,如历史记录中存在跟该时段相似度大于80%,且均为工作日或均为非工...

【专利技术属性】
技术研发人员:周俊蓉蓝良姬
申请(专利权)人:成都方未科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1