The invention discloses an implementation method of real-time stream data acquisition and analysis of mobile internet, including real-time acquisition, real-time analysis, real-time data access and real-time analysis. The real-time acquisition acquires real-time O-domain data from the splitting output point of the network element device through the convergence and diversion device, and sends it to the probe device after processing. The real-time parsing is to decrypt the optical signals received from the convergent device by the probe device, fill back the user number, get the readable data, and transmit it to the analysis link in real-time by means of protocol data stream. The beneficial effect is that we can collect massive O-domain data in real time, complete complex analysis, support real-time applications, and enhance the real-time perception of mobile users'Internet behavior, thus laying the foundation for real-time scenario marketing and services.
【技术实现步骤摘要】
一种移动互联网实时流数据采集及分析的实现方法
本专利技术涉及移动互联网数据分析设备领域,本专利技术涉及一种移动互联网实时流数据采集及分析的实现方法。
技术介绍
从TD-SCDMA、WCDMA、TD-LTE、FDD-LTE移动通信技术快速、全面应用以来,手机用户的使用习惯已经从单纯的拨打电话、发送短信、彩信迅速转变为包括看新闻、看小说、聊天、分享朋友圈、听音乐、追热剧、玩游戏、购物等涵盖生活各方面的多姿多彩的复杂内容,移动互联网用户人群迅速扩大。如何为这么庞大的人群服务好,同时获得相应回报,是通信运营企业的重中之重。要做好为用户服务,那就在想用户之所想,及用户之所及,首要的是掌握用户的习惯、行为。用户的习惯、行为是一个社会学的课题,从数据分析的领域来探讨,需要全面掌握用户的各项数据。运营商里最多的数据就是用户的业务办理数据,语音、短信、上网行为数据,以及用户在通信网络里的行走、开关数据。对于用户上网行为数据以及用户在通信网络里的行走、开关数据在数据分析领域里统称为O域数据,这些数据量是非常的庞大;对于这些数据的采集分析,已有一些传统的、比较粗糙的手段:网络运营、优化部门,为了跟踪网络质量,在各个网元设备仓上部署了采集探针,监控设备的负载情况以及用户通话、上网质量,应用面比较窄;数据分析部门,每天或者每小时从网运、网优那里获取解析出来的或多或少的O域数据,在Oracle或者GP或者Hive做离线数据分析,及时性不高。O域数据的量非常大,以重庆联通为例每秒100G,传统的数据处理办法是把解析成文件后再在数据库里进行模糊匹配识别,效率低下。
技术实现思路
本专利技术的 ...
【技术保护点】
1.一种移动互联网实时流数据采集及分析的实现方法,其特征在于:包括实时采集、实时解析、数据实时存取、实时分析,所述实时采集是通过汇聚分流设备从网元设备的分光输出点实时获取O域数据,经过处理后发送到探针设备;所述实时解析是通过探针设备将从汇聚设备接收到的各端口光信号解密、回填用户号码、得到可以阅读的数据,并以协议数据流的方式实时传输到分析环节,所述数据实时存取:Kafa是一种高吞吐量的分布式发布订阅消息系统,随存随取,可部署在X86集群上,主要由Producer(消息生产)、Consumer(消息消费)和Broker(消息存储节点)组成,使用zookeeper作为其分布式协调框架,很好的将上述三者结合在一起,所述实时分析:Storm是一个分布式的实时计算框架,完成的分析任务统称为Topology,由Spout、Stream grouping、Bolt构成,可以简单的并发处理大量的数据流,该计算框架支持多种编程语言,本案中采用Java语言开发。
【技术特征摘要】
1.一种移动互联网实时流数据采集及分析的实现方法,其特征在于:包括实时采集、实时解析、数据实时存取、实时分析,所述实时采集是通过汇聚分流设备从网元设备的分光输出点实时获取O域数据,经过处理后发送到探针设备;所述实时解析是通过探针设备将从汇聚设备接收到的各端口光信号解密、回填用户号码、得到可以阅读的数据,并以协议数据流的方式实时传输到分析环节,所述数据实时存取:Kafa是一种高吞吐量的分布式发布订阅消息系统,随存随取,可部署在X86集群上,主要由Producer(消息生产)、Consumer(消息消费)和Broker(消息存储节点)组成,使用zookeeper作为其分布式协调框架,很好的将上述三者结合在一起,所述实时分析:Storm是一个分布式的实时计算框架,完成的分析任务统称为Topology,由Spout、Streamgrouping、Bolt构成,可以简单的并发处理大量的数据流,该计算框架支持多种编程语言,本案中采用Java语言开发。2.根据权利要求1所述的一种移动互联网实时流数据采集及分析的实现方法,其特征在于:所述实时采集包括光信号海量数据获取、数据分拣、数据过滤,其中光信号海量数据获取是通过多路万兆光口获取,光口的使用量可配置,根据输入数据量进行调整;数据分拣是指O域数据的原点是网元设备,网元设备各有作用,从这些点采集到的数据结构、功能以及应用方向也各不相同,分光系统是把各类数据混合传输出。要对这些数据进行解析,必须先按端口类型进行分拣,如Iups、Gn等端口;数据过滤是指上行数据是用户主动行为产生的,是分析及后续应用的重点,占总体数据比重为10%左右;下行数据是响应用户行为发送的数据,分析的意义不大,占总体数据比重约90%,通过路由规则把各端口的下行过滤掉,可以避免对处理能力的无意义消耗。3.根据权利要求1所述的一种移动互联网实时流数据采集及分析的实现方法,其特征在于:所述实时解析包括数据解密、应用识别、用户号码回填与话单合成、实时流式输出,数据解密是指使用密钥端口的数据对加密端口的数据进行解密处理;应用识别是指按url规则识别出...
【专利技术属性】
技术研发人员:王富强,叶雄,国亦家,
申请(专利权)人:中国联合网络通信有限公司重庆市分公司,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。