一种移动互联网实时流数据采集及分析的实现方法技术

技术编号:19327323 阅读:39 留言:0更新日期:2018-11-03 14:20
本发明专利技术公开了一种移动互联网实时流数据采集及分析的实现方法,包括实时采集、实时解析、数据实时存取、实时分析,所述实时采集是通过汇聚分流设备从网元设备的分光输出点实时获取O域数据,经过处理后发送到探针设备;所述实时解析是通过探针设备将从汇聚设备接收到的各端口光信号解密、回填用户号码、得到可以阅读的数据,并以协议数据流的方式实时传输到分析环节。有益效果在于:可以通过较小的投入,实现对海量O域数据的进行实时采集,完成复杂的分析,支撑实时应用,提升对移动用户互联网行为的实时感知,从而为实时场景化营销与服务奠定基础。

A realtime data acquisition and analysis method for mobile Internet

The invention discloses an implementation method of real-time stream data acquisition and analysis of mobile internet, including real-time acquisition, real-time analysis, real-time data access and real-time analysis. The real-time acquisition acquires real-time O-domain data from the splitting output point of the network element device through the convergence and diversion device, and sends it to the probe device after processing. The real-time parsing is to decrypt the optical signals received from the convergent device by the probe device, fill back the user number, get the readable data, and transmit it to the analysis link in real-time by means of protocol data stream. The beneficial effect is that we can collect massive O-domain data in real time, complete complex analysis, support real-time applications, and enhance the real-time perception of mobile users'Internet behavior, thus laying the foundation for real-time scenario marketing and services.

【技术实现步骤摘要】
一种移动互联网实时流数据采集及分析的实现方法
本专利技术涉及移动互联网数据分析设备领域,本专利技术涉及一种移动互联网实时流数据采集及分析的实现方法。
技术介绍
从TD-SCDMA、WCDMA、TD-LTE、FDD-LTE移动通信技术快速、全面应用以来,手机用户的使用习惯已经从单纯的拨打电话、发送短信、彩信迅速转变为包括看新闻、看小说、聊天、分享朋友圈、听音乐、追热剧、玩游戏、购物等涵盖生活各方面的多姿多彩的复杂内容,移动互联网用户人群迅速扩大。如何为这么庞大的人群服务好,同时获得相应回报,是通信运营企业的重中之重。要做好为用户服务,那就在想用户之所想,及用户之所及,首要的是掌握用户的习惯、行为。用户的习惯、行为是一个社会学的课题,从数据分析的领域来探讨,需要全面掌握用户的各项数据。运营商里最多的数据就是用户的业务办理数据,语音、短信、上网行为数据,以及用户在通信网络里的行走、开关数据。对于用户上网行为数据以及用户在通信网络里的行走、开关数据在数据分析领域里统称为O域数据,这些数据量是非常的庞大;对于这些数据的采集分析,已有一些传统的、比较粗糙的手段:网络运营、优化部门,为了跟踪网络质量,在各个网元设备仓上部署了采集探针,监控设备的负载情况以及用户通话、上网质量,应用面比较窄;数据分析部门,每天或者每小时从网运、网优那里获取解析出来的或多或少的O域数据,在Oracle或者GP或者Hive做离线数据分析,及时性不高。O域数据的量非常大,以重庆联通为例每秒100G,传统的数据处理办法是把解析成文件后再在数据库里进行模糊匹配识别,效率低下。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种移动互联网实时流数据采集及分析的实现方法。本专利技术通过以下技术方案来实现上述目的:一种移动互联网实时流数据采集及分析的实现方法,包括实时采集、实时解析、数据实时存取、实时分析,所述实时采集是通过汇聚分流设备从网元设备的分光输出点实时获取O域数据,经过处理后发送到探针设备;所述实时解析是通过探针设备将从汇聚设备接收到的各端口光信号解密、回填用户号码、得到可以阅读的数据,并以协议数据流的方式实时传输到分析环节,所述数据实时存取:Kafa是一种高吞吐量的分布式发布订阅消息系统,随存随取,可部署在X86集群上,主要由Producer(消息生产)、Consumer(消息消费)和Broker(消息存储节点)组成,使用zookeeper作为其分布式协调框架,很好的将上述三者结合在一起;所述实时分析:Storm是一个分布式的实时计算框架,完成的分析任务统称为Topology,由Spout、Streamgrouping、Bolt构成,可以简单的并发处理大量的数据流,该计算框架支持多种编程语言,本案中采用Java语言开发。本实施例中,所述实时采集包括光信号海量数据获取、数据分拣、数据过滤,其中光信号海量数据获取是通过多路万兆光口获取,光口的使用量可配置,根据输入数据量进行调整;数据分拣是指O域数据的原点是网元设备,网元设备各有作用,从这些点采集到的数据结构、功能以及应用方向也各不相同,分光系统是把各类数据混合传输出。要对这些数据进行解析,必须先按端口类型进行分拣,如Iups、Gn等端口;数据过滤是指上行数据是用户主动行为产生的,是分析及后续应用的重点,占总体数据比重为10%左右;下行数据是响应用户行为发送的数据,分析的意义不大,占总体数据比重约90%,通过路由规则把各端口的下行过滤掉,可以避免对处理能力的无意义消耗。本实施例中,所述实时解析包括数据解密、应用识别、用户号码回填与话单合成、实时流式输出,数据解密是指使用密钥端口的数据对加密端口的数据进行解密处理;应用识别是指按url规则识别出每款应用后,打上特征码标记;用户号码回填与话单合成是指O域原始数据有IMSI信息、无用户号码数据,需通过从redis读取IMSI-用户号码对应关系进行数据回填处理,合成包含imsi、msisdn、imei三元组的话单;实时流式输出是指通过定义的协议将解析后的得到的用户面、信令面按网元端口划分传输到kafka,等待后续处理。本实施例中,所述数据实时存取包括Topic创建、数据生产、数据消费,Topic创建是指按数据所属的网元端口的划分创建Topic,每个网元端口一个Topic,如cdr_WAP_text、cdr_SDR_text;数据生产是指Producer负责把接收到的数据送到对应端口所对应的Topic,一个Topic按imsi哈希分布式的存在在多个Broker节点的Partition上,避免某个节点过于繁忙;数据消费是指Consumer负责把指定的Topic数据从Broker节点的Partition上读取出来,流转到计算环节。本实施例中,所述实时分析包括数据读取、逻辑计算、分析结果存储,数据读取是指LTEUSSpout_ltespou/LTEXLSpout_ltespout/ProbeSpout从Kafka的多个Topic中并行读取要处理的数据,数据主要分为用户面、信令面两类,使用SpoutOutputCollector以StreamGrouping的方式把读取的数据Tuple送到负责各项数据计算的逻辑单元Bolt;逻辑计算是指根据具体某项数据分析的复杂度Bolt设置为1个或者多个,每个Bolt完成独立的计算工作,然后使用OutputCollector把数据Tuple流转到下一个Bolt,接着调用ack方法,通知Storm在它这个环节已经完成了处理,多个Bolt以流水线作业的方式共同完成数据的多步骤分析;分析结果存储是指把Bolt的分析结果输出到Kafka里对应的Topic上,等待后续应用来实时消费数据。本专利技术的有益效果在于:可以通过较小的投入,实现对海量O域数据的进行实时采集,完成复杂的分析,支撑实时应用,提升对移动用户互联网行为的实时感知,从而为实时场景化营销与服务奠定基础。附图说明图1是本专利技术所述一种移动互联网实时流数据采集及分析的实现方法的工作原理图。具体实施方式下面结合附图对本专利技术作进一步说明:如图1所示,一种移动互联网实时流数据采集及分析的实现方法,包括实时采集、实时解析、数据实时存取、实时分析,所述实时采集是通过汇聚分流设备从网元设备的分光输出点实时获取O域数据,经过处理后发送到探针设备;所述实时解析是通过探针设备将从汇聚设备接收到的各端口光信号解密、回填用户号码、得到可以阅读的数据,并以协议数据流的方式实时传输到分析环节,所述数据实时存取:Kafa是一种高吞吐量的分布式发布订阅消息系统,随存随取,可部署在X86集群上,主要由Producer(消息生产)、Consumer(消息消费)和Broker(消息存储节点)组成,使用zookeeper作为其分布式协调框架,很好的将上述三者结合在一起,所述实时分析:Storm是一个分布式的实时计算框架,完成的分析任务统称为Topology,由Spout、Streamgrouping、Bolt构成,可以简单的并发处理大量的数据流,该计算框架支持多种编程语言,本案中采用Java语言开发。本实施例中,所述实时采集包括光信号海量数据获取、数据分拣、数据过滤,其中光信号海量数据获取是通过多路万兆光口获取,光本文档来自技高网...

【技术保护点】
1.一种移动互联网实时流数据采集及分析的实现方法,其特征在于:包括实时采集、实时解析、数据实时存取、实时分析,所述实时采集是通过汇聚分流设备从网元设备的分光输出点实时获取O域数据,经过处理后发送到探针设备;所述实时解析是通过探针设备将从汇聚设备接收到的各端口光信号解密、回填用户号码、得到可以阅读的数据,并以协议数据流的方式实时传输到分析环节,所述数据实时存取:Kafa是一种高吞吐量的分布式发布订阅消息系统,随存随取,可部署在X86集群上,主要由Producer(消息生产)、Consumer(消息消费)和Broker(消息存储节点)组成,使用zookeeper作为其分布式协调框架,很好的将上述三者结合在一起,所述实时分析:Storm是一个分布式的实时计算框架,完成的分析任务统称为Topology,由Spout、Stream grouping、Bolt构成,可以简单的并发处理大量的数据流,该计算框架支持多种编程语言,本案中采用Java语言开发。

【技术特征摘要】
1.一种移动互联网实时流数据采集及分析的实现方法,其特征在于:包括实时采集、实时解析、数据实时存取、实时分析,所述实时采集是通过汇聚分流设备从网元设备的分光输出点实时获取O域数据,经过处理后发送到探针设备;所述实时解析是通过探针设备将从汇聚设备接收到的各端口光信号解密、回填用户号码、得到可以阅读的数据,并以协议数据流的方式实时传输到分析环节,所述数据实时存取:Kafa是一种高吞吐量的分布式发布订阅消息系统,随存随取,可部署在X86集群上,主要由Producer(消息生产)、Consumer(消息消费)和Broker(消息存储节点)组成,使用zookeeper作为其分布式协调框架,很好的将上述三者结合在一起,所述实时分析:Storm是一个分布式的实时计算框架,完成的分析任务统称为Topology,由Spout、Streamgrouping、Bolt构成,可以简单的并发处理大量的数据流,该计算框架支持多种编程语言,本案中采用Java语言开发。2.根据权利要求1所述的一种移动互联网实时流数据采集及分析的实现方法,其特征在于:所述实时采集包括光信号海量数据获取、数据分拣、数据过滤,其中光信号海量数据获取是通过多路万兆光口获取,光口的使用量可配置,根据输入数据量进行调整;数据分拣是指O域数据的原点是网元设备,网元设备各有作用,从这些点采集到的数据结构、功能以及应用方向也各不相同,分光系统是把各类数据混合传输出。要对这些数据进行解析,必须先按端口类型进行分拣,如Iups、Gn等端口;数据过滤是指上行数据是用户主动行为产生的,是分析及后续应用的重点,占总体数据比重为10%左右;下行数据是响应用户行为发送的数据,分析的意义不大,占总体数据比重约90%,通过路由规则把各端口的下行过滤掉,可以避免对处理能力的无意义消耗。3.根据权利要求1所述的一种移动互联网实时流数据采集及分析的实现方法,其特征在于:所述实时解析包括数据解密、应用识别、用户号码回填与话单合成、实时流式输出,数据解密是指使用密钥端口的数据对加密端口的数据进行解密处理;应用识别是指按url规则识别出...

【专利技术属性】
技术研发人员:王富强叶雄国亦家
申请(专利权)人:中国联合网络通信有限公司重庆市分公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1