The extraction method of the invention discloses a mobile phone number of the mass, which comprises the following steps: S10, using a distributed web server framework, respectively sub text data collection in the URL to a local file pool; S20, the number of text data of the local file pool was obtained by adding on to the hdfs1 cloud distributed file system Hadoop; S40, using data warehouse tools hive Hadoop from the cloud distributed file system in the hdfs1 number in the text data extraction URL distributed mobile phone number. The present invention in big data application scenarios, the text data convergence to a local file in the pool, the number of text data uploaded to the cloud distributed file system, then the use of hive for distributed computing to distributed extraction; so as to realize the efficient extraction of massive mobile phone number, and has the advantages of low consumption of resources.
【技术实现步骤摘要】
本专利技术属于数据提取
,尤其涉及手机号码的海量提取方法及系统。
技术介绍
在互联网飞速发展的今天,对用户在使用网络资源时所表现出来的规律、个性化的习惯进行分析(也称用户行为分析)后;提取并了解到用户的兴趣。一方面,可以对用户个性化定制与推送,为网站访问者提供更加主动的、智能化的服务。另一方面,从用户行为的不同表现,发现其兴趣和偏好,可以优化页面之间组织关系,完善网站系统架构,从而减轻用户寻找信息的负担,使其操作更加简单,节约时间和精力。然而,在向用户进行个性化定制与推送时,需要提前知道用户终端的身份信息(手机号码)后,才能向该用户终端推送相关信息。目前,是在用户终端上网时,从URL中提取用户终端的手机号码。由于在线用户数量庞大,直接利用本地关系数据库技术、以及传统的提取方法,会消耗大量资源和内存,并且效率低下,不能很好满足手机号码的海量提取。
技术实现思路
本专利技术提供的技术方案如下:本专利技术提供一种手机号码的海量提取方法,包括以下步骤:S10、利用分布式web服务器框架,分别将各URL中的子文本数据收集到本地文件池;S20、将所述本地文件池内累加得到的号码文本数据上传至hadoop的云端分布式文件系统hdfs1;S40、利用hadoop的数据仓库工具hive从所述云端分布式文件系统hdfs1内号码文本数据中分布式提取URL的手机号码。进一步,所述步骤S20进一步包括:S21、对所述本地文件池内的子文本数据进行提取、清洗后,累加合并成文本数据;S22、判断所述文本数据中是否存在电话号码;S23、当所述文本数据中不存在电话号码时,则对所述文本数据进 ...
【技术保护点】
一种手机号码的海量提取方法,其特征在于,包括以下步骤:S10、利用分布式web服务器框架,分别将各URL中的子文本数据收集到本地文件池;S20、将所述本地文件池内累加得到的号码文本数据上传至hadoop的云端分布式文件系统hdfs1;S40、利用hadoop的数据仓库工具hive从所述云端分布式文件系统hdfs1内号码文本数据中分布式提取URL的手机号码。
【技术特征摘要】
1.一种手机号码的海量提取方法,其特征在于,包括以下步骤:S10、利用分布式web服务器框架,分别将各URL中的子文本数据收集到本地文件池;S20、将所述本地文件池内累加得到的号码文本数据上传至hadoop的云端分布式文件系统hdfs1;S40、利用hadoop的数据仓库工具hive从所述云端分布式文件系统hdfs1内号码文本数据中分布式提取URL的手机号码。2.如权利要求1所述的手机号码的海量提取方法,其特征在于,所述步骤S20进一步包括:S21、对所述本地文件池内的子文本数据进行提取、清洗后,累加合并成文本数据;S22、判断所述文本数据中是否存在电话号码;S23、当所述文本数据中不存在电话号码时,则对所述文本数据进行过滤检测并删除。3.如权利要求2所述的手机号码的海量提取方法,其特征在于,所述步骤S20进一步还包括:S24、当所述文本数据中存在电话号码时,则对所述文本数据中的电话号码进行正则匹配处理;S25、判断所述文本数据中的电话号码是否为新电话号码;S26、当所述电话号码为新电话号码时,则按照所述云端分布式文件系统hdfs1的块的大小,对存在新电话号码的文本数据合并成号码文本数据;S27、利用本地分布式文件系统hdfs2将所述号码文本数据上传至所述云端分布式文件系统hdfs1。4.如权利要求2所述的手机号码的海量提取方法,其特征在于,所述步骤S21进一步包括:S211、提取所述子文本数据的文件名中的路由器MAC和时间戳;S212、识别出所述路由器MAC和时间戳是否遇到乱码;S213、当所述路由器MAC和时间戳遇到乱码时,则对所述乱码进行清洗,累加合并成文本数据后,跳转至步骤S22;否则,直接跳转至步骤S22。5.如权利要求1所述的手机号码的海量提取方法,其特征在于,还包括以下步骤:S30、所述数据仓库工具hive向开源计算框架TEZ发送计算请求;S31、所述开源计算框架TEZ对所述号码文...
【专利技术属性】
技术研发人员:欧阳涛,
申请(专利权)人:上海斐讯数据通信技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。