一种基于归属地占比的网络流量提取手机号码的方法技术

技术编号:36794311 阅读:14 留言:0更新日期:2023-03-08 22:55
本发明专利技术公开了一种基于归属地占比的网络流量提取手机号码的方法。电信运营商普遍建设了大规模家庭宽带网络流量分析系统,也即,DPI数据采集系统,用于保障网络质量、分析用户行为,以更好的服务宽带用户。其中,从网络流量中提取对应终端的手机号码,将家庭、终端和行为一一对应,可以更好的向用户提供带宽保障、精准信息推送,提升用户体验,具有很好的应用价值。然而,通过实际测试,从运营商的DPI数据采集系统中通过字符串特征匹配所挖掘出的号码进行用户外呼,成功率很低,普遍只有10%以下;并且在进行统计时发现异地和本地的占比接近10∶1,这是非常不正常的现象。通过手机号码归属地分析,如果挖掘出来的是本地号码的总数大于外地号码,则号码整体准确率就会提升。本发明专利技术涉及步骤:通过在DPI数据采集系统中挖掘携带号码的关键字提取号码;同时,采用归属地占比分析,精确提取出准确的手机号码。本发明专利技术相比于过去抓包找携带号码的关键字提取号码,以及添加黑名单应用过滤异常号码的方式;只需要号码特征将所有类似号码的字符串去除,再通过号码本身的规律就能取出大量准确的号码,极大的提升了手机号码提取的精准度。的提升了手机号码提取的精准度。的提升了手机号码提取的精准度。

【技术实现步骤摘要】
一种基于归属地占比的网络流量提取手机号码的方法


[0001]本专利技术涉及一种基于归属地占比的网络流量提取手机号码的方法,属于互联网大数据挖掘的


技术介绍

[0002]现如今DPI深度报文检测技术已经发展的相当成熟,运营商通过DPI平台已经累积了海量的流量数据。通信运营商通过这些流量数据已经提取出了如号码等关键字段;通过号码塑造家庭画像,进而对家庭实施精准的融合业务营销、异网用户策反等经营手段。
[0003]然而,通过实际测试,从运营商的DPI数据采集系统中通过字符串特征匹配所挖掘出的号码进行用户外呼,成功率很低,普遍只有10%以下;并且在进行统计时发现异地和本地的占比接近10∶1,这是非常不正常的现象。通过手机号码归属地分析,如果挖掘出来的是本地号码的总数大于外地号码,则号码整体准确率就会提升。
[0004]因此本专利技术提供了一种基于DPI流量数据对提取到的手机号码做进一步的归属地占比分析,提高其置信度。本专利技术相比于过去抓包找携带号码的关键字提取号码,以及添加黑名单应用过滤异常号码的方式;只需要号码特征将所有类似号码的字符串去除,再通过号码本身的规律就能取出大量准确的号码,极大的提升了生产力。

技术实现思路

[0005]本专利技术所要解决的技术问题在于克服现有技术的不足,提供一种基于归属地占比的网络流量提取手机号码的方法,相比于过去抓包找携带号码的关键字提取号码,以及添加黑名单应用过滤异常号码的方式,对挖掘出的号码外呼时成功率只有不到10%,并且在统计本地与异地的号码占比发现仅有1∶10,这种现象是十分不正常的。
[0006]本专利技术具体采用以下技术方案解决上述技术问题:
[0007]首先包括以下步骤:
[0008]步骤一、通过抓包测试获取用户终端的上网流量信息中特征字符串和流量信息中HTTP请求和host中的关键字;
[0009]步骤二、利用得到的特征字符串、HTTP请求和host关键字对DPI数据采集系统中的数据提取获得用户的号码信息;
[0010]步骤三、提取出host下带有号码的数据,表格如下:
[0011][0012]步骤四、分别对host下外地和本地的号码做去重后的总数统计,
[0013]外地号码表格如下:
[0014][0015]本地号码表格如下:
[0016][0017][0018]步骤五、对外地号码和本地号码做占比分析,并分别以外地号码总数和本地号码总数为排序标准进行排序。
[0019]以外地号码总数为排序标准的结果:
[0020][0021]可以看到外地号码数量多的应用,本地号码在外地号码的占比平均在3%

9%之间。
[0022]以本地地号码总数为排序标准的结果:
[0023][0024]可以看到本地号码数量多的应用,其本地号码占比大多大于外地号码。
[0025]步骤六、对步骤五计算出的占比进行分析。随机挑选一个应用查看数据结果,下表
以爱奇艺为例,提取出所有爱奇艺的host下带有的号码,按照占比字段的值由多到少进行排序。本地占比多:
[0026][0027]外地占比多:
[0028][0029]发现本地号码占比多的分别为在游戏,支付,账号,vip服务等host;而本地占比低的大多在api,日志信息,广告和搜索上,思路验证正确,只需将本地占比多的host下的号码取出即可
[0030]本专利技术采用上述技术方案,能产生如下技术效果:
[0031]本专利技术提供一种基于DPI流量数据对提取到的手机号码做进一步的清洗,提高其置信度,本专利技术相比于过去抓包找携带号码的关键字提取号码,以及添加黑名单应用过滤异常号码的方式;只需要号码特征将所有类似号码的字符串去除,再通过号码本身的规律,只需要进行占比计算即可,分析出本地号码占比较多的host是哪些,直接从占比多的host下取出号码即可。采用该方法能够取出大量准确的号码,剔除掉大量不需要的外地号码,提高了号码的置信度,极大的提升了生产力,提高分析的效率。
附图说明
[0032]附图为本专利技术基于DPI数据挖掘出的手机号码提高其置信度的方法的流程示意图。
具体实施方式
[0033]下面结合说明书附图对本专利技术的实施方式进行描述。
[0034]如附图所示,基于DPI数据挖掘出的手机号码提高其置信度的方法,包含以下实施步骤:
[0035]步骤一、通过抓包测试获取用户终端的上网流量信息中特征字符串和流量信息中HTTP请求和host中的关键字;
[0036]步骤二、利用得到的特征字符串、HTTP请求和host字对DPI数据采集系统中的数据提取获得用户的号码信息;
[0037]步骤三、提取出host下带有号码的数据;
[0038]步骤四、分别对host下外地和本地的号码做去重后的总数统计;
[0039]步骤五、对外地号码和本地号码做占比分析,并分别以外地号码总数和本地号码总数为排序标准进行排序。
[0040]步骤六、对步骤五计算出的占比进行分析。随机挑选一个应用查看数据结果,发现本地号码占比多的多在账号,vip服务,游戏,支付等host;而本地占比低的大多在api,日志信息,广告和搜索上,思路验证正确,只需将本地占比多的host下的号码取出即可。
[0041]综上,本专利技术提供一种基于DPI流量数据对提取到的手机号码做进一步的清洗,提高其置信度,本专利技术相比于过去抓包找携带号码的关键字提取号码,以及添加黑名单应用过滤异常号码的方式;只需要号码特征将所有类似号码的字符串去除,再通过号码本身的规律,只需要进行占比计算即可,分析出本地号码占比较多的host是哪些,直接从占比多的host下取出号码即可。采用该方法能够取出大量准确的号码,剔除掉大量不需要的外地号码,提高了号码的置信度,极大的提升了生产力,提高分析的效率。
[0042]上面结合附图对本专利技术的实施方式作了详细说明,但是本专利技术并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本专利技术宗旨的前提下做出各种变化。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于归属地占比分析的网络流量手机号码提取方法,其特征在于,包括以下步骤:步骤一、通过抓包测试获取用户终端的上网流量信息中特征字符串和流量信息中HTTP请求和host中的关键字;步骤二、利用得到的特征字符串、HTTP请求和host对DPI数据采集系统中的数据提取获得用户的号码信息;步骤三、提取出host下带有号码的数据;步骤四、分别对host下外地和本地的号码做去重后的总数统计;步骤五、对外地号码和本地号码做占比分析,并分...

【专利技术属性】
技术研发人员:王攀韩倩倩
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1