一种从黑名单号码库中自动识别可释放号码的方法技术

技术编号:14822553 阅读:54 留言:0更新日期:2017-03-15 20:47
一种从黑名单号码库中自动识别可释放号码的方法,包括有:步骤一、构建多个在不同时间周期下的分类模型,其中,每个分类模型的输入是一个号码在对应时间周期下的若干通信指标,输出是该号码在对应时间周期下的活跃度;步骤二、从黑名单号码库中逐一提取每个黑号码,并将所述黑号码在不同时间周期下的若干通信指标分别输入到在对应时间周期下的分类模型中,当所述黑号码在所有时间周期下的分类模型中输出的活跃度均小于低活跃度阈值时,则所述黑号码是可释放号码。本发明专利技术属于网络通信技术领域,能准确计算黑名单号码库中每个黑号码的活跃度,并识别活跃度低的黑号码以释放成为用户使用的正常号码。

【技术实现步骤摘要】

本专利技术涉及一种从黑名单号码库中自动识别可释放号码的方法,属于网络通信

技术介绍
目前,黑名单号码库中的所有黑号码都是经过长时间的积累而形成的,越来越多的黑号码给网络存储带来压力。经过长期现网观察,当号码进入黑名单号码中被拦截之后,有很多骚扰诈骗分子会放弃使用这个号码,而更换其他号码进行非法活动。因此,黑号码在入黑后,如果在很长一段时间内这个号码的活跃度很低,那么就可以从黑名单号码库中释放这个黑号码,使之成为正常号码供用户使用。如何计算黑名单号码库中每个黑号码的活跃度,并识别活跃度低的黑号码以释放成为用户使用的正常号码,已成为技术人员急需解决的技术问题,目前还未发现相关技术解决方案。
技术实现思路
有鉴于此,本专利技术的目的是提供一种从黑名单号码库中自动识别可释放号码的方法,能准确计算黑名单号码库中每个黑号码的活跃度,并识别活跃度低的黑号码以释放成为用户使用的正常号码。为了达到上述目的,本专利技术提供了一种从黑名单号码库中自动识别可释放号码的方法,包括有:步骤一、构建多个在不同时间周期下的分类模型,其中,每个分类模型的输入是一个号码在对应时间周期下的若干通信指标,输出是该号码在对应时间周期下的活跃度;步骤二、从黑名单号码库中逐一提取每个黑号码,并将所述黑号码在不同时间周期下的若干通信指标分别输入到在对应时间周期下的分类模型中,当所述黑号码在所有时间周期下的分类模型中输出的活跃度均小于低活跃度阈值时,则所述黑号码是可释放号码。与现有技术相比,本专利技术的有益效果是:本专利技术通过黑名单号码库中所有黑号码入库后的多个通信指标,以及多个不同时间周期下的分类模型的层层筛选,能对每个黑号码的活跃度进行准确评估,从黑名单号码库所存储的大量黑号码中准确识别活跃度低的号码,并据此来释放其成为用户使用的正常号码,减轻系统存储压力,并且加载新的黑号码来提高系统的拦截效率,技术方案简单易行,并对现网无需任何改变,从而具有较高的实用性和高效性;当黑号码持续被重置时,说明该黑号码持续保持有较高的活跃度,本专利技术还可以进一步将所述黑号码加入高活跃度号码库,结合号码模式分析,挖掘此类高活跃度号码的号码模式,在今后出现符合该号码模式的新的黑号码时,由系统自动拦截处理。附图说明图1是本专利技术一种从黑名单号码库中自动识别可释放号码的方法流程图。图2是对于从黑名单号码库中提取的每个黑号码,步骤二的具体操作流程图。图3是本专利技术结合号码模式分析,挖掘高活跃度号码的号码模式的具体操作流程图。图4是图3步骤B的具体操作流程图。图5是图4步骤B5的具体操作流程图。图6是计算两个号码之间的相似度的具体操作流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。如图1所示,本专利技术一种从黑名单号码库中自动识别可释放号码的方法,包括有:步骤一、构建多个在不同时间周期下的分类模型,其中,每个分类模型的输入是一个号码在对应时间周期下的若干通信指标,输出是该号码在对应时间周期下的活跃度;步骤二、从黑名单号码库中逐一提取每个黑号码,并将所述黑号码在不同时间周期下的若干通信指标分别输入到在对应时间周期下的分类模型中,当所述黑号码在所有时间周期下的分类模型中输出的活跃度均小于低活跃度阈值时,则说明骚扰诈骗份子已弃用所述黑号码,所述黑号码是可释放号码。黑号码可以是诈骗、骚扰等非法号码,黑号码的活跃度是指号码在进入黑名单号码库之后,依然进行呼叫并且被系统拦截的概率,活跃度越高,表示号码呼叫的概率越大;而活跃度越低,表示该号码呼叫的概率越低,本专利技术可以通过从黑名单号码库中释放活跃度低的号码来减轻系统的存储压力,并且加载新的黑号码,以提高系统的拦截效率。步骤一中,本专利技术中的时间周期可以包括但不限于:日、周、月、季度或半年。分类模型可以采用但不限于:决策树、逻辑回归、随机森林、支持向量机或神经网络模型。不同时间周期下的分类模型的输入可以选取不同的通信指标,例如:日分类模型(即以日为时间周期的分类模型)所输入的通信指标可以包括有呼叫频次、平均呼叫时间间隔等;周分类模型所输入的通信指标可以包括有呼叫频次、被叫离散度、忙时呼叫率、最大呼叫日间隔、最小呼叫日间隔等;月分类模型所输入的通信指标可以包括有呼叫频次、被叫离散度、忙时呼叫率、最大呼叫日间隔、最小呼叫日间隔、呼叫间隔日离散度等;季度分类模型所输入的通信指标可以包括有呼叫频次、被叫离散度、忙时呼叫率、最大呼叫日间隔、最小呼叫日间隔、呼叫间隔日离散度等;半年分类模型所输入的通信指标可以包括有呼叫频次、被叫离散度、忙时呼叫率、最大呼叫日间隔、最小呼叫日间隔、呼叫间隔日离散度等。举例加以说明,当月分类模型采用决策树时,每个黑号码的活跃度的计算公式可以是:P=-1.17*日呼叫频次-0.114*周呼叫频次+2.69*月呼叫频次+2.31*被叫离散度-8,当P值越小,则说明活跃度越低;P值越大,则说明活跃度越高。该月分类模型中,输入的通信指标包括有:日、周、月呼叫频次、以及被叫离散度,可以用于快速识别短时间的黑号码。本专利技术还可以在同一时间周期下设置多个分类模型,然后从黑名单号码库中抽取进入黑名单号码库已达到一定时间的若干黑号码,将其中一部分的黑号码作为训练数据,用于对同一时间周期下的多个分类模型分别进行训练,再将剩余部分的黑号码作为测试数据,用于从同一时间周期下的多个分类模型中挑选测试数据准确率最高的分类模型,最终所述时间周期下的分类模型即选取测试数据准确率最高的分类模型。如图2所示,对于从黑名单号码库中提取的每个黑号码,步骤二还可以进一步包括有:步骤21、将黑号码的活跃度重置数PS初始化为0,将黑号码的重置日期初始化为所述黑号码进入黑名单号码库的首日,并按照时间周期从小到大的顺序,选取最小的一个时间周期;步骤22、从黑号码的重置日期开始,顺序截取多个连续的、且时长为所选取的时间周期的时间段;步骤23、计算所述黑号码在多个连续的时间段内的若干通信指标,然后将每个时间段内的若干通信指标分别输入到在所述时间周期下的分类模型中,从而得到所述黑号码分别在每个时间段下的活跃度,并判断是否每个时间段下的活跃度均小于低活跃度阈值?如果否,则转向步骤24;如果是,则转向步骤25;步骤24、更新活跃度重置数PS:PS=PS+1,并计算活跃度重置率PSL:PSL=PS/T_D,其中,T_D是所述黑号码进入黑名单号码库的总天数,然后判断活跃度重置率PSL是否大于一定阈值?如果是,则将所述黑号码保存到高活跃度号码库中,本流程结束;如果否,则将黑号码的重置日期更新成步骤23中活跃度大于或等于低活跃度阈值的最后一个时间段之后的日期,然后转向步骤22;步骤25、判断是否还有未选取的时间周期?如果是,则按照时间周期从小到大的顺序,继续选取下一个时间周期,然后转向步骤22;如果否,则所述黑号码是可释放号码,本流程结束。例如,先计算连续7天的天通信指标,当连续7天的日分类模型所输出的活跃度均小于低活跃度阈值时,再计算连续4周的周通信指标;当连续4周的周分类模型所输出的活跃度也均小于低活跃度阈值时,再继续计算连续2月的月通信指标……直至所有时间周期下的分类模型所持续输出的活跃度均小于低活跃度阈值时,则说明该黑号码是可释放号码。本发本文档来自技高网...
一种从黑名单号码库中自动识别可释放号码的方法

【技术保护点】
一种从黑名单号码库中自动识别可释放号码的方法,其特征在于,包括有:步骤一、构建多个在不同时间周期下的分类模型,其中,每个分类模型的输入是一个号码在对应时间周期下的若干通信指标,输出是该号码在对应时间周期下的活跃度;步骤二、从黑名单号码库中逐一提取每个黑号码,并将所述黑号码在不同时间周期下的若干通信指标分别输入到在对应时间周期下的分类模型中,当所述黑号码在所有时间周期下的分类模型中输出的活跃度均小于低活跃度阈值时,则所述黑号码是可释放号码。

【技术特征摘要】
1.一种从黑名单号码库中自动识别可释放号码的方法,其特征在于,包括有:步骤一、构建多个在不同时间周期下的分类模型,其中,每个分类模型的输入是一个号码在对应时间周期下的若干通信指标,输出是该号码在对应时间周期下的活跃度;步骤二、从黑名单号码库中逐一提取每个黑号码,并将所述黑号码在不同时间周期下的若干通信指标分别输入到在对应时间周期下的分类模型中,当所述黑号码在所有时间周期下的分类模型中输出的活跃度均小于低活跃度阈值时,则所述黑号码是可释放号码。2.根据权利要求1所述的方法,其特征在于,步骤一中,时间周期包括但不限于:日、周、月、季度或半年,分类模型采用但不限于:决策树、逻辑回归、随机森林、支持向量机或神经网络模型,不同时间周期下的分类模型的输入选取不同的通信指标,其中,日分类模型所输入的通信指标包括但不限于:呼叫频次、平均呼叫时间间隔;周分类模型所输入的通信指标包括但不限于:呼叫频次、被叫离散度、忙时呼叫率、最大呼叫日间隔、最小呼叫日间隔;月分类模型所输入的通信指标包括但不限于:呼叫频次、被叫离散度、忙时呼叫率、最大呼叫日间隔、最小呼叫日间隔、呼叫间隔日离散度;季度分类模型所输入的通信指标包括但不限于:呼叫频次、被叫离散度、忙时呼叫率、最大呼叫日间隔、最小呼叫日间隔、呼叫间隔日离散度;半年分类模型所输入的通信指标包括但不限于:呼叫频次、被叫离散度、忙时呼叫率、最大呼叫日间隔、最小呼叫日间隔、呼叫间隔日离散度。3.根据权利要求1所述的方法,其特征在于,还包括有:按照可释放号码在最大时间周期下的分类模型中输出的活跃度从小到大的次序,对所有可释放号码进行排序,然后从黑名单号码库中删除若干排序在前的可释放号码。4.根据权利要求1所述的方法,其特征在于,对于从黑名单号码库中提取的每个黑号码,步骤二进一步包括有:步骤21、将黑号码的活跃度重置数PS初始化为0,将黑号码的重置日期初始化为所述黑号码进入黑名单号码库的首日,并按照时间周期从小到大的顺序,选取最小的一个时间周期;步骤22、从黑号码的重置日期开始,顺序截取多个连续的、且时长为所选取的时间周期的时间段;步骤23、计算所述黑号码在多个连续的时间段内的若干通信指标,然后将每个时间段内的若干通信指标分别输入到在所述时间周期下的分类模型中,从而得到所述黑号码分别在每个时间段下的活跃度,并判断是否每个时间段下的活跃度均小于低活跃度阈值,如果是,则转向步骤24;步骤24、判断是否还有未选取的时间周期,如果是,则按照时间周期从小到大的顺序,继续选取下一个时间周期,然后转向步骤22;如果否,则所述黑号码是可释放号码,本流程结束。5.根据权利要求4所述的方法,其特征在于,步骤23中,当每个时间段下的活跃度不是均小于低活跃度阈值时,还包括有:更新活跃度重置数PS:PS=PS+1,并计算活跃度重置率PSL:PSL=PS/T_D,其中,T_D是所述黑号码进入黑名单号码库的总天数,然后判断活跃度重置率PSL是否大于一定阈值,如果是,则将所述黑号码保存到高活跃度号码库中,本流程结束;如果否,则将黑号码的重置日期更新成步骤23中活跃度大于或等于低活跃度阈值的最后一个时间段之后的日期,然后转向步骤22。6.根据权利要求5所述的方法,其特征在于,还包...

【专利技术属性】
技术研发人员:刘瑶张锦然吉立妍张煊王昊王娜
申请(专利权)人:杭州东信北邮信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1