System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机领域,具体而言,涉及一种骚扰通话数据的识别方法、装置、存储介质及电子设备。
技术介绍
1、随着通信技术的不断发展,骚扰电话成为了困扰人们生活的一个问题。这些骚扰电话包括欺诈电话,营销电话,垃圾信息电话等等,严重的影响了人们的正常生活,因此寻求一种方便有效的骚扰电话识别策略变得十分重要。
2、当前市面上存在很多不同的骚扰电话识别策略。
3、基于规则的识别策略,例如当通话次数在短时间内超过阈值,判定为骚扰电话。但是,骚扰电话的形式在不断变化,这种简单的策略规则的识别准确率越来越低,漏报误报的可能性越来越大。
4、基于机器学习的识别策略,结合随机森林算法来识别骚扰电话,根据通话特征将不同的通话数据分类,从而识别出其中的骚扰电话,但是由于通话数据中正常电话与骚扰电话的比例是不平衡的,可能会导致随机森林对某些类型骚扰电话的归类效果不好,并且随机森林对大规模数据需要更多的计算时间与资源,因此这种方法在识别骚扰电话时也有一定的局限性。
5、随着骚扰电话的数量与类型不断增加,传统的骚扰电话识别策略越来越难以适应。
6、针对上述现有技术对骚扰电话的骚扰通话数据识别准确率低的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本专利技术实施例提供了一种骚扰通话数据的识别方法、装置、存储介质及电子设备,以至少解决现有技术对骚扰电话的骚扰通话数据识别准确率低的技术问题。
2、根据本专利技术实施例的一个方面,提供了
3、可选地,基于所述通话数据集合建立目标孤立森林包括:对所述通话数据集合中的所述待识别通话数据进行有放回式随机抽取,生成所述预设数量的数据样本集合;以所述数据样本集合作为根节点,建立每个所述数据样本集合的孤立树,得到所述目标孤立森林。
4、可选地,所述方法还包括:获取训练数据集合,其中,所述训练数据集合包括:多个骚扰通话数据和多个正常通话数据;基于所述训练数据集合,确定用于区分所述骚扰通话数据和所述正常通话数据的特征维度集合,其中,所述特征维度集合包括:多个特征维度;基于所述特征维度集合,确定用于区分所述骚扰通话数据和所述正常通话数据的特征指标集合,其中,所述特征指标集合包括:多个与所述特征维度对应的预设特征指标。
5、可选地,所述方法还包括:在所述训练数据集合中进行有放回式随机抽取多个样本通话数据,确定训练样本集合,其中,所述样本通话数据包括:所述骚扰通话数据和所述正常通话数据,所述训练样本集合作为孤立树的根节点;在所述特征维度集合中随机选取所述特征维度,以及该特征维度对应的预设特征指标作为所述孤立树的分叉条件,其中,所述分叉条件用于进行叶子节点的切分;将所述训练数据集合中符合所述分叉条件的所述样本通话数据,切分为所述叶子节点,其中,所述叶子节点中的所述样本通话数据为所述骚扰通话数据;在所述特征维度集合中重复选取不同的所述特征维度,以及每个所述特征维度对应的预设特征指标作为所述孤立树的分叉条件,依次对所述训练数据集合中的待切分通话数据进行叶子节点的切分,直到所述孤立树符合预设条件,其中,待切分通话数据为未切分至叶子节点中的所述样本通话数据,所述孤立树符合预设条件表示所述孤立树无法对所述待切分通话数据进行切分。
6、可选地,所述方法还包括:对所述训练数据集合重复进行有放回式随机抽取,确定多个不同的训练样本集合,并分别建立每个所述训练样本集合的孤立树,直到所述训练数据集合中的所述骚扰通话数据和所述正常通话数据全部在预设孤立森林的所述叶子节点中出现,其中,所述预设孤立森林包括:多个基于训练样本集合建立的孤立树;在所述训练数据集合中的所述骚扰通话数据和所述正常通话数据全部在所述预设孤立森林的所述叶子节点中出现的情况下,将所述预设孤立森林中所述孤立树的数量确定为所述预设数量。
7、可选地,所述方法还包括:检测所述预设孤立森林中所述孤立树的平均高度;将所述平均高度,确定为所述目标孤立森林中孤立树的最大高度。
8、可选地,确定每个所述叶子节点在所述目标孤立森林中的异常分数值包括:根据同一所述叶子节点在不同的所述孤立树中的高度,确定所述叶子节点在所述目标孤立森林中的平均高度;确定所述平均高度和平均路径长度的比值作为目标指数;将预设常数基于目标指数的负指数幂,确定为所述异常分数值,其中,所述预设常数大于1,所述异常分数值与1的差值越小,表示对应叶子节点中的待识别通话数据属于骚扰通话数据的概率越大。
9、根据本专利技术实施例的另一方面,还提供了一种骚扰通话数据的识别装置,包括:获取模块,用于获取多个待识别通话数据的通话数据集合,其中,所述通话数据集合存在对应的电话特征集合,所述电话特征集合包括:基于多个特征维度描述所述待识别通话数据的特征数据;建立模块,用于基于所述通话数据集合建立目标孤立森林,其中,所述目标孤立森林包括:预设数量的孤立树,每个所述孤立树包括多个与所述特征维度对应的叶子节点,每个所述叶子节点包括依据所述特征维度对应的预设特征指标确定的至少一个所述待识别通话数据,不同的所述孤立树中存在与同一所述特征维度对应的所述叶子节点;确定模块,用于确定每个所述叶子节点在所述目标孤立森林中的异常分数值,其中,所述异常分数值基于所述叶子节点在所述目标孤立森林中的平均高度,和所述目标孤立森林中每个所述孤立树的平均路径长度确定;标记模块,用于将所述异常分数值大于预设分数阈值的所述叶子节点中的所述待识别通话数据标记为骚扰通话数据。
10、根据本专利技术实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质用于存储程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述骚扰通话数据的识别方法。
11、根据本专利技术实施例的另一方面,还提供了一种电子设备,包括:存储器和处理器,所述处理器用于运行存储在所述处理器中的程序,其中,所述程序运行时执行上述骚扰通话数据的识别方法。
12、在本专利技术实施例中,获取多个待识别通话数据的通话数据集合,其中,通话数据集合存在对应的电话特征集合,电话特征集合包括:基于多个特征维度描述待识本文档来自技高网...
【技术保护点】
1.一种骚扰通话数据的识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述通话数据集合建立目标孤立森林包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,确定每个所述叶子节点在所述目标孤立森林中的异常分数值包括:
8.一种骚扰通话数据的识别装置,其特征在于,包括:
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质用于存储程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述骚扰通话数据的识别方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述处理器中的程序,其中,所述程序运行时执行权利要求1至7中任意一项所述骚扰通话数据的识别方
...【技术特征摘要】
1.一种骚扰通话数据的识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述通话数据集合建立目标孤立森林包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,确定每个...
【专利技术属性】
技术研发人员:王乾,程玉文,赵轶新,蒋艳军,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。