System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据模型更新,具体涉及一种电信诈骗识别模型的数据自动更新方法。
技术介绍
1、随机森林算法作为一种常用的监督学习方法,广泛应用于电信诈骗识别,可通过构建多颗决策树来集成学习,提高对于通信过程识别的准确性。
2、传统的随机森林算法依赖于现有决策树结构,为了能够对新型电诈通信模式进行学习,需要及时更新随机森林中的决策树。现有技术在对电信诈骗识别模型进行数据更新时,仅是简单增加决策树的数量并且利用新增的通信过程样本进行训练,会导致模型的复杂性,同时过多的新增决策树还会引入噪声,影响模型的整体性能。
技术实现思路
1、为了解决现有技术在对电信诈骗识别模型进行数据更新时,因为决策树新增的数量不合理导致模型的整体性能受到影响的技术问题,本专利技术的目的在于提供一种电信诈骗识别模型的数据自动更新方法,所采用的技术方案具体如下:
2、本专利技术提出了一种电信诈骗识别模型的数据自动更新方法,所述方法包括:
3、获得通信过程下的多维通信数据;所述通信过程包括历史通信过程和新增通信过程;基于历史通信过程进行训练得到包含若干决策树的初始电信诈骗识别模型;
4、统计每个维度下初始电信诈骗识别模型对于新增通信过程与历史通信过程的划分结果,根据划分结果中子节点中的数据类别分布,获得初始电信诈骗识别模型对所述新增通信过程每个维度的通信数据的划分程度;
5、根据新增通信过程所有维度下的所述划分程度确定初始电信诈骗识别模型中所需新增的决策树数量
6、进一步地,所述划分程度的获取方法包括:
7、将新增通信样本的任意一个维度作为目标维度,对于所述初始电信诈骗识别模型中的每棵决策树,将所述通信过程送入所述决策树,所述决策树对所述目标维度进行划分出的子节点中,所述新增通信样本所在的子节点为目标子节点,其他为非目标子节点;将目标子节点对应的最终划分结果中的电诈通信样本数量的占比作为第一占比,将非目标子节点对应的最终划分结果中的正常通信样本数量的占比作为第二占比;将所述第一占比和所述第二占比累加,获得每个决策树对于目标维度的初始划分程度;
8、根据所有决策树对于所述目标维度的初始划分程度,获得初始电信诈骗识别模型对所述新增通信过程在所述目标维度下的通信数据的划分程度。
9、进一步地,所述获得初始电信诈骗识别模型对所述新增通信过程在所述目标维度下的通信数据的划分程度,包括:
10、对于所述目标维度,将所有决策树下的初始划分程度的平均值作为所述目标维度通信数据的划分程度。
11、进一步地,所述通信差异性的获取方法包括:
12、在每个维度下,将所述维度对应的划分程度负相关映射并归一化,获得调整权重,将所述调整权重与所述通信数据差异的乘积作为新增通信过程与历史通信过程之间的加权通信数据差异;
13、将所有维度下的所述加权通信数据差异求平均,获得新增通信过程与历史通信过程之间的通信差异性。
14、进一步地,所述所需添加的决策树数量的获取方法包括:
15、获得所有维度的划分程度平均值,将所述划分程度平均值负相关映射并归一化处理,获得数量权重,将所述数量权重与初始电信诈骗识别模型中决策树数量相乘的结果进行取整,获得所述所需添加的决策树数量。
16、进一步地,所述采样概率的获取方法包括:
17、对于所有历史通信过程,将与所述新增通信过程之间的最大通信差异性作为参考通信差异性;将每个历史通信过程对应的通信差异性与所述参考通信差异性之间的差异进行归一化处理,获得每个历史通信过程的所述采样概率;所有历史通信过程的所述采样概率累加为正整数1。
18、进一步地,所述候选程度的获取方法包括:
19、将所述调整权重与对应维度在决策树划分过程中的基尼不纯度的乘积作为对应维度下的候选程度。
20、进一步地,所述利用所述候选程度在所述训练数据中对所述新增决策树进行训练,包括:
21、根据所述候选程度将维度进行降序排序,选择前预设数量个围堵作为新增决策树的分裂特征,利用所述训练数据对所述新增决策树进行训练。
22、进一步地,所述划分结果中将电诈通信数据标记为1,正常通信数据标记为0。
23、进一步地,所述通信数据至少包括通信双方id、位置id、通话时长、通话频数、漫游总次数、漫游总时间。
24、本专利技术具有如下有益效果:
25、本专利技术实施例为了确定最合适的新增决策树数量,首先将新增通信过程输入初始电信诈骗识别模型中,根据各个决策树的分类结果评估初始电信诈骗识别模型对于新增通信过程每个维度下的划分程度。通过量化划分程度能够以划分程度为依据评估当前新增通信过程在初始电信诈骗识别模型下的适配程度,即划分程度越小说明对应维度在新增决策树时越需要针对性的处理,因此可根据划分程度调整通信数据差异,并确定所需添加的决策树数量,通过确定准确的决策树数量并且确定新增决策树的训练数据可以使得新增决策树的分类效果对于新增通信过程而言更有效,减少了模型整体的噪声。进一步在训练新增决策树时利用候选程度对维度进行评估,使得新增决策树的分类效果更加准确,即通过本专利技术实施例对初始电信诈骗识别模型进行更新,能够获得数量合适并且识别效果好的新增决策树,利用更新电信诈骗识别模型能够对通信过程进行快速有效地识别。
本文档来自技高网...【技术保护点】
1.一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述划分程度的获取方法包括:
3.根据权利要求2所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述获得初始电信诈骗识别模型对所述新增通信过程在所述目标维度下的通信数据的划分程度,包括:
4.根据权利要求1所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述通信差异性的获取方法包括:
5.根据权利要求1所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述所需添加的决策树数量的获取方法包括:
6.根据权利要求1所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述采样概率的获取方法包括:
7.根据权利要求4所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述候选程度的获取方法包括:
8.根据权利要求7所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述利用所述候选程度在所述训练数据中对所述新增决策
9.根据权利要求1所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述划分结果中将电诈通信数据标记为1,正常通信数据标记为0。
10.根据权利要求1所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述通信数据至少包括通信双方ID、位置ID、通话时长、通话频数、漫游总次数、漫游总时间。
...【技术特征摘要】
1.一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述划分程度的获取方法包括:
3.根据权利要求2所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述获得初始电信诈骗识别模型对所述新增通信过程在所述目标维度下的通信数据的划分程度,包括:
4.根据权利要求1所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述通信差异性的获取方法包括:
5.根据权利要求1所述的一种电信诈骗识别模型的数据自动更新方法,其特征在于,所述所需添加的决策树数量的获取方法包括:
6.根据权利要求1所述的一种电信诈骗识别...
【专利技术属性】
技术研发人员:郑亚珂,
申请(专利权)人:北京秒信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。