本申请涉及通信安全领域,提供一种基于正态分布过采样诈骗类数据的方法和装置。方法包括:获取诈骗类数据示例集和非诈骗类数据示例集,确定每个诈骗类数据示例的密度因子和距离因子,根据密度因子和距离因子,得到每个诈骗类数据示例的信息权重;根据信息权重确定每个诈骗类数据示例的锚选择概率,根据锚选择概率选择诈骗类数据示例作为锚示例;基于正态分布和锚示例生成一个新的诈骗类数据示例,直至诈骗类数据示例的总数量达到设定值。本申请通过考虑密度和距离两方面因素,对每个诈骗类数据实示例进行加权,对初始的诈骗类数据示例根据权重进行概率选择,然后在选定的诈骗类数据示例周围生成正态分布的新示例,符合原始数据集分布的均衡性。分布的均衡性。分布的均衡性。
【技术实现步骤摘要】
基于正态分布过采样诈骗类数据的方法和装置
[0001]本申请涉及通信安全
,具体涉及一种基于正态分布过采样诈骗类数据的方法和装置。
技术介绍
[0002]目前,诈骗短信,诈骗邮件和诈骗推销的电话使人们深受其扰,每天用户都被各种铺天盖地的诈骗广告短信骚扰,如果防诈骗意识不够警觉的话,很容易就会相信相关信息造成个人财产损失。然而尽管这些诈骗类信息量似乎比较多,但相比于全国十几亿用户每天在发送的信息来说还是为少数。因此,诈骗类信息即为不平衡数据中的少数类数据,非骚扰类信息即为不平衡数据中的多数类数据。不平衡数据指的是数据集中各个类别的样本数量极不均衡。一般来说,在不平衡分类问题中,一类的示例数量明显多于另一类的示例数量,导致数据分布不均衡。通常是默认情况下为二分类问题,因为可以使用一对其余和一对一等技术将多分类数据集转换为二分类数据集。
[0003]合成少数类过采样技术(SMOTE)是处理诈骗类信息等一类不平衡数据中最流行的算法,其沿着少数类示例到其近邻路线合成新的示例,以平衡少数类和多数类示例的数量。这种线性过采样策略很多时候生成的新示例忽略了现有诈骗类示例之间的差异性,并不能产生一个新的符合原始数据集分布的均衡数据集。
技术实现思路
[0004]本申请实施例提供一种基于正态分布过采样诈骗类数据的方法和装置,用以解决线性过采样策略很多时候生成的新示例忽略了现有诈骗类示例之间的差异性,并不能产生一个新的符合原始数据集分布的均衡数据集的技术问题。
[0005]第一方面,本申请实施例提供一种基于正态分布过采样诈骗类数据的方法,包括:
[0006]获取诈骗类数据示例集和非诈骗类数据示例集,根据所述诈骗类数据示例集和所述非诈骗类数据示例集,确定每个诈骗类数据示例的密度因子和距离因子,根据所述密度因子和所述距离因子,得到每个诈骗类数据示例的信息权重;
[0007]根据所述信息权重确定每个诈骗类数据示例的锚选择概率,根据所述锚选择概率选择一个诈骗类数据示例作为锚示例;
[0008]基于正态分布和所述锚示例生成一个新的诈骗类数据示例,直至所述诈骗类数据示例的总数量达到设定值。
[0009]在一个实施例中,所述根据所述诈骗类数据示例集和所述非诈骗类数据示例集,确定每个诈骗类数据示例的密度因子和距离因子,包括:
[0010]根据所述诈骗类数据示例集和所述非诈骗类数据示例集,确定每个诈骗类数据示例的k近邻集;
[0011]根据所述k近邻集中非诈骗类数据示例的比例确定每个诈骗类数据示例的密度因子;
[0012]根据每个诈骗类数据示例和k近邻集中非诈骗类数据示例的欧式距离、每个诈骗类数据示例和k近邻集的欧式距离,确定每个诈骗类数据示例的距离因子。
[0013]在一个实施例中,所述根据所述密度因子和所述距离因子,得到每个诈骗类数据示例的信息权重,包括:
[0014]将所述密度因子和所述距离因子相加,得到每个诈骗类数据示例的信息权重。
[0015]在一个实施例中,所述根据所述信息权重确定每个诈骗类数据示例的锚选择概率,包括:
[0016]根据所述信息权重,得到所有诈骗类数据示例对应的信息权重之和,根据所述信息权重与所述信息权重之和的比例,得到每个诈骗类数据示例的锚选择概率。
[0017]在一个实施例中,所述根据所述锚选择概率选择一个诈骗类数据示例作为锚示例,包括:
[0018]根据所述锚选择概率,基于轮盘赌算法选择一个诈骗类数据示例作为锚示例。
[0019]在一个实施例中,所述基于正态分布和所述锚示例生成一个新的诈骗类数据示例,包括:
[0020]从所述锚示例中随机选择一个方向作为新的诈骗类数据示例的方向;
[0021]基于正态分布确定新的诈骗类数据示例与所述锚示例之间的距离,生成一个新的诈骗类数据示例。
[0022]第二方面,本申请实施例提供一种基于正态分布过采样诈骗类数据的装置,包括:
[0023]加权模块,用于获取诈骗类数据示例集和非诈骗类数据示例集,根据所述诈骗类数据示例集和所述非诈骗类数据示例集,确定每个诈骗类数据示例的密度因子和距离因子,根据所述密度因子和所述距离因子,得到每个诈骗类数据示例的信息权重,
[0024]选择模块,用于根据所述信息权重确定每个诈骗类数据示例的锚选择概率,根据所述锚选择概率选择一个诈骗类数据示例作为锚示例;
[0025]生成模块,基于正态分布和所述锚示例生成一个新的诈骗类数据示例,直至所述诈骗类数据示例的总数量达到设定值。
[0026]第三方面,本专利技术实施例提供一种诈骗类数据检测方法,包括:
[0027]基于机器学习方法对诈骗类数据与非诈骗类数据进行训练,得到训练后的分类器,所述诈骗类数据包括所述的基于正态分布过采样诈骗类数据的方法生成的诈骗类数据示例;
[0028]基于所述分类器对新数据项进行预测,将新数据项映射为诈骗类数据或非诈骗类数据。
[0029]第四方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的基于正态分布过采样诈骗类数据的方法的步骤。
[0030]第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于正态分布过采样诈骗类数据的方法的步骤。
[0031]本申请实施例提供的基于正态分布过采样诈骗类数据的方法和装置,通过考虑密度和距离两方面因素,对每个诈骗类数据实示例进行加权。对初始的诈骗类数据示例根据权重进行概率选择,然后在选定的诈骗类数据示例周围生成正态分布的新示例,符合原始
数据集分布的均衡性。
附图说明
[0032]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1是本申请实施例提供的基于正态分布过采样诈骗类数据的方法的流程示意图;
[0034]图2是本申请实施例提供的图1中步骤S1的流程示意图;
[0035]图3是本申请实施例提供的图1中步骤S3的流程示意图;
[0036]图4是本申请实施例提供的生成一个新的诈骗类数据示例的示意图;
[0037]图5是本申请实施例提供的基于正态分布过采样诈骗类数据的装置的结构示意图;
[0038]图6是本申请实施例提供的诈骗类数据检测方法的流程示意图;
[0039]图7是本申请实施例提供的电子设备的结构示意图;
具体实施方式
[0040]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于正态分布过采样诈骗类数据的方法,其特征在于,包括:获取诈骗类数据示例集和非诈骗类数据示例集,根据所述诈骗类数据示例集和所述非诈骗类数据示例集,确定每个诈骗类数据示例的密度因子和距离因子,根据所述密度因子和所述距离因子,得到每个诈骗类数据示例的信息权重;根据所述信息权重确定每个诈骗类数据示例的锚选择概率,根据所述锚选择概率选择一个诈骗类数据示例作为锚示例;基于正态分布和所述锚示例生成一个新的诈骗类数据示例,直至所述诈骗类数据示例的总数量达到设定值。2.根据权利要求1所述的基于正态分布过采样诈骗类数据的方法,其特征在于,所述根据所述诈骗类数据示例集和所述非诈骗类数据示例集,确定每个诈骗类数据示例的密度因子和距离因子,包括:根据所述诈骗类数据示例集和所述非诈骗类数据示例集,确定每个诈骗类数据示例的k近邻集;根据所述k近邻集中非诈骗类数据示例的比例确定每个诈骗类数据示例的密度因子;根据每个诈骗类数据示例和k近邻集中非诈骗类数据示例的欧式距离、每个诈骗类数据示例和k近邻集的欧式距离,确定每个诈骗类数据示例的距离因子。3.根据权利要求1所述的基于正态分布过采样诈骗类数据的方法,其特征在于,所述根据所述密度因子和所述距离因子,得到每个诈骗类数据示例的信息权重,包括:将所述密度因子和所述距离因子相加,得到每个诈骗类数据示例的信息权重。4.根据权利要求1所述的基于正态分布过采样诈骗类数据的方法,其特征在于,所述根据所述信息权重确定每个诈骗类数据示例的锚选择概率,包括:根据所述信息权重,得到所有诈骗类数据示例对应的信息权重之和,根据所述信息权重与所述信息权重之和的比例,得到每个诈骗类数据示例的锚选择概率。5.根据权利要求1所述的基于正态分布过采样诈骗类数据的方法,其特征在于,所述根据所述锚选择概率选择一个诈...
【专利技术属性】
技术研发人员:任玲钰,
申请(专利权)人:中移系统集成有限公司中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。