System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基于dbscan-cgan-xgboost模型在不平衡数据上生成累次违规人员用户画像的方法,其属于用户画像生成的。
技术介绍
1、不平衡数据分类问题在各个应用领域备受关注,尤其在累次违规人员预测、欺诈检测、疾病监测以及故障检测领域中。不平衡数据分类是指数据分布明显不平衡,其中多数类是指样本数目多的类,相反样本数目少的类便是少数类。少数类数据远小于多数类数据,同时各类别所占的数据比例分布不均匀。在正常数据样本中,少数类样本数目过少,样本类别不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖与有限的数据样本而导致过拟合问题,这就使得分类器的学习性能和准确率显著下降。当模型应用到新的数据上时,模型的准确性会很差。而恰恰在现实生活中,人们关注的重点就是少数类样本的预测结果,如累次违规人员预测中,人们对违规人员释放后回归正常的关注度远远低于再违规行为的关注度。
2、由于采用的broward数据集存在着少数类数据样本远小于多数类数据样本,同时各类别所占的数据比例分布不均匀的数据不平衡问题。
3、当前针对不平衡分类的解决策略主要从数据和算法两大层面进行研究。其中从数据层面上主要是改变训练集分布,从而降低不平衡程度,主要有训练集重采样和训练集划分两种方法。而算法层面主要根据算法在解决不平衡问题时的缺点,适当地优化算法从而适应不平衡分类问题,主要包括分类器集成、代价敏感学习和特征选择方法等。
技术实现思路
1、针
2、为实现以上目的,本专利技术通过以下技术方案予以实现,基于dbscan-cgan-xgboost模型在不平衡数据上生成累次违规人员用户画像,包括以下步骤:
3、s1.数据预处理
4、(1)对字符型特征数值化
5、首先将数据集中的字符型特征与标签转换为数值型;训练集和测试集中ethnicity特征字符型数据表示为数值型;该属性共包括6个变量,用0~5依次表示6个变量;
6、(2)特征相关性分析和特征选择
7、本数据集全部转化成了数值特征,将使用pearson相关系数来衡量特征之间的相关性;
8、(3)归一化处理
9、由于各个特征属性之间的数值相差较大,故对所有特征进行数值归一化处理;采用min-max方法将数据集中不同特征的取值转换到[-1,1]中,不改变其原始信息;转换表达式为
10、
11、其中,y为特征值,ymin为特征值中的最小值,ymax为特征值中的最大值;
12、(4)样本划分
13、再将处理后的数据集按比例进行数据划分,提取出训练集中的少数类违规行为样本;s2.dbscan噪声样本提取:采用dbscan对提取出的少数类样本分别聚类,划分成离群样本和簇内样本,分别提取游离在簇外的噪声样本和簇内样本;
14、模型使用xgboost算法对样本的特征权重进行计算,赋予每个特征维度一个权重值;接着随机选取样本a,计算样本a到训练集中其他样本点的加权欧式距离,根据邻域大小和最小样本数检索样本a的所有密度可达点;
15、将每个特征维度的权重引入到欧式距离的计算,加权的欧式距离为:
16、
17、其中,d(x,y):加权欧式距离;xi和yi:样本a和其他样本点的第i个特征值;
18、wi:第i个特征的权重,对应于每个特征维度的权重,用于计算加权欧式距离。n:特征维度的数量。
19、如果样本a是一个核心点,此过程就产生一个关于样本a的簇;如果样本a是一个边界点并且样本a没有密度可达点,将访问下一个样本;每个簇由样本相关性高的样本聚集在一起,使用dbscan对分离出的少数类样本进行聚类,通过调整核心点周围邻近区域的半径和邻近区域内最少包含样本数,使样本划分为离群样本和簇内样本;
20、s3.cgan样本生成:采用条件生成对抗网络cgan对各少数类数据样本中的簇内样本和噪声样本进行数据扩充,使其在数据集中比例均衡,并保证其样本内部的多样性和逻辑性;
21、cgan模型中生成器学习真实样本的分布规律,在给定服从一定分布的随机噪声的情况下,生成无限逼近起初样本的假样本,通过判别器区分真假,不断对抗训练迭代优化;在训练过程中,生成器不断提升伪造数据欺骗判别器,而判别器努力学习区分真假数据的能力;二者不断迭代优化,最后达到动态均衡;生成器最终完成数据扩充并生成仿真样本,整个模型的目标函数为式中:
22、
23、d(x)为判别器辨别从训练集中抽取的簇内样本为真的概率;1-d(g(z))为判别器辨别由生成模型生成的簇内样本为伪造样本的概率;x~pm为x取自训练数据中簇内样本的分布;z~pz为z取自生成模型g生成簇内样本的数据分布;v(d,g)为损失函数,优化d(x)时让v(d,g)最大,优化g(x)时让v(d,g)最小,最终求出最优解的生成模型;根据生成模型对样本数据进行扩充;
24、s4.xgboost集成分类器样本预测:将cgan生成后的数据样本与原始训练集合并成为新的训练数据集,训练得到最优分类模型,并采用测试集完成对各类型累次违规人员的预测;
25、xgboost的目标函数obj为:
26、
27、式中:yi为第i个样本的实际违规行为类别;为第i个样本的预测违规行为类别;为损失函数,表示预测违规行为类别与实际违规行为类别的差异;n为训练集样本数量;其中的是计算出预测样本的违规行为类别和真实样本违规行为类别的差值;为正则化项,其计算过程为:
28、
29、式中:t为树中叶子节点的个数,表示每个分支最后预测的违规行为类别;w为该叶子节点所获得的分,γ和λ分别控制叶子节点的个数和分数,以防止过拟合。新生成的树会拟合上一次对违规行为类型预测的残差,当生成t棵树后,模型对第i个样本的违规行为类型预测值为此时,可以将目标函数改写成:
30、
31、再利用ft=0处的泰勒二阶展开式找到使ft最小化的目标函数,去除常数项并优化损失函数项,即:
32、
33、式中:gi为一阶导数;hi为二阶导数;
34、
35、
36、对于第t棵树来说,式(7)中为前t-1棵树的预测类别与实际违规行为类别的差异值,可直接去掉;定义分别表示符合叶子节点j预测的违规行为类别所包含样本的一阶、二阶偏导数之和;故目标损失函数改写成:
37、
38、此时目标函数为关于叶子节点分数wj的一元二次函数,求最优本文档来自技高网...
【技术保护点】
1.基于DBSCAN-cGAN-XGBoost模型在不平衡数据上生成累次违规人员用户画像的方法,其特征在于,包括以下步骤:
【技术特征摘要】
1.基于dbscan-cgan-xgboost模型在不平衡数据...
【专利技术属性】
技术研发人员:田生伟,郑泽林,杨启萌,李沁峣,李永庆,张其洲,黄火辉,
申请(专利权)人:新疆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。