一种非平衡IPTV数据集上的少数类样本的合成方法技术

技术编号:14514816 阅读:83 留言:0更新日期:2017-02-01 16:14
本发明专利技术公开了一种非平衡IPTV数据集上的少数类样本的合成方法,用于解决现有少数类数据合成方法中对少数样本不加以分析处理直接生成新样本而造成的后续分类预测模型性能下降的缺陷,本发明专利技术的实施流程为:首先找出少数类样本的邻居集合,根据邻居样本所属类别的比重将其分为噪声集、安全集和危险集三类,对噪声集中的样本不做处理,对安全集和危险集计算其比率并计算相关概率,以此概率选择安全集或危险集,基于所选集合中的样本产生新的少数类样本;采用本发明专利技术的方法,可以去除对分类其负面作用的少数类样本效应,并且增加分类面附近的少数类样本的效用,所获得的新的少数类样本可以更好地提升后续分类、预测模型的性能。

【技术实现步骤摘要】

本专利技术涉及非平衡数据处理领域,尤其是涉及一种非平衡IPTV数据集上的少数类样本的合成方法。
技术介绍
随着国内固网运营商的业务转型,基于互联网的各种增值业务已成为运营商新业务增长点的重要组成部分,尤其是交互式网络电视(IPTV)业务已呈现出快速增长的态势。IPTV有如下特点:(1)用户能够获得高质量的数字媒体服务;(2)用户能够通过宽带IP网络自由的选择视频节目;(3)其为运营商提供了广阔的新兴市场。近年来,运行商和研究机构人员致力于通过研究影响用户体验质量(QoE)的关键因素来提升IPTV用户的感受和满意度。在现有的解决方案中,基于从IPTV机顶盒采集的状态数据和用户的报障数据,通过机器学习中的模型和相关方法来预测用户的QoE。但由于在IPTV业务的大多数情况下,网络状况良好,用户体验也较好,没有报障,在少数情况下用户体验差而报障,因而机顶盒所采集到的数据是非平衡的,即,存在两个类别——用户报障类别和用户不报障类别。其中用户报障类别的样本数远远小于用户不报障类别的样本数,那么在该问题中,用户报障类别为少数类,用户不报障类别为多数类。为了解决非平衡数据处理问题,常常需要根据现有数据特性,合成一部分少数类样本,从而使得两类数据量达到平衡。在现有的方法中,SyntheticMinorityOversamplingTechnique(SMOTE)作为一个过采样的技术,常常用于合成少数类。虽然SMOTE算法有很多优点,但是依然有一些缺陷,包括过拟合和数据多变性。特别是,当SMOTE为每一个少数样本生成相同数目的合成数据,没有将邻居样本考虑在内,这会增加少数类内部样本重叠现象发生的概率。此外某些少数类样本位于分类界面附近,对后续分类器起着关键作用,而另一些样本位于多数类中,属于噪声,如果基于其生成少数类样本,则会对分类起反作用,现有的SMOTE算法并未考虑这些问题。基于此,本专利技术致力于解决SMOTE技术存在的一些技术缺陷,更好地解决IPTV用户QoE预测中的数据不平衡问题。
技术实现思路
本专利技术所要解决的技术问题是针对
技术介绍
的不足提供了一种非平衡IPTV数据集上的少数类样本的合成方法。本专利技术为解决上述技术问题采用以下技术方案:一种非平衡IPTV数据集上的少数类样本的合成方法,具体包括如下步骤:步骤1:找出少数类样本集Xminor中每个样本点xi对应的K近邻集合Si,其中K为自然数,i=1,…N,xi∈Xminor;K近邻集合为距离xi最近的K个样本所组成的集合;步骤2,根据步骤1获取的K近邻集合分析每个少数类样本的特性,进而将其分为噪声集、安全集和危险集三类;步骤3,对噪声集中的样本不做处理,计算安全集中的样本数量和危险集中的样本数量之间的比值T;步骤4,产生一个服从区间[0,1]上的均匀分布的随机数b;若b∈[0,T/(T+1)],则选择危险集中的所有样本作为输入,送入标准的SMOTE算法生成新的少数类样本;反之,则选择安全集中的所有样本作为输入,送入标准的SMOTE算法生成新的少数类样本;步骤5,将原始的少数类样本和新生成的少数类样本合在一起组成新的少数类集合。作为本专利技术一种非平衡IPTV数据集上的少数类样本的合成方法的进一步优选方案,所述步骤2具体包含如下步骤:步骤2.1,统计出Si中属于多数类Xmajor的样本个数,用|Si∩Xmajor|来表示,其表示多数类样本集Xmajor和Si的交集中的样本个数。步骤2.2,判断|Si∩Xmajor|所处的区间,具体分为三种情况:若|Si∩Xmajor|=K,则当前样本xi处于多数类中,对于分类问题而言,认为其为噪声;Xminor中所有满足此条件的样本组成安全集;若0≤|Si∩Xmajor|<0.5K,则表明当前样本xi被误分类的危险很小;Xminor中所有满足此条件的样本组成安全集;若0.5K≤|Si∩Xmajor|<K,则表明当前样本xi存在被误分类的危险;Xminor中所有满足此条件的样本组成危险集。作为本专利技术一种非平衡IPTV数据集上的少数类样本的合成方法的进一步优选方案,在步骤4中,所述SMOTE的算法具体计算过程如下:设当前的样本为xi,从该样本的K近邻集合Si中随机选择一个样本xj,从区间[0,1]产生一个服从均匀分布的随机数δ,则新生成的少数类样本为:xnew=xi+δ×(xj-xi)。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:1.本专利技术通过产生少数类样本可以解决非平衡数据的分类、预测等问题;2.本专利技术对少数类样本进行分类,不考虑利用陷入多数类样本之中的少数类样本产生新样本,避免了后续分类中由噪声带来的性能下降。此外,由于危险集中的样本处于两类的分类界面附近,尽可能多的利用该集合中的样本产生新的少数类样本,有利于大幅度提高后续分类、预测方法的性能;3.本专利技术可以避免传统的SMOTE算法所带来的少数类样本产生过程中的数据重叠问题。附图说明图1是本专利技术非平衡IPTV数据集上的少数类样本的合成方法流程图;图2是本专利技术KNN分类器下分别采用三种方法处理非平衡IPTV数据集的G均值比较结果;图3是本专利技术C4.5分类器下分别采用三种方法处理非平衡IPTV数据集的G均值比较结果;图4是本专利技术分别采用标准的SMOTE方法和本专利技术提出的方法生成的少数类数据作为测试集的G均值比较结果。具体实施方式下面结合附图对本专利技术的技术方案做进一步的详细说明:如图1所示,一种非平衡IPTV数据集上的少数类样本的合成方法,其步骤包括:步骤1:找出所有少数类样本点各自的K近邻集合Si,其中K为自然数,i为正整数;步骤2,根据步骤1获取的K近邻集合分析每个少数类样本的特性,进而将其分为噪声集、安全集和危险集三类;步骤3,对噪声集中的样本不做处理,计算安全集中的样本数量和危险集中的样本数量之间的比值T;步骤4,产生一个服从区间[0,1]上的均匀分布的随机数b;若b∈[0,T/(T+1)],则选择危险集中的所有样本作为输入,送入标准的SMOTE算法生成新的少数类样本;反之,则选择安全集中的所有样本作为输入,送入标准的SMOTE算法生成新的少数类样本;步骤5,将原始的少数类样本和新生成的少数类样本合在一起组成新的少数类集合。所有步骤的具体过程如下:步骤1:设IPTV机顶盒采集到的数据包括状态数据和用户的报障数据两者是一一对应的。其中矢量xi的维度为p,反映IPTV网络状况(时延,丢包,卡顿等),yi为标量,是用户是否报障的标记,如用户保障,则yi=1,反之,yi=0。那么,少数类样本集Xminor定义为yi=1,i=1,...,N的所对应的所有xi;多数类样本集Xmajor定义为yi=0,i=1,...,N的所对应的所有xi,即Xmajor=X\\Xmajor。对于少数类中的每个样本xi∈Xminor,计算其与X中的所有样本的欧氏距离,选取距离最近的K个样本组成xi的K近邻集合Si。步骤2:由K近邻集合分析每个少数类样本的特性,将少数类样本进一步分类,具体如下:(2-1)统计出Si中的K个样本中属于多数类Xmajor的样本个数,即获得|Si∩Xmajor|,这可以通过统计Si中样本所属类别标记Y得到。(2-2)判断|Si∩Xmajor|所处的区间,分本文档来自技高网
...

【技术保护点】
一种非平衡IPTV数据集上的少数类样本的合成方法,其特征在于:具体包括如下步骤:步骤1:找出少数类样本集Xminor中每个样本点xi对应的K近邻集合Si,其中K为自然数,i=1,…N,xi∈Xminor;K近邻集合为距离xi最近的K个样本所组成的集合;步骤2,根据步骤1获取的K近邻集合分析每个少数类样本的特性,进而将其分为噪声集、安全集和危险集三类;步骤3,对噪声集中的样本不做处理,计算安全集中的样本数量和危险集中的样本数量之间的比值T;步骤4,产生一个服从区间[0,1]上的均匀分布的随机数b;若b∈[0,T/(T+1)],则选择危险集中的所有样本作为输入,送入标准的SMOTE算法生成新的少数类样本;反之,则选择安全集中的所有样本作为输入,送入标准的SMOTE算法生成新的少数类样本;步骤5,将原始的少数类样本和新生成的少数类样本合在一起组成新的少数类集合。

【技术特征摘要】
1.一种非平衡IPTV数据集上的少数类样本的合成方法,其特征在于:具体包括如下步骤:步骤1:找出少数类样本集Xminor中每个样本点xi对应的K近邻集合Si,其中K为自然数,i=1,…N,xi∈Xminor;K近邻集合为距离xi最近的K个样本所组成的集合;步骤2,根据步骤1获取的K近邻集合分析每个少数类样本的特性,进而将其分为噪声集、安全集和危险集三类;步骤3,对噪声集中的样本不做处理,计算安全集中的样本数量和危险集中的样本数量之间的比值T;步骤4,产生一个服从区间[0,1]上的均匀分布的随机数b;若b∈[0,T/(T+1)],则选择危险集中的所有样本作为输入,送入标准的SMOTE算法生成新的少数类样本;反之,则选择安全集中的所有样本作为输入,送入标准的SMOTE算法生成新的少数类样本;步骤5,将原始的少数类样本和新生成的少数类样本合在一起组成新的少数类集合。2.根据权利要求1所述的一种非平衡IPTV数据集上的少数类样本的合成方法,其特征在于:所述步骤2具体包含如下步骤:步骤2.1,统计出...

【专利技术属性】
技术研发人员:魏昕李智林周亮黄若尘刘榕华
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1