一种非平衡IPTV数据集上的少数类样本的合成方法技术

技术编号：14514816 阅读：95 留言：0更新日期：2017-02-01 16:14

本发明专利技术公开了一种非平衡IPTV数据集上的少数类样本的合成方法，用于解决现有少数类数据合成方法中对少数样本不加以分析处理直接生成新样本而造成的后续分类预测模型性能下降的缺陷，本发明专利技术的实施流程为：首先找出少数类样本的邻居集合，根据邻居样本所属类别的比重将其分为噪声集、安全集和危险集三类，对噪声集中的样本不做处理，对安全集和危险集计算其比率并计算相关概率，以此概率选择安全集或危险集，基于所选集合中的样本产生新的少数类样本；采用本发明专利技术的方法，可以去除对分类其负面作用的少数类样本效应，并且增加分类面附近的少数类样本的效用，所获得的新的少数类样本可以更好地提升后续分类、预测模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及非平衡数据处理领域，尤其是涉及一种非平衡IPTV数据集上的少数类样本的合成方法。
技术介绍
随着国内固网运营商的业务转型，基于互联网的各种增值业务已成为运营商新业务增长点的重要组成部分，尤其是交互式网络电视(IPTV)业务已呈现出快速增长的态势。IPTV有如下特点：(1)用户能够获得高质量的数字媒体服务；(2)用户能够通过宽带IP网络自由的选择视频节目；(3)其为运营商提供了广阔的新兴市场。近年来，运行商和研究机构人员致力于通过研究影响用户体验质量(QoE)的关键因素来提升IPTV用户的感受和满意度。在现有的解决方案中，基于从IPTV机顶盒采集的状态数据和用户的报障数据，通过机器学习中的模型和相关方法来预测用户的QoE。但由于在IPTV业务的大多数情况下，网络状况良好，用户体验也较好，没有报障，在少数情况下用户体验差而报障，因而机顶盒所采集到的数据是非平衡的，即，存在两个类别——用户报障类别和用户不报障类别。其中用户报障类别的样本数远远小于用户不报障类别的样本数，那么在该问题中，用户报障类别为少数类，用户不报障类别为多数类。为了解决非平衡数据处理问题，常常需要根据现有数据特性，合成一部分少数类样本，从而使得两类数据量达到平衡。在现有的方法中，SyntheticMinorityOversamplingTechnique(SMOTE)作为一个过采样的技术，常常用于合成少数类。虽然SMOTE算法有很多优点，但是依然有一些缺陷，包括过拟合和数据多变性。特别是，当SMOTE为每一个少数样本生成相同数目的合成数据，没有将邻居样本考虑在内，这会增加少数类...

【技术保护点】
一种非平衡IPTV数据集上的少数类样本的合成方法，其特征在于：具体包括如下步骤：步骤1：找出少数类样本集Xminor中每个样本点xi对应的K近邻集合Si，其中K为自然数，i＝1,…N，xi∈Xminor；K近邻集合为距离xi最近的K个样本所组成的集合；步骤2，根据步骤1获取的K近邻集合分析每个少数类样本的特性，进而将其分为噪声集、安全集和危险集三类；步骤3，对噪声集中的样本不做处理，计算安全集中的样本数量和危险集中的样本数量之间的比值T；步骤4，产生一个服从区间[0,1]上的均匀分布的随机数b；若b∈[0,T/(T+1)]，则选择危险集中的所有样本作为输入，送入标准的SMOTE算法生成新的少数类样本；反之，则选择安全集中的所有样本作为输入，送入标准的SMOTE算法生成新的少数类样本；步骤5，将原始的少数类样本和新生成的少数类样本合在一起组成新的少数类集合。

【技术特征摘要】
1.一种非平衡IPTV数据集上的少数类样本的合成方法，其特征在于：具体包括如下步骤：步骤1：找出少数类样本集Xminor中每个样本点xi对应的K近邻集合Si，其中K为自然数，i＝1,…N，xi∈Xminor；K近邻集合为距离xi最近的K个样本所组成的集合；步骤2，根据步骤1获取的K近邻集合分析每个少数类样本的特性，进而将其分为噪声集、安全集和危险集三类；步骤3，对噪声集中的样本不做处理，计算安全集中的样本数量和危险集中的样本数量之间的比值T；步骤4，产生一个服从区间[0,1]上的均匀分布的随机数b；若b∈[0,T/(T+1)]，则选择危险集中的所有样本作为输入，送入标准的SMOTE算法生成新的少数类样本；反之，则选择安全集中的所有样本作为输入，送入标准的SMOTE算法生成新的少数类样本；步骤5，将原始的少数类样本和新生成的少数类样本合在一起组成新的少数类集合。2.根据权利要求1所述的一种非平衡IPTV数据集上的少数类样本的合成方法，其特征在于：所述步骤2具体包含如下步骤：步骤2.1，统计出...

【专利技术属性】
技术研发人员：魏昕，李智林，周亮，黄若尘，刘榕华，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人