System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,具体而言,涉及一种数据分析处理方法及系统。
技术介绍
1、不平衡数据分类问题广泛存在于实际应用场景的多个领域中,在数据不平衡条件下直接构建分类模型会导致分类器将更多地关注度集中于多数类样本,难以保证少数类样本的识别精度。非均衡数据集中不同类别之间数据样本分布不均衡,其中多数类样本属于某种类别,而余下的属于其它类别。然而,少数类样本所包含的信息通常更受关注,其误判的代价也更高。因此,在数据分布不平衡条件下提升少数类样本的分类精度十分必要。目前,国内外学者主要从数据平衡化处理、分类算法改进或两者结合的途径解决分类中的数据不平衡问题。非均衡数据处理方法的出现,使得数据挖掘技术向前迈进了一大步的同时也极大地推动了大数据的发展。例如,数据平衡化处理以过采样和欠采样为主要手段,独立于分类器,具有对各种具体分类算法的广泛适用性,因此应用较为广泛。其中过采样和欠采样分别通过扩增少数类样本和删除部分多数类样本构建平衡数据集,但欠采样在删除样本过程中易删除对分类影响较大的多数类样本从而造成重要信息丢失,即欠采样方法就是多数类数据中对一部分样本数据进行增删处理,使之与少数类样本数量相对平衡,从而转化为均衡分类问题。
2、常用的欠采样方法主要有随机欠采样方法、hart提出的紧缩最近邻规则、wilson提出的tomeklinks方法等。欠采样方法容易导致其删去了所具有的一部分特征属性,从而影响到了不平衡数据分类效果。过采样方法则是增加少数类的数据,其中最简单的一种就是随机过采样算法,其中最著名的算法就是smote算法。
3、上述方法在数据层面上对于非均衡数据分类问题得以解决,提高了样本的分类精确度,但都使得数据的特征分布发生改变,这些问题对整体样本的分类结果造成了一定影响。
4、有鉴于此,特提出本申请。
技术实现思路
1、本专利技术的目的在于提供一种数据分析处理方法及系统,解决现有的对于非均衡数据分类方法会改变数据的特征分布,影响对整体样本的分类效果的问题。
2、本专利技术通过下述技术方案实现:
3、第一方面,提供一种数据分析处理方法,包括以下步骤:利用多个待分析处理数据建立样本集;所述样本集中包含多个样本和每一个样本对应的特征值;根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集;所述第一类样本集中包含多个第一类样本 i,所述第二类样本集中包含多个第二类样本 j; i=1,2,…, i, i表示所述第一类样本集所包含的样本总数; j=1,2,…, j, j表示所述第二类样本集所包含的样本总数;针对每一个第一类样本 i,执行s1和s2,得到特征权重样本集;s1:获取第一类样本 i的特征值与每一个第二类样本 j的特征值之间的皮尔逊相关系数 cij;s2:获取每一个皮尔逊相关系数 cij对应的权重 wij,将权重 wij分别写入第一类样本 i和第二类样本 j;利用k中心聚类算法对所述特征权重样本集进行聚类,得到多个聚类簇;针对每一个聚类簇,执行s3和s4,得到新的样本集;s3:计算获得聚类簇的抽离样本的数量;所述抽离样本表示需从所述第二类样本集中抽离的第二类样本;s4:根据抽离样本的数量,采用随机采样方法从所述第二类样本集中抽离相应数量的第二类样本。
4、进一步的,所述利用待分析处理数据建立样本集,包括以下步骤:对每一个待分析处理数据进行特征提取,得到每一个待分析处理数据对应的特征值;将具有相同特征值的多个待分析处理数据划分到同一个数组中,得多个数组;一个数组对应一个样本,一个样本对应一个特征值;利用得到的多个样本和每一个样本对应的特征值建立所述样本集。
5、进一步的,将所述样本集划分为第一类样本集和第二类样本集,包括以下步骤:获取每一个特征值对应的样本中所包含的待分析处理数据的数量;设置分类阈值;将待分析处理数据的数量<所述分类阈值的样本划分为所述第一类样本;将待分析处理数据的数量≥所述分类阈值的样本划分为所述第二类样本。
6、进一步的,获取皮尔逊相关系数 cij1包括以下步骤:将第二类样本 j划分为多个子样本 j1;分别获取第一类样本 i的特征值与每一个子样本 j1的特征值之间的皮尔逊相关系数 cij1;获取所有皮尔逊相关系数 cij1的平均值,得到皮尔逊相关系数 cij。
7、进一步的,抽离样本的数量的计算公式为:; d表示需抽离样本的数量;表示样本集中第二类样本的数量; m表示聚类簇, m=1,2,…, m, m表示聚类簇的总数; xm表示聚类簇 m中第二类样本的数量, ym表示聚类簇 m中第一类样本的数量。
8、进一步的,所述数据分析处理方法还包括以下步骤:从所述样本集中随机选取一个待分析处理数据;获取随机选取的待分析处理数据与所述样本集中其余每一个待分析处理数据之间的欧式距离;设置距离阈值;除随机选取的待分析处理数据之外,从所述样本集中挑选出一个欧式距离≤所述距离阈值的待分析处理数据;采用线性插值法在随机选取的待分析处理数据和挑选出的待分析处理数据之间插入新的待分析处理数据;将新的待分析处理数据放入所述样本集。
9、第二方面,提供一种数据分析处理系统,包括:样本集创建模块、样本集分类模块、相关系数计算模块、权重计算模块、k中心聚类模块、抽离样本数量计算模块和样本抽取模块。其中,样本集创建模块用于利用多个待分析处理数据建立样本集;所述样本集中包含多个样本和每一个样本对应的特征值。样本集分类模块用于根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集;所述第一类样本集中包含多个第一类样本 i,所述第二类样本集中包含多个第二类样本 j; i=1,2,…, i, 本文档来自技高网...
【技术保护点】
1.一种数据分析处理方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种数据分析处理方法,其特征在于,所述利用待分析处理数据建立样本集,包括以下步骤:
3.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,将所述样本集划分为第一类样本集和第二类样本集,包括以下步骤:
4.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,获取皮尔逊相关系数Cij包括以下步骤:
5.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,抽离样本的数量的计算公式为:;D表示需抽离样本的数量;表示样本集中第二类样本的数量;m表示聚类簇,m=1,2,…,M,M表示聚类簇的总数;xm表示聚类簇m中第二类样本的数量,ym表示聚类簇m中第一类样本的数量。
6.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,还包括以下步骤:
7.一种数据分析处理系统,其特征在于,包括
8.根据权利要求7所述的一种数据分析处理系统,其特征在于,所述样本集创建模块包括:
9.根据权利要求7或8所述的
10.根据权利要求7或8所述的一种数据分析处理系统,其特征在于,还包括数据插值模块;所述数据插值模块包括:
...【技术特征摘要】
1.一种数据分析处理方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种数据分析处理方法,其特征在于,所述利用待分析处理数据建立样本集,包括以下步骤:
3.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,将所述样本集划分为第一类样本集和第二类样本集,包括以下步骤:
4.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,获取皮尔逊相关系数cij包括以下步骤:
5.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,抽离样本的数量的计算公式为:;d表示需抽离样本的数量;表示样本集中第二类样本的数量;m表...
【专利技术属性】
技术研发人员:潘贤真,马骎骎,赵志军,范浩,张晓彤,
申请(专利权)人:中外运创新科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。