一种基于聚类的多标签不平衡生物医学数据分类方法技术

技术编号：15241097 阅读：122 留言：0更新日期：2017-05-01 01:03

本发明专利技术涉及一种基于聚类的多标签不平衡生物医学数据分类方法，包括以下步骤：S101对标签不均衡的数据根据特征相似度和标签关联性定义关系矩阵；S102根据关联矩阵对数据进行聚类；S103对每个类簇中的不平衡标签进行有方向性的增加；S104对每个类簇中的数据用多标签分类器进行训练学习；S105根据投票原则把每个分类器的结果进行合并，预测出标签。本发明专利技术通过层次聚类方法对数据进行聚类，并且在聚类时考虑标签关联性来降低簇内标签的不平衡性，从而提高重采样方法生成新数据的可靠性，降低噪声数据的概率。

A clustering based multi label imbalanced biomedical data classification method

The invention relates to a method of classification based on biomedical data imbalance multi tag clustering, which comprises the following steps: S101 labeling of unbalanced data according to the feature similarity and tag relevance relation definition matrix; S102 based on data clustering correlation matrix; S103 has increased direction for each cluster in unbalanced label for each cluster; the data with multi label classifier learning S104 S105; according to the voting principle merge each classifier results, predict the label. The invention of data clustering by hierarchical clustering method, and clustering when considering the relevance labels to reduce intra cluster label imbalance, so as to improve the reliability of the new resampling method generated data, reduce the probability of noise data.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多标签
，尤其涉及一种基于聚类的多标签不平衡生物医学数据分类方法。
技术介绍
多标签学习可以称为监督学习的一个范式。不同于二分类问题，多标签学习允许样本有多个类别。但也不同于多分类问题，多标签学习允许一个对象同时属于多个类别。对于多标签样本数据分类表示为某一个样本数据含有多个标记的标签，整个样本数据集被标记成q维的多标签空间，每一个数据样本的特征向量表示为xi，标签向量标记为di＝{di1,di2,…,diq

【技术保护点】
一种基于聚类的多标签不平衡生物医学数据分类方法，其特征在于：包括以下步骤：S101对标签不均衡的数据根据特征相似度和标签关联性定义关联矩阵；S102根据关联矩阵对数据进行聚类；S103对每个类簇中的不平衡标签进行有方向性的增加；S104对每个类簇中的数据用多标签分类器进行训练学习；S105根据投票原则把每个分类器的结果进行合并，预测出标签。

【技术特征摘要】
1.一种基于聚类的多标签不平衡生物医学数据分类方法，其特征在于：包括以下步骤：S101对标签不均衡的数据根据特征相似度和标签关联性定义关联矩阵；S102根据关联矩阵对数据进行聚类；S103对每个类簇中的不平衡标签进行有方向性的增加；S104对每个类簇中的数据用多标签分类器进行训练学习；S105根据投票原则把每个分类器的结果进行合并，预测出标签。2.根据权利要求1所述的一种基于聚类的多标签不平衡生物医学数据分类方法，其特征在于：所述关系矩阵的定义包括以下子步骤：S1011根据传统的欧氏距离来计算样本数据特征之间的关联度定义特征相似度；S1012根据汉明距离来计算样本数据标签之间的关联度定义标签相似度；S1013通过特征相似度和标签相似度定义关联矩阵，根据如下公式(1)定义计算关联矩阵Lij；其中，Lij表示为第i条样本数据和第j条样本数据在关系矩阵中对应的值，n、p、q代表测试样本个数，dnp表示的是第n条样本数据与第p条样本数据的特征相似度，ξnq表示的是第n条样本数据与第q条样本数据的标签相似度，W1和W2分别表示特征相似度和标签相似度的占有比的阈值。3.根据权利要求2所述的一种基于聚类的多标签不平衡生物医学数据分类方法，其特征在于：在步骤S102中，采用层次聚类方式对数据进行聚类，当每个类簇中的标签满足一定结束条件时，聚类停止；结束的判断方法为：判断样本数据集的MeanIR是否大于1.5，并且样本数据个数大于生成数据个数占有整体...

【专利技术属性】
技术研发人员：王进，卜亚楠，欧阳卫华，谢水宁，孙开伟，张登峰，王科，李智星，陈乔松，邓欣，胡峰，雷大江，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人