基于聚类和匈牙利算法的数据分类方法技术

技术编号：10785102 阅读：512 留言：0更新日期：2014-12-17 12:13

本发明专利技术提供一种基于聚类和匈牙利算法的数据分类方法，包括：读取原始样本集{X1、X2...XN}；将原始样本集{X1、X2...XN}中所有样本视为无分类样本，对原始样本集中的所有样本采用聚类方法进行首次聚类，得到L+C个类别；将L个已知类别通过匈牙利算法指派到L+C个类别中的L个类别，将首次聚类得到的类别与已知类别对应上；将已知分类样本子集{X1、X2...Xn}中各个样本划分到其归属的类中，然后保持已知分类样本子集{X1、X2...Xn}中各个样本所属类不变，再次聚类，使用目标函数迭代未标注的样本，使未标注的样本分到某个类别或视为背景噪音。能够准确简单的对数据进行分类，且分类结果精确。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种，包括：读取原始样本集{&、x2...Xj;将原始样本集{Xi、X2...XJ中所有样本视为无分类样本，对原始样本集中的所有样本采用聚类方法进行首次聚类，得到L+C个类别；将L个已知类别通过匈牙利算法指派到L+C个类别中的L个类别，将首次聚类得到的类别与已知类别对应上；将已知分类样本子集{XpX2...XJ中各个样本划分到其归属的类中，然后保持已知分类样本子集{XpX2...XJ中各个样本所属类不变，再次聚类，使用目标函数迭代未标注的样本，使未标注的样本分到某个类别或视为背景噪音。能够准确简单的对数据进行分类，且分类结果精确。【专利说明】
本专利技术属于数据分类
，具体涉及一种基于聚类和匈牙利算法的数据分类方法。
技术介绍
对样本分析时，经常是部分样本的类别已知，已知类别的样本并不很多，而且，可能有背景噪音不属于任何类别。因此，对于该类问题，如果使用分类算法，不能生成可信赖的分类器，S卩：产生的分类器可能偏差较大，又不能把无未标注的类分出来；如果用聚类算法，又忽视了已标注样本的参考价值；而且，聚类算法也无法解决对背景噪音的处理分类问题。比较接近的方法为部分半监督学习算法，目前主要有两种：第一种，从已标注和未标注样本中进行学习；第二种,从正例和未标注样本中学习。对于第一种，要求已标注的类别全部有标注样本,局限性较大。而对于第二种，是对正例与反例的二分类算法，无法解决部分类进行了标注、部分类未标注的情况；也不能解决有背景噪音的情况。
技术实现思路
针对现...
<a href="http://www.xjishu.com/zhuanli/55/201310220527.html" title="基于聚类和匈牙利算法的数据分类方法原文来自X技术">基于聚类和匈牙利算法的数据分类方法</a>

【技术保护点】
一种基于聚类和匈牙利算法的数据分类方法，其特征在于，包括以下步骤：S1，读取原始样本集{X1、X2...XN}；原始样本集{X1、X2...XN}包括已知分类样本子集{X1、X2...Xn}和未知分类样本子集{Xn+1、Xn+2...XN}；其中，已知分类样本子集{X1、X2...Xn}中各个样本所属类别Yi分别为Y1、Y2...Yn；已知分类样本子集中已知类别个数为L；未知分类样本子集{Xn+1、Xn+2...XN}中未知类别个数为C；S2，将原始样本集{X1、X2...XN}中所有样本视为无分类样本，对原始样本集中的所有样本采用聚类方法进行首次聚类，得到L+C个类别；S3，将L个已知类别通过匈牙利算法指派到L+C个类别中的L个类别，将首次聚类得到的类别与已知类别对应上；S4，将已知分类样本子集{X1、X2...Xn}中各个样本划分到其归属的类中，然后保持已知分类样本子集{X1、X2...Xn}中各个样本所属类不变，再次聚类，使用目标函数迭代未标注的样本，使未标注的样本分到某个类别或视为背景噪音。

【技术特征摘要】

【专利技术属性】
技术研发人员：胡勇，
申请(专利权)人：北京齐尔布莱特科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人