一种基于半监督聚类的迁移学习方法技术

技术编号：8532953 阅读：258 留言：0更新日期：2013-04-04 16:01

本发明专利技术提供的是一种基于半监督聚类的迁移学习方法。包括计算目标数据与辅助数据各类中数据的相似度、平均相似度；由平均相似度得到目标数据与类标签的一个相似度权重向量，取向量中权重最大的为目标数据的标签；以目标数据为质心，进行K-均值聚类，聚类成簇，每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签；将再分类结果与预分类结果做对比；在最终形成的目标数据相似度权重向量中，挑选权重最大的数据标签作为目标数据数据标签，从而形成最终分类器。本发明专利技术提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的一种基于半监督聚类的迁移学习方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种机器学习领域的方法，特别是涉及。
技术介绍
机器学习中传统的分类器要求源数据与目标数据必须具备相同的分布，然而现代社会信息发展日新月异，这种假设在实际生活中很难实现。当出现不同分布的数据时，传统分类器就要重新收集大量数据，由专家对这些数据进行分析、标签。就要投入大量的人力、时间，这样做不仅效率不高，而且代价也是很昂贵的。而迁移学习就能克服从零开始收集数据的缺点。它能从不同但相似领域，迁移其有用的方法、技术到目标领域，帮助目标领域数据进行分类。目前有一些对迁移学习方法的研究，但其主要是针对二分类的，即假设目标数据分类只分为两类0或I。然而现实生活，数据复杂多样，分类不可能如此单一，这显然很不符合实际。对于多分类复杂分类器来说，该实验算法可能就会失效。还有一些方法，通过建立源领域到目标领域的桥梁，通过桥梁实现标签传递。标签传递过程中不断地修正由源领域训练得到的模型在目标领域数据集中的预测，最终并不能形成一个分类器。对于新来的数据，只能重新进行桥接精化的过程，这对于整个迁移学习过程效率很低。此外，目前对迁移学习方法的研究都面临着一个共同的问题精确度不高。我们可以通过一些算法实现方法、技术的迁移，产生最终分类器。但是由于知识、能力的限制，使得最终分类器的分类精度不高，即分类误差比较大。
技术实现思路
本专利技术的目的在于提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的。本专利技术的目的是这样实现的基于半监督聚类的迁移学习方法包括以下步骤(I)、计算目标数据与辅助数据各类中数据的相似度；(2)、计算目标数据与辅助数据各类的平均...

【技术保护点】
一种基于半监督聚类的迁移学习方法，其特征在于包括以下步骤：（1）、计算目标数据与辅助数据各类中数据的相似度；（2）、计算目标数据与辅助数据各类的平均相似度；（3）、预分类：由平均相似度得到目标数据与类标签的一个相似度权重向量，取向量中权重最大的为目标数据的标签；（4）、再分类：以目标数据为质心，进行K?均值聚类，聚类成簇，每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签；（5）、将再分类结果与预分类结果做对比，若两者相同，则增大相似度权重向量中类标签权重；若不相同，则减小类标签权重；（6）、在最终形成的目标数据相似度权重向量中，挑选权重最大的数据标签作为目标数据数据标签，从而形成最终分类器。

【技术特征摘要】
1. 一种基于半监督聚类的迁移学习方法，其特征在于包括以下步骤(1)、计算目标数据与辅助数据各类中数据的相似度；(2)、计算目标数据与辅助数据各类的平均相似度；(3)、预分类由平均相似度得到目标数据与类标签的一个相似度权重向量，取向量中权重最大的为目标数据的标签；(4)、再分类以目标数据为质心，进行K...

【专利技术属性】
技术研发人员：初妍，陈曼，沈洁，夏琳琳，王勇，李丽洁，高迪，王兴梅，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人