一种基于半监督聚类的迁移学习方法技术

技术编号:8532953 阅读:258 留言:0更新日期:2013-04-04 16:01
本发明专利技术提供的是一种基于半监督聚类的迁移学习方法。包括计算目标数据与辅助数据各类中数据的相似度、平均相似度;由平均相似度得到目标数据与类标签的一个相似度权重向量,取向量中权重最大的为目标数据的标签;以目标数据为质心,进行K-均值聚类,聚类成簇,每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签;将再分类结果与预分类结果做对比;在最终形成的目标数据相似度权重向量中,挑选权重最大的数据标签作为目标数据数据标签,从而形成最终分类器。本发明专利技术提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的一种基于半监督聚类的迁移学习方法。

【技术实现步骤摘要】

本专利技术涉及一种机器学习领域的方法,特别是涉及。
技术介绍
机器学习中传统的分类器要求源数据与目标数据必须具备相同的分布,然而现代社会信息发展日新月异,这种假设在实际生活中很难实现。当出现不同分布的数据时,传统分类器就要重新收集大量数据,由专家对这些数据进行分析、标签。就要投入大量的人力、时间,这样做不仅效率不高,而且代价也是很昂贵的。而迁移学习就能克服从零开始收集数据的缺点。它能从不同但相似领域,迁移其有用的方法、技术到目标领域,帮助目标领域数据进行分类。目前有一些对迁移学习方法的研究,但其主要是针对二分类的,即假设目标数据分类只分为两类0或I。然而现实生活,数据复杂多样,分类不可能如此单一,这显然很不符合实际。对于多分类复杂分类器来说,该实验算法可能就会失效。还有一些方法,通过建立源领域到目标领域的桥梁,通过桥梁实现标签传递。标签传递过程中不断地修正由源领域训练得到的模型在目标领域数据集中的预测,最终并不能形成一个分类器。对于新来的数据,只能重新进行桥接精化的过程,这对于整个迁移学习过程效率很低。此外,目前对迁移学习方法的研究都面临着一个共同的问题精确度不高。我们可以通过一些算法实现方法、技术的迁移,产生最终分类器。但是由于知识、能力的限制,使得最终分类器的分类精度不高,即分类误差比较大。
技术实现思路
本专利技术的目的在于提供一种将分类方法、技术从一个领域迁移到另一个领域的提高分类结果精确度的。本专利技术的目的是这样实现的基于半监督聚类的迁移学习方法包括以下步骤(I)、计算目标数据与辅助数据各类中数据的相似度;(2)、计算目标数据与辅助数据各类的平均相似度;(3)、预分类由平均相似度得到目标数据与类标签的一个相似度权重向量。取向量中权重最大的为目标数据的标签;(4)、再分类以目标数据为质心,进行K-均值聚类。聚类成簇,每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签;(5)、将再分类结果与预分类结果做对比。若两者相同,则增大相似度权重向量中类标签权重;若不相同,则减小类标签权重;(6)、在最终形成的目标数据相似度权重向量中,挑选权重最大的数据标签作为目标数据数据标签,从而形成最终分类器。本专利技术的有益效果是1.改进机器学习中传统分类器,可以进行跨领域的知识、技术的迁移。2.不只是停留在实验中二分类的情况,而是可以针对实际情况完成多分类的标签迁移,对目标数据进行分类任务。3.最终可以产生分类器,该分类器可以是多类别分类器,符合实际,效率高,精确度也比较高。4、可以用于相似领域的文本分类、网页分类、图像分类等,甚至可实现文本到图片或图片到文本分类方法、技术的迁移。附图说明 图1为基于半监督聚类的迁移学习方法的流程图。具体实施例方式本专利技术采用标准文本数据20Newsgroup作为实验数据。20Newsgroup是一个包含20000个新闻组的文档集,分为20个子类,7个顶层类。为使数据集满足迁移场景,本专利技术对数据集进行了重构。由于该数据集包含分属不同顶层类别的子类,可以将相同顶层类别的子类划分出来与不同顶层的子类构成不同领域的数据集。基于这种重构,源领域数据与目标数据来源于不同分布,但由于其子类又有相同的顶层类,因此两个领域数据又存在一定联系。源领域、目标领域数据如下本文档来自技高网...

【技术保护点】
一种基于半监督聚类的迁移学习方法,其特征在于包括以下步骤:(1)、计算目标数据与辅助数据各类中数据的相似度;(2)、计算目标数据与辅助数据各类的平均相似度;(3)、预分类:由平均相似度得到目标数据与类标签的一个相似度权重向量,取向量中权重最大的为目标数据的标签;(4)、再分类:以目标数据为质心,进行K?均值聚类,聚类成簇,每簇中以簇中数据占所属类中总数据比例最大者的标签为簇标签;(5)、将再分类结果与预分类结果做对比,若两者相同,则增大相似度权重向量中类标签权重;若不相同,则减小类标签权重;(6)、在最终形成的目标数据相似度权重向量中,挑选权重最大的数据标签作为目标数据数据标签,从而形成最终分类器。

【技术特征摘要】
1. 一种基于半监督聚类的迁移学习方法,其特征在于包括以下步骤(1)、计算目标数据与辅助数据各类中数据的相似度;(2)、计算目标数据与辅助数据各类的平均相似度;(3)、预分类由平均相似度得到目标数据与类标签的一个相似度权重向量,取向量中权重最大的为目标数据的标签;(4)、再分类以目标数据为质心,进行K...

【专利技术属性】
技术研发人员:初妍陈曼沈洁夏琳琳王勇李丽洁高迪王兴梅
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1