一种基于离散标签的集成聚类方法技术

技术编号：40089958 阅读：15 留言：0更新日期：2024-01-23 16:03

本发明专利技术公开了一种基于离散标签的集成聚类方法，以创建高质量伪标签，从而引导聚类过程，最后通过多次迭代聚类精确地发现文本中的关系类型；其过程包括：步骤S1，构建每个聚类结果的距离度矩阵；步骤S2，对每个聚类结果的距离矩阵赋予一个权重，获得加权的共识距离图矩阵；步骤S3，获得离散的标签矩阵；步骤S4，为了防止权重过于极化，给权重增加正则化项，得出基于离散标签的集成聚类的目标函数。本发明专利技术通过对集成聚类方法中的集成聚类施加正则项，以平衡每个聚类结果之间的权重，从而引导聚类过程，创建高质量伪标签，最后通过多次迭代聚类更精确地发现文本中的关系类型,获得更合理的超图和每个样本的类别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种集成聚类方法，尤其是涉及一种基于离散标签的集成聚类方法，通过对集成聚类施加正则项，以平衡每个聚类结果之间的权重，获得更合理的超图和每个样本的类别。

技术介绍

1、在数据挖掘的应用中，聚类是根据相似性其划分到若干集合中的一个经典机器学习问题，在兴趣推荐、图像分割和异常检测均有的应用前景。大多数开放关系抽取方法通过基于无监督方法提取命名实体之间的关系模式，然后将语义等价的模式聚类成一个关系簇，但由于缺少监督信息且聚类精度低，存在稳定性和鲁棒性偏低的问题。因此开放关系抽取方法需要借助无监督集成学习创建高质量伪标签，并以此作为监督信息改进关系特征的学习。为了解决这个问题，聚类集成方法应运而生。集成聚类通过集成多个弱的聚类结果，得到一个鲁棒性更高和更稳定的聚类结果。虽然集成聚类已经取得了良好的效果，但是传统的集成聚类算法通常采用较弱的聚类结果算法，容易导致聚类结果不可靠。传统的集成谱聚类主要包括两个步骤：1)基于图laplacian的特征向量构造数据的低维嵌入表示；2)对构造的低维数据应用k-means得到聚类结果。因此，对于集成谱聚类算法而言，这样的两步流水线会由于两步过程中的信息丢失而导致次优的结果质量。而且已有的算法往往将各个聚类结果平等对待，导致最后的一致性聚类结果易受到不可靠的聚类结果的负面影响。因此，现有技术从开放域语料库中抽取关系事实的方法因聚类精度较低影响了最终的关系抽取效果。

技术实现思路

1、本专利技术针对现有技术存在的上述问题，提出了一种基于离散标签的集成聚类方法。

2、通过对集成聚类方法中的集成聚类施加正则项，以平衡每个聚类结果之间的权重，从而引导聚类过程，以创建高质量伪标签，最后通过多次迭代聚类更精确地发现文本中的关系类型,获得更合理的超图和每个样本的类别。

3、本专利技术采用的技术方案：

4、一种基于离散标签的集成聚类方法，以创建高质量伪标签，从而引导聚类过程，最后通过多次迭代聚类精确地发现文本中的关系类型；其过程包括：

5、步骤s1，构建每个聚类结果的距离度矩阵；

6、对于一个具有n个实例的数据集x＝[x1,x2,…,xn]，通过聚类方法得到该数据集的m个聚类结果{c1,c2,…,cm}，通过集成m个聚类结果来学习一个共识的聚类结果；

7、每个聚类结果的距离度矩阵为：dv＝i-hv(hv)t；

8、其中，是第v个聚类结果的标签指示矩阵，kv是第v个聚类结果的类别数，i∈rn×n是单位矩阵，因此可得dv是第v个聚类结果的样本之间的距离关系；m，n，v为大于1的自然数；t为矩阵的转置。

9、步骤s2，对每个聚类结果的距离矩阵赋予一个权重αv，获得加权的共识距离图矩阵；

10、

11、其中，αv是每v个聚类结果分别赋予的权重，权重之和为1；

12、由于基聚类方法可能较弱，这可能导致不可靠的基聚类，因此由这些不可靠的基聚类构建的超图也可能是不完美的。因此，因基聚类的质量重新赋予新的权重去构造的超图而得到的最终聚类结果可能大大提高提升聚类质量。本专利对每个基聚类的距离度矩阵赋予一个权重，这样才可以得到一个鲁棒性更高的共识距离图矩阵。

13、步骤s3，获得离散的标签矩阵；

14、为解决聚类不稳定和谱嵌入矩阵f元素可能存在负数的问题，将连续松弛的谱嵌入矩阵f变成二元隶属度指示矩阵y；因此共识距离度矩阵改为：

15、

16、步骤s4，获得权重正则化；

17、为了防止权重过于极化，因此给权重增加正则化项，加上原方法每个聚类结果权重约束项αv＞0，得出基于离散标签的集成聚类的目标函数为：

18、

19、

20、其中，λ为施加的正则项，用于平衡每个聚类结果的权重，防止出现过拟合的现象。

21、我们设计每个基聚类的权重，而不是平等对待聚类中的结果。对聚类进行加权的主要动机是为不稳定的聚类赋予较低的权重。充分利用样本特征和类别结构等多层次信息进行集成聚类。

22、所述的基于离散标签的集成聚类方法，步骤s1中，构建每个聚类结果的距离度矩阵的过程如下：

23、对于每个标签向量cq∈νn，构造二元隶属度指示矩阵hq：

24、

25、每个聚类(现在表示为超边)有一列，如果二元隶属度指示矩阵hq中的一行对应一个已知标签的对象，代表在第q个基类中，第i个样本属于第j个类簇；

26、基于粗分辨率的观点，如果两个对象在同一簇中，则它们的相似度为1，否则相似度为0，为每个簇创建n×n二进制相似度矩阵；故sq＝hq(hq)t，sq的元素表示两个对象位于同一簇中的亲属度；令dq＝i-sq，则矩阵dq中元素中dijq代表第i个样本和第j个样本之间的距离关系。

27、所述的基于离散标签的集成聚类方法，步骤s4中，基于离散标签的集成聚类，采用迭代优化方法对目标函数进行求解，求解过程如下：

28、步骤s41，当矩阵y固定时，对权重αv进行求解；则目标函数可以转换为：

29、

30、

31、其中dv＝i-hv(hv)t，由于约束项权重之和为1，需构建拉格朗日函数：

32、

33、拉格朗日函数对αv求导并等于为0，故得：

34、

35、通过数学化简，可得

36、

37、步骤s42、当权重αv固定时，对二元隶属度指示矩阵y进行求解；则目标函数可以转换为：

38、

39、y∈{0,1}n×k,y1＝1

40、其中，d为每个聚类结果通过权重得到的共识距离度图矩阵；

41、当目标函数不满足收敛条件时，一直依次循环步骤s41，s42，最后输出二元隶属度指示矩阵y，从而获得更合理的超图和每个样本的类别。

42、所述的基于离散标签的集成聚类方法，采用标准坐标下降算法优化步骤s42所述目标函数；为求解y的第1行，将其他行固定为常数；令为去掉第一行的矩阵y，dr为去掉第一行和第一列的矩阵d；则目标函数就变成了：

43、

44、

45、

46、

47、其中vt＝[d1,2,d1,3,…,d1,n]，d1,1＝0；y表示y1更新前的指示矩阵；

48、y的其他行的更新规则可以类似地推导出来；

49、最后，通过下式

50、

51、得到yi的最优解。

52、专利技术有益效果：

53、传统的集成谱聚类主要包括两个步骤：1)基于图laplacian的特征向量构造数据的低维嵌入表示；2)对构造的低维数据应用k-means得到聚类结果。因此，对于集成谱聚类算法而言，这样的两步流水线会由于两步过程中的信息丢失而导致次优的结果质量。

54、本专利技术与传统的集成谱聚本文档来自技高网...

【技术保护点】

1.一种基于离散标签的集成聚类方法，以创建高质量伪标签，从而引导聚类过程，最后通过多次迭代聚类精确地发现文本中的关系类型；其特征在于，其过程包括：

2.根据权利要求1所述的基于离散标签的集成聚类方法，其特征在于：所述步骤S1中，构建每个聚类结果的距离度矩阵的过程如下：

3.根据权利要求1或2所述的基于离散标签的集成聚类方法，其特征在于：所述步骤S4中，基于离散标签的集成聚类，采用迭代优化方法对目标函数进行求解，求解过程如下：

4.根据权利要求3所述的基于离散标签的集成聚类方法，其特征在于：采用标准坐标下降算法优化步骤S42所述目标函数；为求解Y的第1行，将其他行固定为常数；令YrT为去掉第一行的矩阵Y，Dr为去掉第一行和第一列的矩阵D；则目标函数就变成了：

【技术特征摘要】

2.根据权利要求1所述的基于离散标签的集成聚类方法，其特征在于：所述步骤s1中，构建每个聚类结果的距离度矩阵的过程如下：

3.根据权利要求1或2所述的基于离散标签的集成聚类方法，...

【专利技术属性】
技术研发人员：李云，杨晓君，赵伟豪，
申请(专利权)人：广东云曌医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人