一种面向长尾分布的模糊多标记分类方法技术

技术编号：43868671 阅读：8 留言：0更新日期：2024-12-31 18:54

本发明专利技术涉及机器学习和数据挖掘领域，具体涉及一种基于模糊规则的长尾多标记分类方法。该方法包括训练阶段和使用阶段两部分。训练阶段包括基于模糊规则的特征变换、基于模糊规则的标记平衡学习、基于模糊规则的标记耦合学习。基于模糊规则的特征变换将多标记的原始特征映射到高维的模糊特征空间，为后续构建模糊特征与标记(尤其是尾标记)之间的映射关系提供了丰富的隐含知识。基于模糊规则的标记平衡学习在为模糊特征空间与标记空间构建映射函数(即损失函数)时，能自适应地为不同标记的学习过程进行加权，以此来减小尾标记的决策偏差。基于模糊规则的标记耦合学习通过为任意两个标记构造耦合来分析它们之间的共现关系。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习和数据挖掘领域，具体涉及一种基于模糊规则的长尾多标记分类方法。

技术介绍

0、技术背景

1、标记的稀疏性通常使多标记数据集服从长尾分布。即按照标记出现的频率降序排列，得到的频率分布是长尾的，其中大量的标记只与极少的样本相关(又叫尾标记)，而只有少量的标记与大量的样本相关(又叫头标记)。在许多实际应用场景中，长尾分布问题尤为突出。例如：在车联网中，交通状况、事故类型和道路条件的标记往往具有长尾分布特性。大多数情况下，常见的交通状况和事故类型样本较多(头标记)，而罕见的交通状态和特殊事故类型样本稀少(尾标记)。在生物信息学中，某些罕见疾病或基因突变也是长尾分布的典型案例。在情绪感知领域，一些细微或不常见的情绪状态也存在类似问题。

2、与头标记相比，尾标记的相关样本不充分，造成传统模型对尾标记的决策偏差较大。目前，能处理多标记场景下长尾分布问题的方法大体上可归纳为三个方向：即，合适的采样策略，知识迁移，以及构建复杂的(合成的)目标函数。对于合适的采样策略，目前这个方向的解决思路需要借助传统的基于单标记的采样策略。例如将长尾多标记分类任务拆分成多个不平衡二元分类任务。在每个二元分类任务中，该方法对不相关样本进行多次欠采样学习，并产生多个决策边界，再利用融合策略将多个策略边界整合为一个综合边界。对于知识迁移，这个方向目前可归纳为两种思路：一种是实现标记内迁移。即，多标记长尾分布问题被拆成多个独立的单标记类别不平衡问题，实现大类到小类的知识迁移。另一种是实现标记间迁移。这个思路是专门针对多标记长

3、上述三个方向都可以解决多标记场景下的长尾分布问题，但几乎没有方法能同时关注如下三个问题：1)如何丰富尾标记的可学习知识。2)如何减小尾标记的决策偏差。3)如何利用标记之间的关系来提升预测性能。因此，亟待发展出有效的长尾多标记学习方法来兼顾上述三个挑战。

技术实现思路

1、本专利技术的目的是提供一种适用于多种领域的基于模糊规则的长尾多标记分类方法，旨在解决不同领域的多标记数据集中尾标记稀缺导致的可学习知识贫瘠、决策偏差较大和标记关系未充分利用的问题。通过引入模糊规则和相关学习机制，本专利技术能够有效挖掘数据中的潜在信息、减少因长尾分布引起的决策偏差、并利用标记之间的共现关系提升预测性能。该方法在生物信息学、情绪感知等实际应用场景中具有广泛的应用前景。

2、本专利技术的技术方案如下：

3、一种面向长尾分布的模糊多标记分类方法，步骤如下：

4、训练阶段步骤为：

5、第一步：基于模糊规则的特征变换。具体过程如下：

6、对于含有k条推理规则的多输出takagi-sugeno-kang模糊系统，它的第k条推理规则可表示如下：

7、

8、其中xj(1≤j≤d)代表实例x的第j个特征，d表示特征维度，表示实例x的第j个特征在第k条规则上的前件模糊集，是第j个特征在第k条规则上对应于第l个输出的后件参数，是实例x在第k条规则上的第l个输出。

9、公式(1)中的前件模糊集可通过高斯隶属度函数来描述，即：

10、

11、其中和可通过fuzzy c-means(fcm)聚类方法获得：

12、

13、其中uik表示第i个实例在第k条推理规则上的隶属值，可通过fcm计算获得。

14、∈是超参数，用于调整

15、根据上述分析，实例x在第k条规则上的点火水平可表示为：

16、

17、其中公式(6)是公式(5)的标准化形式。最后，实例x在多输出tsk fs中的第l个输出被表达为：

18、

19、进一步地，公式(7)可以被重新表达为实例x在模糊特征空间的线性模型：

20、

21、其中，

22、

23、那么，对于多标记数据中的第i个实例xi(1≤i≤n)，在模糊规则数被设置为k的前提下，它在模糊特征空间对应的模糊特征向量是具体映射过程可参考公式(2)-(6)以及(9)-(11)。也就是说，

24、φ1(xi)＝xg,i (12)

25、相应地，对于多标记数据集的输入矩阵x＝[x1,x2,…,xn]，它经过φ1可得到如下模糊特征矩阵：

26、

27、与原始特征相比，高维模糊特征空间下的模糊特征具有一个内在的优势。即，模糊特征对实例的表达能力更强。这意味着尾标记可以从模糊特征中学习到更丰富的隐含知识。

28、第二步：基于模糊规则的标记平衡学习。具体过程如下：

29、对于第j个标记向量(即y中的第j行元素)，它在多输出takagi-sugeno-kang模糊系统中对应的输出被线性表达为：

30、

31、其中对应第j个标记在多输出takagi-sugeno-kang模糊系统中的后件参数向量。那么，cj的最优解可通过最小二乘法求得，即：

32、

33、公式(15)即为特征与第j个标记之间线性回归的损失函数。

34、为公式(15)中第j个标记的学习过程进行加权是平衡尾标记决策偏差的关键。本专利技术采用一种温和且灵活的方式进行加权。即，在不进行人工分离头标记与尾标记的情况下获得第j个标记的学习权重qj(1≤j≤l)。具体地，

35、

36、其中，

37、pj＝oj/m (17)

38、oj＝|{n|ynj＝1,1≤n≤n}| (18)

39、

40、其中oj代表第j个标记出现的频率(即相关样本量)，公式(16)-(19)表明第j个标记出现的频率越小，对应的权重qj(qj>0)越大。因此，公式(15)可以被改进为：

41、

42、与公式(15)相比，公式(20)更适合服从长尾分布的多标记学习场景。主要原因是qj的引入使本专利技术能够在一定程度上缓解尾标记因相关样本量少而得不到充分学习的问题，这有利于降低尾标记的决策偏差。

43、综合上述分析，基于模糊规则的标记平衡学习即可被表达为：

44、

45、

46、其中并且进一步地，我们为公式(21)加入正则化项，即，

47、

48、其中β>0是一个超参数，用于平衡基于模糊规则的标记平衡学习和模型复杂度的影响。

49、第三步：基于模糊规则的标记耦合学习。具体过程如下：

50、首先，本专利技术采用皮尔逊相关系数来度量标记空间中和之间的共现关系，并记为uij。一般地，-1≤uij≤1。当标记向量和之间是正相关时，uij>0，否则，uij&l本文档来自技高网...

【技术保护点】

1.一种面向长尾分布的模糊多标记分类方法，其特征在于，步骤如下：

2.如权利要求1所述的一种面向长尾分布的模糊多标记分类方法，其特征在于，所述的第二步，具体操作如下：

3.如权利要求1或2所述的一种面向长尾分布的模糊多标记分类方法，其特征在于，所述的第三步，具体操作如下：

4.如权利要求1或2一种面向长尾分布的模糊多标记分类方法，其特征在于，使用阶段步骤为：

5.如权利要求3一种面向长尾分布的模糊多标记分类方法，其特征在于，使用阶段步骤为：

【技术特征摘要】

1.一种面向长尾分布的模糊多标记分类方法，其特征在于，步骤如下：

2.如权利要求1所述的一种面向长尾分布的模糊多标记分类方法，其特征在于，所述的第二步，具体操作如下：

3.如权利要求1或2所述的一种面向长尾分布的模糊多标记...

【专利技术属性】
技术研发人员：娄琼丹，邓赵红，王泉，阚希，
申请(专利权)人：无锡学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人