一种基于集成学习的鲁棒社团检测方法技术

技术编号:38133083 阅读:7 留言:0更新日期:2023-07-08 09:42
本发明专利技术公开了一种基于集成学习的鲁棒社团检测方法,包括以下步骤:步骤一、获得初步结果的集合:重复k次改进的Louvain算法,得到初步结果的集合P={C1,C2…

【技术实现步骤摘要】
一种基于集成学习的鲁棒社团检测方法


[0001]本申请涉及数据挖掘
,尤其涉及一种基于集成学习的鲁棒社团检测方法。

技术介绍

[0002]社团检测算法在网络数据的研究中有着重要的研究价值,它的目的是分析出网络中潜在的高阶网络结构。在不同的领域中网络数据都是一个避不开的数据类型,例如利用社会学中的社交网络,生物学中的蛋白质互作网络和金融业中的交易网络等。在这样背景下,研究者们已经开发了大量的传统社团检测算法,例如Louvain算法、光谱聚类、非负矩阵分解(NMF)和社团检测的深度学习。
[0003]而面对社团检测的发展,在现实中为了保护个人隐私或者犯罪集团为了隐匿自己不被监察机构发现,针对社团检测的攻击算法研究也伴随着社团检测算法的研究一同壮大,例如:基于模块度的攻击算法(Q

attack)、基于启发式的算法(DICE)和基于随机噪声的算法(random)。这些方法通过处理网络信息,使得传统社团检测算法的性能下降,从而达到保护网络中节点信息的目的。
[0004]为了克服这种对抗攻击对传统社团检测算法造成的影响,鲁棒社团检测算法在近期已经得到了研究者们的重视。例如:基于模体的社团增强算法(Edmot)、基于网络增强的社团检测算法(ND)和基于网络节点相似度的网络增强社团检测算法(RcdSe)等。它们可以总结为两个步骤:通过观察假设一种对抗攻击的特点,并针对这个特点对网络进行修复;然后在修复的网络上进行社团检测。这类方法通过简单的假设,将问题研究的关键聚焦在如何修复网络上。
>[0005]鉴于目前互联网接入的全球性,产品生产商和服务提供商有机会在全球范围内的大量客户中进行广告宣传。与此同时,消费者的选择成倍增加。尽管这允许多种可能性和更广泛的选择,但也会产生一些重要的影响。一方面,生产者和提供者越来越难以提高广告的效率,因为考虑到他们之间的需求的多样性,很难选择和瞄准那些偏好与他们的产品或服务更匹配的消费者。另一方面,考虑到选项的多样性和广泛可用性以及时间限制,消费者很难找到更符合他们兴趣的合适产品或服务。因此推荐系统已经成为机器学习的重要应用领域之一。而通过社团检测来解决推荐系统应用的过程中,高质量的社团结构直接影响了后续的推荐结果。但是通过研究发现,在过程中生成用户

用户网络的时候其实是一个不完整的网络。一些元素将会被掩藏,例如在现实中用户后续还没有进行的操作。这些网络都可以视为引入了一种没有先验知识的噪声,而不是传统社团检测假设的完美网络。这将导致传统的社团检测在实际应用时的效果并不能满意。并且已有的鲁棒社团检测算法需要很强的先验假设,有很严重的使用限制,当使用的攻击算法不符合它的先验假设时,算法性能依旧会严重下降。

技术实现思路

[0006]本专利技术通过提供一种基于集成学习的鲁棒社团检测方法,通过集成学习的方法,自行学习相关知识,避免先验知识不可知的问题。
[0007]本专利技术实施例提供了一种基于集成学习的鲁棒社团检测方法,包括以下步骤:
[0008]步骤一、获得初步结果的集合:重复k次改进的Louvain算法作为偏离者模块,得到初步结果的集合P={C1,C2…
C
k
};
[0009]步骤二、生成增强的共识网络:使用改进的共识网络创建算法作为平等者模块,将初步结果的集合P={C1,C2…
C
k
}整合成共识网络G
final

[0010]步骤三、社团检测:将步骤二生成的共识网络Gfinal利用非负矩阵分解进行社团检测,所述社团检测包括:首先随机初始化矩阵X和矩阵Y,形状为N
×
L和L
×
N,其中N为节点个数,L为社团个数;然后通过交叉迭代的方式对矩阵X和矩阵Y进行迭代和收敛,得到收敛矩阵X和收敛矩阵Y,收敛矩阵X为社团映射函数矩阵,收敛矩阵Y为社团成员矩阵;最后将收敛矩阵Y中每个节点对应列中最大元素所对应的社团编号作为该元素所属社团进行输出,每个节点都能得到最终的社团划分,最终统一输出得到社团结构。
[0011]在一种可能的实现方式中,所述步骤一包括:
[0012]步骤11、对每个节点v
i
都操作如下:利用下述公式(1)对邻居计算模块度增益ΔQ
ij

[0013][0014]公式(1)中,i和j是节点编号,θ
j
为v
j
所在社团中所有节点的链接权重之和;θ
i
为v
i
所在社团对应的所有节点的链接权重之和;θ
i,in
为节点v
i
对应的社团和节点v
j
对应的社团之间的链接权重之和;m为网络中所有节点的链接权重之和;
[0015]令权重w
j
=ΔQ
ij
,将邻居权重按照下述公式(2)分配到对应区间,随后生成一个随机数δ,随机数落在的区间对应的邻居即被选中的邻居,步骤11考虑模块度增益ΔQ
ij
大于0的邻居,若没有则不进行后续的合并;
[0016][0017]步骤12、将步骤11中每个节点选择的节点进行合并成为一个新的节点,新节点之间的边权重为被合并原节点之间边权重的和;
[0018]步骤13、重复步骤11和步骤12直到没有节点发生合并后输出结果,最终网络中每个节点中包含的原节点为一个社团结构其中X为发现的社团数量,i表示这是第i个初步结果;
[0019]步骤14、合并初步结果得到初步结果的集合P={C1,C2…
C
k
}。
[0020]在一种可能的实现方式中,所述步骤二包括:
[0021]步骤21、使用归一化互信息指标计算初步结果之间的相似度,利用相似度进行聚类,把k个初步结果划分为K个小集合{p1,p2…
p
K
},
[0022]步骤22、利用下述公式(3)对每个小类都生成一个初步的共识网络
[0023][0024]公式(3)中,Φ(
·
)是指示函数,当其中两个参数相等时输出1否则为0,comm(C
b
,v
i
)是输出v
i
在C
b
中的标签号,C
b
是属于这个小类的初步结果;
[0025]步骤23、将K个初步的共识网络利用公式(4)合并成增强的共识网络G
final
(V,A
final
)进行输出;
[0026][0027]在一种可能的实现方式中,所述步骤三将所述步骤二生成的邻接矩阵利用非负矩阵分解进行社团检测,具体先随机初始化两个矩阵X和Y,形状为N
×
L和L
×
N,其中N为节点个数,L为社团个数;然后通过交叉迭代的方式对X和Y进行更新,一般迭代次数为100次左右时收敛,具体迭代公式为下本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的鲁棒社团检测方法,其特征在于,包括以下步骤:步骤一、获得初步结果的集合:重复k次改进的Louvain算法作为偏离者模块,得到初步结果的集合P={C1,C2…
C
k
};步骤二、生成增强的共识网络:使用改进的共识网络创建算法作为平等者模块,将初步结果的集合P={C1,C2…
C
k
}整合成共识网络G
final
;步骤三、社团检测:将步骤二生成的共识网络G
final
利用非负矩阵分解进行社团检测,所述社团检测包括:首先随机初始化矩阵X和矩阵Y,形状为N
×
L和L
×
N,其中N为节点个数,L为社团个数;然后通过交叉迭代的方式对矩阵X和矩阵Y进行迭代和收敛,得到收敛矩阵X和收敛矩阵Y,收敛矩阵X为社团映射函数矩阵,收敛矩阵Y为社团成员矩阵;最后将收敛矩阵Y中每个节点对应列中最大元素所对应的社团编号作为该元素所属社团进行输出,每个节点都能得到最终的社团划分,最终统一输出得到社团结构。2.根据权利要求1所述的基于集成学习的鲁棒社团检测方法,其特征在于,所述步骤一包括:步骤11、对每个节点v
i
都操作如下:利用下述公式(1)对邻居计算模块度增益

Q
ij
;公式(1)中,i和j为节点编号,θ
j
为v
j
所在社团中所有节点的链接权重之和;θ
i
为v
i
所在社团对应的所有节点的链接权重之和;θ
i,in
为节点v
i
对应的社团和节点v
j
对应的社团之间的链接权重之和;m为网络中所有节点的链接权重之和;令权重w
j


Q
ij
,将邻居权重按照下述公式(2)分配到对应区间,随后生成一个随机数δ,随机数落在的区间对应的邻居即被选中的邻居,步骤11考虑模块度增益

Q
ij
大于0的邻居,若没有则不进行后续的合并。步骤12、将步骤11中每个节点选择的节点进行合并成为一个新的节点,新节点之间的边权重为被合并原节点之间边权重的和;步骤13、重复步骤11和步骤12直到没有节点发生合并后输出结果,最终网络中每个节点中包含的原节点为一个社团结构其中X为发现的社团数量,i表示这是第i个初步结果;步骤14、合并初步结果得到初步结果的集合P={C1,C2…
C
k
}。3.根据权利要求1所述的基于集成学习的鲁棒社团检测...

【专利技术属性】
技术研发人员:吴凯谢子昂刘静
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1