一种社交网络影响力最大节点搜索方法技术

技术编号:37974950 阅读:7 留言:0更新日期:2023-06-30 09:50
本发明专利技术涉及一种社交网络影响力最大节点搜索方法,包括:基于图神经网络,计算得到社交网络中各节点被选为种子集的概率;之后结合机器学习框架中的损失函数训练模型,求解得到影响力覆盖最大的种子集。与现有技术相比,本发明专利技术将潜在影响力节点选择问题简化为d跳最大覆盖的问题(d

【技术实现步骤摘要】
一种社交网络影响力最大节点搜索方法


[0001]本专利技术涉及社交网络分析
,尤其是涉及一种社交网络影响力最大节点搜索方法。

技术介绍

[0002]在社交网络中,如何准确快速辨别影响力最大化节点,对于许多应用来说是非常关键的,社交网络中的影响力最大化问题在市场营销、舆情预警等方面都具有重要作用,例如在市场营销时,选择影响力最大化的节点能够辨别出社交网络上最具有话语权和信息传播能力的潜在发言人,在尽可能小的资源消耗下最大化传播范围。给定一个社交网络图和特定的信息传播模型,影响力最大化问题是研究如何选取初始的种子节点使得最终被影响的节点数目最多的问题。
[0003]当前解决影响力最大化(Influence Maximization,IM)问题常用的模型包括独立级联模型(Independent Cascade,IC)和线性阈值模型(Linear Threshold,LT)这两种。其中,独立级联模型的基本假设是每条边都有传播概率,即信息从某一节点向邻居节点传播的概率,然而在真实应用场景中,无法准确得知上述传播模型的参数,使得这两种模型难以真实应用。此外,这两种模型的影响力范围计算需要采用蒙特卡洛模拟,时间复杂度较高,是一个非常耗时的过程,无法在大规模社交网络中应用。
[0004]另一方面,贪心算法是影响力最大化问题中最经典的算法,但贪心算法有两个关键难点,一是计算每个节点的d跳覆盖范围,二是在每次更新种子集后,重新计算每个节点的有效覆盖率。其中d跳覆盖范围指与该节点最短距离小于d的节点,而种子集表示被选为影响力最大的节点的集合。这两个关键难点导致贪心算法在大规模社交网络上运行时间过长,难以真实应用。因此,推理速度较快的机器学习算法得到了许多研究。然而,现有的机器学习算法虽然时间复杂度较低,但其基本思路在于计算每个节点的影响力分数,因此会面临影响力重叠的问题,导致最终选出的种子集虽然各个节点的影响力都很高,但整个集合的影响力却无法达到最优。例如图1中为引用图HepPh中的局部图,363号节点为邻居数量最多的节点,297和328节点为邻居数量第二和第三多的节点,然而297和328这两个节点有450个共同的邻居,占据了其总邻居数量的86.9%,因此这两个节点虽然分别能够影响很多节点,但其共同影响的范围反而较小,实际应当选择297和518号节点作为种子集。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种社交网络影响力最大节点搜索方法,能够降低计算复杂度,同时避免节点覆盖范围重叠的问题,能够准确快速得到影响力覆盖最大的种子集。
[0006]本专利技术的目的可以通过以下技术方案来实现:一种社交网络影响力最大节点搜索方法,包括以下步骤:
[0007]S1、基于图神经网络,计算得到社交网络中各节点被选为种子集的概率;
[0008]S2、基于步骤S1的计算结果,结合机器学习框架中的损失函数训练模型,求解得到影响力覆盖最大的种子集。
[0009]进一步地,所述步骤S1具体包括以下步骤:
[0010]S11、将社交网络抽象为对应的图;
[0011]S12、计算图中任一节点及其邻居节点之间注意力系数;
[0012]S13、针对图中任一节点,更新自身嵌入向量;
[0013]S14、针对图中任一节点,将对应的嵌入向量输入构建的神经网络,输出该节点被选为种子集的概率;
[0014]S15、重复执行步骤S12~S14,得到图中各节点被选为种子集的概率。
[0015]进一步地,所述步骤S12的具体过程为:
[0016]S121、对图中所有节点分别初始化嵌入特征,此处嵌入特征为一个向量h;
[0017]S122、对于图中任一节点u及其邻居节点v,根据嵌入的特征向量计算两者之间的相似系数,并进一步计算两者之间的注意力系数。
[0018]进一步地,所述步骤S122中注意力系数的计算公式具体为:
[0019][0020][0021]其中,为节点u及其邻居节点v之间的注意力系数,为节点u及其邻居节点v之间的相似系数,a
(l)
为可训练参数,ReLU为激活函数,l为迭代层数,为节点u的出边指向的邻居节点集合。
[0022]进一步地,所述步骤S13的具体过程为:
[0023]S131、对于图中任一节点,根据其与邻居节点间的注意力系数,将当前节点的嵌入向量按注意力系数的比例传递给各个邻居;
[0024]S132、对于图中任一节点,接收到邻居节点的嵌入向量后,按照更新计算公式更新自身嵌入向量。
[0025]进一步地,所述更新计算公式具体为:
[0026][0027]其中,W和b均为可训练参数,σ为激活函数,为节点u的入边对应的邻居节点集合。
[0028]进一步地,所述步骤S2具体包括以下步骤:
[0029]S21、基于步骤S1的计算结果,计算相应的损失函数;
[0030]S22、判断当前损失函数的变化值是否超过预设阈值,若判断为是,则进行后向传播,以更新神经网络与所有节点嵌入向量,并返回步骤S1;否则执行步骤S23;
[0031]S23、根据具体概率数值大小的排序,选择出种子节点,构成种子集。
[0032]进一步地,所述步骤S21的具体过程为:
[0033]S211、对于图中所有节点被选为种子集的概率,计算全图节点被覆盖的概率;
[0034]S212、根据全图覆盖概率和种子集代价计算相应损失函数。
[0035]进一步地,所述步骤S211中全图节点被覆盖的概率具体为:
[0036][0037]其中,为节点v小于等于d跳的出边到达的节点集合,p
v
为节点v被选为种子集的概率。
[0038]进一步地,所述步骤S212中损失函数的计算公式为:
[0039][0040][0041]其中,E[|uncovered vertices|为未被覆盖的节点数量期望,E[|seed|为种子集规模期望,λ为用于调节覆盖范围和种子集合大小之间的平衡系数,Σ
u∈V
p
u
为选择节点u作为种子集的代价,p为各个节点被选为种子集的概率向量,为全1向量的转置,G
rev
表示图G反转后的邻接矩阵,反转即让所有边方向与原图相反。
[0042]与现有技术相比,本专利技术将潜在影响力节点选择问题简化为d跳最大覆盖的问题(d

MC),并提出了一种基于图神经网络的机器学习框架,能够无监督地学习高效策略,有效解决d

MC问题。在这一框架中,首先是用于计算节点特征的图神经网络结构,该结构将影响力范围看作一种信息传递,通过信息的加权传播,高效地对影响力范围进行建模,并避免了影响力重叠导致的信息重复问题;其次利用机器学习的方式来寻找出最大化影响力的种子集。由此不仅能够降低计算复杂度,同时避免节点覆盖范围重叠的问题,从而准确快速得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交网络影响力最大节点搜索方法,其特征在于,包括以下步骤:S1、基于图神经网络,计算得到社交网络中各节点被选为种子集的概率;S2、基于步骤S1的计算结果,结合机器学习框架中的损失函数训练模型,求解得到影响力覆盖最大的种子集。2.根据权利要求1所述的一种社交网络影响力最大节点搜索方法,其特征在于,所述步骤S1具体包括以下步骤:S11、将社交网络抽象为对应的图;S12、计算图中任一节点及其邻居节点之间注意力系数;S13、针对图中任一节点,更新自身嵌入向量;S14、针对图中任一节点,将对应的嵌入向量输入构建的神经网络,输出该节点被选为种子集的概率;S15、重复执行步骤S12~S14,得到图中各节点被选为种子集的概率。3.根据权利要求2所述的一种社交网络影响力最大节点搜索方法,其特征在于,所述步骤S12的具体过程为:S121、对图中所有节点分别初始化嵌入特征,此处嵌入特征为一个向量h;S122、对于图中任一节点u及其邻居节点v,根据嵌入的特征向量计算两者之间的相似系数,并进一步计算两者之间的注意力系数。4.根据权利要求3所述的一种社交网络影响力最大节点搜索方法,其特征在于,所述步骤S122中注意力系数的计算公式具体为:骤S122中注意力系数的计算公式具体为:其中,为节点u及其邻居节点v之间的注意力系数,为节点u及其邻居节点v之间的相似系数,a
(l)
为可训练参数,ReLU为激活函数,l为迭代层数,为节点u的出边指向的邻居节点集合。5.根据权利要求4所述的一种社交网络影响力最大节点搜索方法,其特征在于,所述步骤S13的具体过程为:S131、对于图中任一节点,根据其与邻居节点间的注意力系数,将当前节点的嵌入向量按注意力系数的比例传递给各个邻居;S132、对于图中任一节点,接收到邻居节点的嵌入向量后,按照更新计算公式更新自身嵌入向量。6.根据权利...

【专利技术属性】
技术研发人员:李雪嫣胡永祎李方圻高晓沨陈贵海
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1