一种基于卷积神经网络的链路预测方法技术

技术编号:28623448 阅读:29 留言:0更新日期:2021-05-28 16:19
本发明专利技术公开了一种基于卷积神经网络的链路预测方法。本发明专利技术包括如下步骤:步骤1、读取数据,构建复杂网络结构,并获取网络结构的最大连通集团;步骤2、对于网络结构中的任一节点,提取节点的相似性序列;步骤3、构造特征工程;步骤4、对卷积神经网络LeNet‑LP模型进行训练;步骤5、使用测试集样本评价卷积神经网络LeNet‑LP模型性能。本发明专利技术使用三种链路预测的相似性指标构造特征矩阵,相当于使用了卷积神经网络的通道数可拓展的特性把三种相似性指标在卷积运算的层面做了一个指标融合。因此在评价算法性能的时候需要对比那些被用作特征工程的相似性指标。本发明专利技术的算法取得的AUC对比其他算法有较为明显的提升。

【技术实现步骤摘要】
一种基于卷积神经网络的链路预测方法
本专利技术涉及一种基于卷积神经网络的链路预测方法。
技术介绍
复杂网络在自然界中广泛存在,并且与我们的生活息息相关。比如万维网、航空网络、在线社交网络等关键网络都可以看成复杂网络,因此加强对复杂网络的科学研究是人类社会日益迫切的需求。链路预测是复杂网络中研究缺失连边和未来形成连边的重要组成部分。复杂网络中的链路预测是指如何通过已知的网络节点以及网络结构信息预测网络中尚未产生连边的两个节点之间产生连接的可能性,当前基于网络结构的链路预测方法成果丰富,而基于深度学习方法的链路预测研究较少。卷积神经网络(ConvolutionalNeuralNetworks)是近几年来深度学习中的研究热点,卷积神经网络被广泛的运用于分类任务中。链路预测问题可以看作机器学习中的二分类问题。网络中两个节点之间存在连边,可以被标记为1类,两个节点之间不存在连边标记为0类,因此卷积神经网络也可以用于链路预测任务。但是目前将卷积神经网络模型应用于链路预测任务的研究较少。
技术实现思路
本专利技术的目的是提供一种基于卷积神经网络的链路预测算法。本专利技术首先对数据进行预处理,读取数据之后构造完整的复杂网络,之后进行网络结构的划分,将网络划分为训练网络以及测试网络,数据集也对应地划分为训练数据集和测试数据集。然后提取网络中每一个节点的相似性序列。在整理特征工程时,将数据集中的边的两端端点的相似性序列整合成二维矩阵的行和列的坐标索引信息。然后通过创新的特征矩阵构造方式构造特征工程。最后将特征矩阵送入卷积神经网络LeNet-LP模型进行学习训练,使用测试集对模型的分类性能进行评价。一种基于卷积神经网络的链路预测方法,包括如下步骤:步骤1、读取数据,构建复杂网络结构,并获取网络结构的最大连通集团;本专利技术使用公开数据集,选取佛罗里达州食物链网络(FWFW)、美国首选航线网络(ATC)以及维基百科(Wiki)等实际网络对应的数据集。需要指出的是,本专利技术使用的网络数据集为上述几种实际网络结构中最大连通集团。在数据集划分时,本专利技术采用随机抽样策略。随机选取网络中10%的连边作为测试集的正样本,剩余90%的连边作为训练集,从不存在的连边的节点对列表中选取与测试集的正样本等大的连边集合作为测试集中的负样本。步骤2、对于网络结构中的任一节点,提取节点的相似性序列;首先,设定待提取的节点的相似性序列的长度N,例如设定N=12,16,20......对于网络中的任意节点,计算该节点和网络中其余节点的链路预测相似性指标,比如使用RA相似性指标。按照相似性指标的计算结果降序排列,取得相似性指标最大的前N个数值所对应的节点的序号,这些节点的序号形成一个序列,这个序列就是节点的相似性序列。步骤3、构造特征工程;31.构造矩阵分别获取训练集以及测试集中每一条边的两端节点的相似性序列:开始节点x和结束节点y的相似性序列。将开始节点x的长度为N的相似性序列作为矩阵的横坐标索引,将结束节点y的长度为N的相似性序列作为矩阵的纵坐标的列索引的值,构成一个大小为N×N的二维矩阵。32.使用链路预测中的相似性指标的值填充二维矩阵链路预测中两个节点之间相似性指标的值与两节点的连接概率正相关。本专利技术使用链路预测中基于局部信息的相似性指标来填充矩阵的值。对于矩阵中的一个单元格(i,j),计算节点i和节点j之间的相似性指标的得分作为该单元格的数值。本专利技术选取三种基于局部信息的相似性指标来分别填充三层矩阵的数值。三个相似性指标分别是CN指标、RA指标以及Jaccard指标。需要指出的是,我们在构建特征的时候使用的是训练网络,训练网络并不是完整的网络G,而是将10%的测试集的边删除之后剩余的90%的训练集中的边构成的网络结构GTrain。步骤4、使用卷积神经网络进行训练;将训练集中的正负样本的特征工程以及对应的标签送入卷积神经网络LeNet-LP模型进行训练。步骤5、使用测试集样本评价卷积神经网络模型性能;将测试集中的每个正样本和负样本输入到已经训练好的神经网络中,得到预测结果。在进行链路预测任务的二分类性能评价时,本专利技术使用AUC指标对LeNet-LP模型的分类性能进行评价。步骤6、对于同一个数据集,使用经典的链路预测指标CN、RA以及Jaccard计算AUC。对比相似性指标算法和本专利技术所使用的链路预测算法的优劣性,本专利技术的算法取得的AUC对比其他算法有较为明显的提升。本专利技术有益效果如下:本专利技术使用了三种链路预测的相似性指标构造特征矩阵,在一定程度上面相当于使用了卷积神经网络的通道数可拓展的特性把三种相似性指标在卷积运算的层面做了一个指标融合。因此在评价算法性能的时候需要对比那些被用作特征工程的相似性指标。专利技术使用的链路预测算法(CNN-LP)和几个传统的链路预测相似性指标算法所得到的AUC的对比。可以看到,本专利技术的算法取得的AUC对比其他算法有较为明显的提升。附图说明图1是本专利技术流程图。图2是构造特征矩阵的流程示意图。具体实施方式下面结合附图,进一步说明本专利技术的技术方案。如图1-2所示,一种基于卷积神经网络的链路预测方法,包括如下步骤:步骤1、读取数据,构建复杂网络结构,并获取最大连通子图;本专利技术使用公开数据集,选择3种实际的网络数据集。选取的网络均为无权无向网络结构,包括如下:1)佛罗里达州食物链网络(FWFW):佛罗里达海湾雨季的食物链网络,节点表示生物,连边表示捕食关系;2)美国首选航线网络(ATC):该网络节点表示机场或者服务中心,连边表示首选航线。3)维基百科(Wiki):WikiPedi百科全书是由来自世界各地的志愿者协作编辑而成,其中一些比较活跃的志愿者可以有机会获得提名管理员的资格。当这名志愿者被提名时,就会有一次对应的选举行为,其他的志愿者可以对被提名的候选人选择支持,中立或者反对的态度。这个选举的过程可以形成一个复杂网络。在Wiki这个网络中,志愿者(用户)被视为节点,连边则代表选举的行为,若用户A在选举中投给了用户B支持票,那么就会有一条从用户A指向用户B的连边。本文选取的网络是将原始网络进行无向图处理后形成的无权无向网络。本专利技术采用随机抽样策略,随机选取网络中10%的连边作为测试集的正样本,将这10%的边从完整网络中删除,网络结构中剩余90%的边作为训练集。并从不存在的连边的节点对列表中选取与正样本等大的连边集合作为测试集的负样本。由于实际的网络中或多或少会存在孤点,因此为了忽略孤点对算法的影响,在数据的预处理的过程中需增加获取测试集和训练集网络结构的最大连通集团的步骤。步骤2、对于网络结构中的任一节点,提取节点的相似性序列;假设规定的节点相似性序列的长度N=6。以提取节点1的相似性序列为例,首先计算节点1和网络中其他节点的RA相似性指标的大本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的链路预测方法,其特征在于包括如下步骤:/n步骤1、读取数据,构建复杂网络结构,并获取网络结构的最大连通集团;/n步骤2、对于网络结构中的任一节点,提取节点的相似性序列;/n步骤3、构造特征工程;/n31.构造矩阵;/n32.使用链路预测中的相似性指标的值填充二维矩阵;/n步骤4、对卷积神经网络LeNet-LP模型进行训练;/n步骤5、使用测试集样本评价卷积神经网络LeNet-LP模型性能。/n

【技术特征摘要】
1.一种基于卷积神经网络的链路预测方法,其特征在于包括如下步骤:
步骤1、读取数据,构建复杂网络结构,并获取网络结构的最大连通集团;
步骤2、对于网络结构中的任一节点,提取节点的相似性序列;
步骤3、构造特征工程;
31.构造矩阵;
32.使用链路预测中的相似性指标的值填充二维矩阵;
步骤4、对卷积神经网络LeNet-LP模型进行训练;
步骤5、使用测试集样本评价卷积神经网络LeNet-LP模型性能。


2.根据权利要求1所述的一种基于卷积神经网络的链路预测方法,其特征在于步骤1具体实现如下:
首先使用公开的3种实际的网络数据集,且选取的网络均为无权无向网络结构,具体包括如下:1)佛罗里达州食物链网络(FWFW),2)美国首选航线网络(ATC),3)维基百科(Wiki);
其次采用随机抽样策略,随机选取网络中10%的连边作为测试集的正样本,将这10%的边从完整网络中删除,网络结构中剩余90%的边作为训练集;并从不存在的连边的节点对列表中选取与正样本等大的连边集合作为测试集的负样本;且在数据的预处理过程中增加获取测试集和训练集网络结构的最大连通集团的步骤。


3.根据权利要求1所述的一种基于卷积神经网络的链路预测方法,其特征在于步骤3具体实现如下:
(1)使用构造相似性矩阵的方式去刻画节点x和节点y的相似性序列之间的相似程度,构造相似性矩阵规则如下:
分别将节点x和节点y的相似性序列分别作为相似性矩阵的行索引和列索引,使用基于局部信息的链路预测指标来填充矩阵中每一个单元格的值;对于矩阵中的单元格(i,j),计算节点i和节点j之间的相似性指标的得分作为该单元格的数值;
定义矩阵中每个单元格的数值为score,那么:
score(i,j)1=CN(i,j)
score(i,j)2=RA(i,j)
score(i...

【专利技术属性】
技术研发人员:陈伟伦周银座焦安楠陈鸿渐赵世跃
申请(专利权)人:杭州师范大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1