一种基于全局采样子图的图宽度学习分类方法及系统技术方案

技术编号:29255947 阅读:16 留言:0更新日期:2021-07-13 17:27
一种基于全局采样子图的图宽度学习分类方法,包括:1)全局采样,使用连边采样法对原始网络进行全局采样,得到子图;2)子图映射,通过连边到节点的映射机制分别将上述子图映射一次或两次得到一阶与二阶网络;3)图特征提取与融合,通过Graph2vec模型提取原始网络以及所有映射后网络的特征,再将提取得到的原始网络特征以及各次采样映射后的一、二阶网络特征拼接,作为原始图的特征表示;4)宽度网络分类。本发明专利技术还公开了一种基于上述方法的高效准确图分类系统。结合上述融合的图特征与已知的图标签有监督的训练宽度网络分类器中的权重矩阵。最后根据宽度网络中的权重矩阵与输入图特征来实现对图的有效分类。

【技术实现步骤摘要】
一种基于全局采样子图的图宽度学习分类方法及系统
本专利技术涉及网络科学、数据挖掘以及数据分析技术,特别是一种全局采样子图的图宽度学习分类方法及系统。
技术介绍
近年来,图数据越来越受到广泛的关注。在现实生活中的社交关系网络、生物蛋白质网络以及文献的引用网络本质上都可以用图来刻画。而图分类问题则是图数据挖掘中一个常见的任务,如在蛋白质毒理性推断以及化学分子性质预测等方面都有广泛的应用。因此研究图分类问题具有非常重要的现实意义。子图是网络中的一个基本组件,它能够用于描述网络中更加深层次的信息。由不同子图构成的网络通常存在着截然不同的拓扑属性,因此将子图集成到许多图算法当中往往能实现更高的算法性能。目前大多数子图的获取都是通过采样的方法,最常用的是基于随机游走和有偏游走的局部采样。而本专利技术则提供了一种基于全局的连边采样方式。深度学习近些年是人工智能领域研究的热点和主流,因为其性能的优势在各大领域被广泛的提及和使用。然而,深度学习的模型具有参数量大的问题,进而带来算力损耗和时间损耗大的欠缺。本专利技术则使用了宽度网络分类器大大降低了参数更新量,实现时间上的优化。申请号为2019110684734的专利所公开的技术方案,一种基于采样子图网络的节点分类方法,该方法使用随机游走策略对网络进行局部采样,通过图映射机制将采样图映射成多个子图然后进行特征矩阵融合,使用极限随机树对网络节点进行分类。该方法使用了随机游走的策略得到局部的网络结构,而缺失了全局的内在信息导致分类精度欠缺,而使用极限随机树作为分类器在分类训练速度上还有待增强。
技术实现思路
本专利技术要克服现有技术的上述缺陷,提供一种基于全局采样子图的图宽度学习分类方法和系统。本专利技术利用全局采样的策略、图映射方法以及宽度网络分类器构建了一个图分类的模型,该模型通过全局采样和图映射充分提取了图的内部结构与全局信息,将图中提取的特征信息有监督的训练宽度网络分类器,从而提升了图分类的精度和效率。本专利技术实现上述专利技术目的所采用的技术方案如下:一种基于全局采样子图的图宽度学习分类方法,包括以下步骤:S1:全局采样,对原始图按照连边进行N次全局采样得到N个子网络;S2:子图映射,按照SGN规则分别对N个子网络进行一阶和二阶的映射,得到2N个映射网络;S3:特征提取与特征融合,对原始网络与2N个映射网络分别基于Graph2vec进行特征提取,分别得到2N+1个网络的K维网络表征向量,通过表征向量横向拼接获取(2N+1)×K维的特征向量作为原始网络的最终表示;S4:宽度网络分类器训练,通过原始网络的最终表示和网络标签有监督的训练宽度网络,最终通过十折交叉验证获得图分类的精度。进一步的,所述步骤S1具体包括:S1.1:对于原始网络G=(V,E),随机选择一条初始连边表示为e0=(v0,v1)。并将初始连边e0加入到连边池Ep中,将节点v0与节点v1加入到节点池Vp中。S1.2:在节点池Vp中随机选择一个当前节点记做u。在总连边集E中随机选择一条边ec=(u,d)使得S1.3:将节点d加入到节点池Vp中,将连边ec加入到连边池Ep中。S1.4:重复S1.2与S1.3步骤,直到满足连边池中的连边总数|Ep|等于原始网络节点总数|V|。由节点池Vp和连边池Ep构成的网络Gi便是全局采样子网络。S1.5:对S1.1-S1.4步骤重复执行N次,便得到了原始网络G的N个采样子网络Gi(i=1,2,3...N)。进一步的,所述步骤S2具体包括:S2.1:一阶子图映射。本专利技术的子图映射是根据SGN规则来执行的。所谓SGN是一种将图连边映射成节点的规则,具体如下:首先将一张网络图中的所有连边均映射成映射网络中的节点。其次,映射网络中的连边则是由原网络中共享节点具体情况确定的,即原网络中两条连边共同的网络节点映射到映射网络是一条连接那两条边映射而来的两个节点的连边。根据上述SGN规则,便可以将子图Gi(i=1,2,3...N)映射成N个一阶子图Gi1(i=1,2,3...N)。S2.2:二阶子图映射。一阶子图是在原始网络图的基础上按照SGN规则映射出来的。同理,二阶子图则是一阶子图按照SGN规则再次映射得到。即:N个一阶子图Gi1(i=1,2,3...N)通过映射便得到了N个二阶子图Gi2(i=1,2,3...N)。进一步的,所述步骤S3具体包括:S3.1:特征提取:使用Graph2vec模型对原始网络G、一阶子网络Gi1(i=1,2,3...N)以及二阶子网络Gi2(i=1,2,3...N)分别提取K维特征,分别表示为F、Fi1(i=1,2,3...N)以及Fi2(i=1,2,3...N)。S3.2:特征融合:将原始网络特征、一阶子图特征以及二阶子图特征从横向上拼接实现特征的融合,即最终的图表示为Fe=[F,F11,F21,...,FN1,F12,...FN2]∈R(2N+1)×K。进一步的,所述步骤S4的具体包括:S4.1:宽度网络分类器构建。宽度网络的主要结构包括特征节点和增强节点两部分,细节如图4中所示。其中特征节点特征为Zi=φ(FeWzi+βzi)(i=1,...,n),其中Fe为上述得到的图表示,其中权重Wzi与偏置βzi则根据维度随机产生,而φ(·)则是一个线性激活函数。将所有特征节点特征横向组合便得到特征节点的总特征Zn=[Z1,Z2,...,Zn]。特征节点的构造部分就结束了。而增强节点特征Hj=σ(ZnWrj+Brj)(j=1,...,n)。其中的σ(·)是非线性激活函数。同理,我们将增强节点特征融合得到Hm=[H1,H2,...,Hm]。将特征节点的总特征和增强节点特征融合得到宽度网络的输入部分A=[Zn,Hm]。那么宽度网络分类器的预测输出便是其中W权重矩阵便是宽度网络需要训练的部分。S4.2:优化和评价。W矩阵则是通过优化得到。通过一定的等价变换,从形式上可以得到W=(ATA+λI)-1ATY。这样通过数据喂入便可以得到特定的W矩阵,进而实现对未知图数据的预测。通过十折交叉验证得到分类精度。一种基于全局采样子图的图宽度学习分类系统,包括依次连接的采样模块、图映射模块、特征模块、分类模块;所述采样模块,输入一张网络图,在图中随机选择一个节点作为初始化节点,根据全局采样规则采样得到子网络,重复若干次上述过程得到若干个采样子网络;所述图映射模块,对采样模块得到的若干子网络分别进行SGN一次与二次的图映射,得到一阶与二阶的映射网络并保存;所述特征模块,对原始网络以及图映射模块得到的若干一阶与二阶的映射网络使用Graph2vec模型提取特征,将每个网络得到的特征向量横向拼接融合作为原始网络的最终图表示,保存每个网络的图表示;所述分类模块,导入上述每个网络的图表示,设置宽度网络分类器,输入图表示和图标签开始训练宽度网络,完成训练后导出权重矩阵,通过权重矩阵来对未知网络进行预本文档来自技高网
...

【技术保护点】
1.一种基于全局采样子图的图宽度学习分类方法,其特征在于,包括以下步骤:/nS1:全局采样,对原始图按照连边进行N次全局采样得到N个子网络;/nS2:子图映射,按照SGN规则分别对N个子网络进行一阶和二阶的映射,得到2N个映射网络;/nS3:特征提取与特征融合,对原始网络与2N个映射网络分别基于Graph2vec进行特征提取,分别得到2N+1个网络的K维网络表征向量,通过表征向量横向拼接获取(2N+1)×K维的特征向量作为原始网络的最终表示;/nS4:宽度网络分类器训练,通过原始网络的最终表示和网络标签有监督的训练宽度网络,最终通过十折交叉验证获得图分类的精度。/n

【技术特征摘要】
1.一种基于全局采样子图的图宽度学习分类方法,其特征在于,包括以下步骤:
S1:全局采样,对原始图按照连边进行N次全局采样得到N个子网络;
S2:子图映射,按照SGN规则分别对N个子网络进行一阶和二阶的映射,得到2N个映射网络;
S3:特征提取与特征融合,对原始网络与2N个映射网络分别基于Graph2vec进行特征提取,分别得到2N+1个网络的K维网络表征向量,通过表征向量横向拼接获取(2N+1)×K维的特征向量作为原始网络的最终表示;
S4:宽度网络分类器训练,通过原始网络的最终表示和网络标签有监督的训练宽度网络,最终通过十折交叉验证获得图分类的精度。


2.如权利要求1所述的一种基于全局采样子图的图宽度学习分类方法,其特征在于,所述步骤S1具体包括:
S1.1:对于原始网络G=(V,E),随机选择一条初始连边表示为e0=(v0,v1),并将初始连边e0加入到连边池Ep中,将节点v0与节点v1加入到节点池Vp中;
S1.2:在节点池Vp中随机选择一个当前节点记做u,在总连边集E中随机选择一条边ec=(u,d)使得
S1.3:将节点d加入到节点池Vp中,将连边ec加入到连边池Ep中;
S1.4:重复S1.2与S1.3步骤,直到满足连边池中的连边总数|Ep|等于原始网络节点总数|V|,由节点池Vp和连边池Ep构成的网络Gi便是全局采样子网络;
S1.5:对S1.1-S1.4步骤重复执行N次,便得到了原始网络G的N个采样子网络Gi(i=1,2,3...N)。


3.如权利要求1所述的一种基于全局采样子图的图宽度学习分类方法,其特征在于,所述步骤S2具体包括:
S2.1:一阶子图映射,本发明的子图映射是根据SGN规则来执行的,具体如下:首先将一张网络图中的所有连边均映射成映射网络中的节点;其次,映射网络中的连边则是由原网络中共享节点具体情况确定的,即原网络中两条连边共同的网络节点映射到映射网络是一条连接那两条边映射而来的两个节点的连边;根据上述SGN规则,便可以将子图Gi(i=1,2,3...N)映射成N个一阶子图Gi1(i=1,2,3...N);
S2.2:二阶子图映射,一阶子图是在原始网络图的基础上按照SGN规则映射出来的;同理,二阶子图则是一阶子图按照SGN规则再次映射得到,即:N个一阶子图Gi1(i=1,2,3...N)通过映射便得到了N个二阶子图Gi2(i=1,2,3...N)。


4.如权利要求1所述的一种基于全局采样子图的图宽度学习分类方法,其特征在于:所述步骤S3具体包括:
S3...

【专利技术属性】
技术研发人员:宣琦陈鹏涛王金焕
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1