System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于生成对抗网络的图表示学习方法和装置制造方法及图纸_技高网

一种基于生成对抗网络的图表示学习方法和装置制造方法及图纸

技术编号:40999690 阅读:13 留言:0更新日期:2024-04-18 21:38
基于生成对抗网络的无监督图表示学习方法和装置,其方法包括:预嵌入生成阶段,使用LLE降维方法对原始数据的特征进行压缩,记录降维后的结果作为预嵌入;生成对抗阶段;通过一个生成对抗网络模型,具体地学习节点的嵌入表示;生成对抗网络由生成器和鉴别器两部分构成,二者内部各自有一个节点嵌入层,基于对抗性学习的思想,互相推动对方优化节点的嵌入表示;多次执行生成对抗阶段,直至生成对抗模型收敛;此时,模型中的节点嵌入层Z^G和Z^D即为最终学习到的图节点的嵌入表示矩阵。本发明专利技术有效去除冗余信息,使GAN模型的有效优化。

【技术实现步骤摘要】

本专利技术涉及一种图结构数据的表示学习方法和装置。


技术介绍

1、现实世界中存在着各种错综复杂的关系,它们构成了许多庞大的关系图。为了更好地从这些图结构的数据中发掘有价值的信息,机器学习领域常使用图表示学习的方法。该类方法将图中构成节点信息的数据转换为低维向量形式,称为嵌入表示,从而应用于节点分类、链接预测、推荐等下游任务。该类方法也被称为图嵌入、网络表示学习、网络嵌入方法。

2、图表示学习方法根据学习过程的不同,大致可分成监督图表示学习和无监督图表示学习。最先进的图表示学习方法通常采用基于图神经网络的监督模型,或是采用基于随机游走或自动编码器的无监督模型。监督模型需要数据中有大量可靠的标签信息;无监督模型对数据集没有严格要求,但其学习得到的嵌入表示和监督模型的相比,表达的信息的准确率较低。

3、在现实世界中,获取足够多的可靠的大规模数据集的标签数据是极其困难的,因此使用无监督模型实现图表示学习是更为理想的方案。现有的无监督方法已经取得了一些成果,但在嵌入表示的准确性方面仍落后于监督方法,这导致其在缺乏标签的实际应用场景,如生命安全、风险预测等重要领域的应用受到了限制。因此,开发一种新的无监督图表示学习方法,能够准确地表达信息的嵌入表示,具有重要的实际意义。


技术实现思路

1、为了克服现有无监督图表示学习方法得到的嵌入表示的表达信息的准确率较低的问题,本专利技术提供一种基于生成对抗网络的无监督图表示学习方法和装置。

2、本专利技术利用图结构,通过lle(局部线性嵌入)方法将原始数据转换为低维预嵌入,并使用生成对抗模型,进行嵌入表示的学习和优化,从而实现图表示学习。

3、基于生成对抗网络的无监督图表示学习方法,分为预嵌入生成阶段和生成对抗阶段;具体步骤如下:

4、步骤1:预嵌入生成阶段;使用lle降维方法对原始数据的特征进行压缩,记录降维后的结果作为预嵌入;

5、1.1对初始图节点的原始特征矩阵使用knn算法找到每个节点样本的k个最近邻居,通过每个节点的k个邻居节点重构本节点,计算权重aij,重构误差如公式(1)所示:

6、

7、其中n表示节点数量,d0表示原始特征向量的维度,权重aij表示第j个数据点对第i次重建的贡献。为了计算权重,需要在两个约束条件下最小化成本函数:首先,每个节点向量xi只能通过邻居节点重建,若节点j不在邻居集合内则aij=0;其次,权重矩阵的行的和为一,即∑jaij=1。

8、1.2通过公式(1)获取的最佳重建权重矩阵a,计算降维后的嵌入矩阵且满足d<<d0,嵌入损失如公式(2)所示:

9、

10、训练过程中权重矩阵a固定不变,通过公式(2)获取嵌入矩阵结果。

11、步骤2:生成对抗阶段;通过一个生成对抗网络模型,具体地学习节点的嵌入表示;生成对抗网络由生成器和鉴别器两部分构成,二者内部各自有一个节点嵌入层,基于对抗性学习的思想,互相推动对方优化节点的嵌入表示;

12、2.1训练开始前,对生成器和鉴别器进行初始化,将上一步骤得到的预嵌入矩阵作为各自节点嵌入层的初始值;

13、2.2节点对采样;从节点i出发,通过基于邻接权重的随机游走,可以得到一条路径pathi;其中,节点i的邻接权重是一个n维向量,n表示节点数量;在第j维上的分量的计算公式如公式(3)(4)所示:

14、

15、

16、其中,表示节点i的邻居节点的集合,表示节点i在生成器g中的嵌入表示,zg表示生成器g中节点嵌入层;

17、pathi是以节点i为起始节点随机游走时经过的所有节点的集合;对于小规模数据集,当游走的下一节点已经存在pathi中时,停止游走;对于大规模数据集,在游走达到一定的步数时停止;

18、是用于生成器训练的关于节点i的节点对集合,pathi中的每对相邻节点构成一个节点对加入是用于鉴别器训练的关于节点i的节点对集合,pathi中的头尾节点构成一个节点对加入通过从节点i出发进行多次随机游走,和得到足够数量的节点对用于后续步骤训练;

19、2.3鉴别器训练;使用adam算法最小化鉴别器损失函数ld,优化鉴别器d的节点嵌入层zd;鉴别器目标函数计算公式如公式(5)所示:

20、

21、其中,表示节点i在鉴别器d中的嵌入表示,<h,t>表示由头节点h和尾节点t构成的节点对,norm是归一化函数;

22、2.4生成器训练;使用adam算法最小化鉴别器损失函数lg,优化生成器g的节点嵌入层zg;生成器目标函数计算公式如公式(6)所示:

23、

24、步骤3:多次执行生成对抗阶段,直至生成对抗模型收敛;此时,模型中的节点嵌入层zg和zd即为最终学习到的图节点的嵌入表示矩阵。

25、本专利技术的第二个方面涉及基于生成对抗网络的无监督图表示学习装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本专利技术的基于生成对抗网络的无监督图表示学习方法。

26、本专利技术的第三个方面涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本专利技术的基于生成对抗网络的无监督图表示学习方法。

27、本专利技术综合上述技术提出了基于生成对抗网络的无监督图表示学习方法;为了解决现有无监督图表示学习方法得到的嵌入表示表达信息的准确率较低的问题,使用基于邻居权重随机游走获取节点正负样本对的生成器和负责分辨节点对之间是否存在真实连接的鉴别器结构,以对抗的方式自动学习优化节点嵌入;此外,为了解决预嵌入对生成对抗模型训练影响较大的问题,采用lle降维技术获取高质量的预嵌入。

28、本专利技术的优点是:(1)lle降维产生高质量的预嵌入,保证了gan模型的有效优化。(2)生成对抗模型选择节点对的连接是否存在作为对抗点,使用随机游走采样替代随机生成节点嵌入的策略,有效去除冗余信息。(3)作为无监督的图表示学习方法,对数据集没有严格的要求,学习到的嵌入表示在信息表达准确性上持平甚至超越了监督的学习方法。

本文档来自技高网...

【技术保护点】

1.基于生成对抗网络的无监督图表示学习方法,包括如下步骤:

2.基于生成对抗网络的无监督图表示学习装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1所述的基于生成对抗网络的无监督图表示学习方法。

3.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1所述的基于生成对抗网络的无监督图表示学习方法。

【技术特征摘要】

1.基于生成对抗网络的无监督图表示学习方法,包括如下步骤:

2.基于生成对抗网络的无监督图表示学习装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代...

【专利技术属性】
技术研发人员:汤颖杨逸宁许珂
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1