System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种结合特征预训练和知识蒸馏的时序图学习方法技术_技高网
当前位置: 首页 > 专利查询>黑龙江大学专利>正文

一种结合特征预训练和知识蒸馏的时序图学习方法技术

技术编号:43003816 阅读:12 留言:0更新日期:2024-10-18 17:12
本发明专利技术属于信息技术领域,具体涉及一种结合特征预训练和知识蒸馏的时序图学习方法,本发明专利技术针对现有的时序图方法主要集中在低阶的时间信息上,而获取更高阶的邻居或社区信息则需要增加计算成本,从而显著影响模型效率的问题,提供了一种新的时序图学习方法,该方法将时序图中的信息分为时序级别、邻域级别、社区级别和全图级别;在训练过程中将时序级别的信息与一阶邻居结合起来,称为时序级结合;对于其他级别的信息,使用node2vec作为预训练模块生成预训练嵌入,这些嵌入作为获取附加信息的基础知识;该方法实现了跨不同模式的知识蒸馏,包括邻居级别的蒸馏、社区级别的分布和全图级别的传播。

【技术实现步骤摘要】

本专利技术属于信息,具体涉及一种结合特征预训练和知识蒸馏的时序图学习方法


技术介绍

1、图数据在现实世界的各种场景中广泛存在,许多现象都可以被表示为图结构。这些场景的例子包括论文引用、电子邮件交流、物品购买、电影评分和用户交易等。这些数据集的规模可能非常庞大,因此图深度学习成为高效挖掘大规模图数据的首选技术。图学习涉及训练高维稀疏的图结构,并将每个节点表示为低维稠密的向量,称为节点嵌入。这些嵌入可以方便地用于各种下游任务和应用,如链路预测、节点分类、兴趣推荐和社区检测等。

2、时序图学习是图深度学习的一个重要方面,旨在捕捉现实世界图数据中节点或边的动态模式和演化规律。与经典的图学习(称为静态图学习)使用邻接矩阵表示图结构不同,时序图方法将节点之间的交互以邻接序列的形式存储。数据结构的变化源于邻接矩阵的限制。如图1(a)所示,随着节点数量的增加,邻接矩阵的规模呈指数级增长,导致存储需求问题严重。相比之下,图1(b)突出了交互序列的优势。在邻接矩阵中,两个节点之间的重复交互被记录为单个事件,表示为"1",而不管实际交互次数。在交互序列中,这些重复交互被多次记录,提供了更丰富的信息。这种丰富性还包括对不能直接表示在邻接矩阵中的时间信息的记录。此外,交互序列可以切分成多个子集(批次)进行单独训练,从而缓解了内存问题。

3、然而,在时序图学习领域,交互序列不仅带来了优势,也带来了一些不可避免的挑战。具体而言,虽然时序图方法受益于没有邻接矩阵,但在缺乏邻接矩阵的情况下,它们也面临信息传递的障碍。图学习中传递消息的传统机制依赖于邻接矩阵,可以轻松地获取跨越各种顺序的交互信息。但在时序图学习的背景下,这种方法变得不切实际,现有方法往往只集中在一阶邻居和时间信息上,忽视了更高阶的感受野。虽然一些时序图方法尝试在训练过程中集成额外的模块来捕捉更全面的数据,但往往会带来巨大的计算负担。与此同时,它们的实证研究结果也表明了融入多级信息的重要性,而这些信息在基本的时序图模型中是缺失的。


技术实现思路

1、本专利技术的目的在于克服现有技术中存在的上述问题,提供一种结合特征预训练和知识蒸馏的时序图学习方法,重新设计了时序图中多级信息的嵌入方式,通过引入预训练模块,将难以获取的先前知识捕捉并蒸馏到训练过程中。

2、为实现上述技术目的,达到上述技术效果,本专利技术是通过以下技术方案实现:

3、本专利技术提供一种结合特征预训练和知识蒸馏的时序图学习方法,该方法将时序图中的信息分为时序级别、邻域级别、社区级别和全图级别;在训练过程中将时序级别的信息与一阶邻居结合起来,称为时序级结合;对于其他级别的信息,使用node2vec作为预训练模块生成预训练嵌入,这些嵌入作为获取附加信息的基础知识;该方法实现了跨不同模式的知识蒸馏,包括邻居级别的蒸馏、社区级别的分布和全图级别的传播。

4、进一步地,在预训练模块中,首先对一个大型无标签文本数据语料库进行预训练,然后在一个特定任务的带标签数据集上进行微调;预训练模型在预训练过程中捕捉到了通用的语言知识,然后在微调过程中适应到特定任务中;在知识蒸馏中,大型复杂模型称为教师模型,小型简单模型称为学生模型;学生模型通过融合教师模型的知识,能够从教师模型提供的更丰富、更细致的信息中学习。

5、进一步地,该方法的输入是时序图,表示为:

6、g=(v,e,t)

7、其中,v是节点集,e是交互集,t是时间集;

8、在时序图学习中,用交互取代了边的概念,因为一条边上可能有多个不同时间的交互;

9、节点x和y之间在时间t的交互可以表示为(x,y,t),在训练过程中,这些互动将按时间顺序分成若干批次,模型将按批次进行训练;节点x的历史一阶邻居序列表示为:

10、hx:{(x,y1,t1),(x,y2,t2),……,(x,yn,tn)}

11、该方法的输出是在时序图上反复训练后为所有节点生成的节点嵌入z;该方法使用链接预测任务来预测两个节点是否相互影响。

12、进一步地,预训练嵌入在训练过程中用于多层次的信息提炼,包括时序级结合、邻居级蒸馏、社区级分布和全图级传播。

13、进一步地,在训练过程中,给定一个节点x,node2vec会对其进行多次随机行走,即以概率α从x跳转到它的一个邻居;这种概率由两个参数p和q控制,其中p决定了游走倾向于通过被访问节点的邻居进行回溯,而q决定了游走倾向于探索新节点,表示为:

14、

15、其中,d{xy}表示从节点x到节点y的最短路径长度;

16、在获得一组多重行走后,node2vec利用skip-gram技术来学习每个节点的嵌入向量;其中,skip-gram将中心节点x和上下文节点c之间的条件概率定义为p(c|x),表示为:

17、

18、其中,s(zx,zc)表示x和c之间的相似度,zx表示x的节点嵌入;node2vec的优化目标是鼓励条件概率p(c|x)越大越好;

19、在实际的预训练过程中,使用node2vec的默认参数设置,即除了执行原始模型外,没有做任何修改;预训练过程结束后,从node2vec中得到输出z,作为训练中的节点预嵌入z0,表示为:

20、lpre=maxπ(x,c)p(c|x)。

21、进一步地,在时序级结合的训练中,基于霍克斯过程对时间信息进行建模;具体来说,给定两个节点x和y在时间t上相互作用,它们的条件强度i(x,y)(t)按下式计算:

22、

23、其中,是计算没有任何外部影响的基础强度的相似度函数,inc(y,hx)表示评估历史事件影响的霍克斯增量;

24、具体来说,历史影响来自节点x的一阶邻居,时间为t{h}<t;

25、增量表示为:

26、

27、这个增量可分为三部分:第一部分是时间权重,通过一个可学习的参数δt来调整时间间隔,最终使时间间隔较大即发生较早的交互具有较小的权重;第二部分是相似权重,用于评估邻居序列中每个邻居节点的重要性;第三部分是邻居i对目标节点y的影响,即x的邻居会以第一和第二部分计算出的不同权重影响y;

28、将时序图表示为无向图,因此交互作用(x,y,t)将被视为新的交互作用(y,x,t)进行训练;计算出条件强度后,即可进行时间损失函数的计算;在实际训练过程中,只有两个节点有真正的交互作用,将考虑它们来获取强度;因此,它们的条件强度应尽可能大,将它们表示为正对;为了进行对比学习,随机抽样几个负节点,记为n;这样,一阶时间信息就可以结合到节点嵌入中,表示为:

29、

30、进一步地,随着模型的训练,更新的节点嵌入会逐渐遗忘这些信息;因此,限制预嵌入与节点嵌入zx在每次交互后对齐,以便在预期程度上保留这些结构信息;而这一程度能够通过超参数来调整,表示为:

31、

本文档来自技高网...

【技术保护点】

1.一种结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,该方法将时序图中的信息分为时序级别、邻域级别、社区级别和全图级别;在训练过程中将时序级别的信息与一阶邻居结合起来,称为时序级结合;对于其他级别的信息,使用node2vec作为预训练模块生成预训练嵌入,这些嵌入作为获取附加信息的基础知识;该方法实现了跨不同模式的知识蒸馏,包括邻居级别的蒸馏、社区级别的分布和全图级别的传播。

2.根据权利要求1所述的结合特征预训练和知识蒸馏的时序图学习方法,特征预训练借鉴了当前大语言模型热门的预训练-微调技术,该技术指的是,首先在大规模数据集上训练模型,而后在特定任务上微调模型。在特征预训练过程中,首先选择经典模型在同一数据集上进行训练,得到的输出作为有先验知识的特征。从而进一步借鉴知识蒸馏的思想,用教师模型输出的先验知识特征代替先验参数,来辅助学生模型的训练和学习,能够从教师模型提供的更丰富、更细致的信息中学习。

3.根据权利要求2所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,该方法的输入是时序图,表示为:

4.根据权利要求3所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,预训练嵌入在训练过程中用于多层次的信息提炼,包括时序级结合、邻居级蒸馏、社区级分布和全图级传播。

5.根据权利要求4所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,在训练过程中,给定一个节点x,node2vec会对其进行多次随机行走,即以概率α从x跳转到它的一个邻居;这种概率由两个参数p和q控制,其中p决定了游走倾向于通过被访问节点的邻居进行回溯,而q决定了游走倾向于探索新节点,表示为:

6.根据权利要求5所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,在时序级结合的训练中,基于霍克斯过程对时间信息进行建模;具体来说,给定两个节点x和y在时间t上相互作用,它们的条件强度I(x,y)(t)按下式计算:

7.根据权利要求6所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,随着模型的训练,更新的节点嵌入会逐渐遗忘这些信息;因此,限制预嵌入与节点嵌入zx在每次交互后对齐,以便在预期程度上保留这些结构信息;而这一程度能够通过超参数来调整,表示为:

8.根据权利要求7所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,社区是图学习中的一个常见概念,表示不同的聚类包括具有不同行为或偏好的节点,引入了学生t分布来进行社区发现即节点聚类;

9.根据权利要求8所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,对于图层面的信息,构建一个虚拟节点作为与所有节点交互的图节点;全局信息通过图节点嵌入zG传播,其初始嵌入通过预嵌入计算出来:

10.根据权利要求9所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,最终的损失函数包含多级损失函数,表示为:

...

【技术特征摘要】

1.一种结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,该方法将时序图中的信息分为时序级别、邻域级别、社区级别和全图级别;在训练过程中将时序级别的信息与一阶邻居结合起来,称为时序级结合;对于其他级别的信息,使用node2vec作为预训练模块生成预训练嵌入,这些嵌入作为获取附加信息的基础知识;该方法实现了跨不同模式的知识蒸馏,包括邻居级别的蒸馏、社区级别的分布和全图级别的传播。

2.根据权利要求1所述的结合特征预训练和知识蒸馏的时序图学习方法,特征预训练借鉴了当前大语言模型热门的预训练-微调技术,该技术指的是,首先在大规模数据集上训练模型,而后在特定任务上微调模型。在特征预训练过程中,首先选择经典模型在同一数据集上进行训练,得到的输出作为有先验知识的特征。从而进一步借鉴知识蒸馏的思想,用教师模型输出的先验知识特征代替先验参数,来辅助学生模型的训练和学习,能够从教师模型提供的更丰富、更细致的信息中学习。

3.根据权利要求2所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,该方法的输入是时序图,表示为:

4.根据权利要求3所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,预训练嵌入在训练过程中用于多层次的信息提炼,包括时序级结合、邻居级蒸馏、社区级分布和全图级传播。

5.根据权利要求4所述的结合特征预训练和知识蒸馏的时序图学习方法,其特征在于,在训练过程中,给定一个节点x,...

【专利技术属性】
技术研发人员:刘猛刘勇任倩倩
申请(专利权)人:黑龙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1