基于层次随机游走采样策略的嵌入向量表示方法及系统技术方案

技术编号:37536000 阅读:18 留言:0更新日期:2023-05-12 16:04
本发明专利技术公开了基于层次随机游走采样策略的嵌入向量表示方法及系统,该方法包括:设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;对起始节点进行邻域划分处理,得到节点层;根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。该系统包括:选取模块、划分模块、游走模块和训练模块。通过使用本发明专利技术,能够充分考虑近邻节点信息进而通过基于层次优先的随机游走采样实现网络嵌入向量表征学习。本发明专利技术作为基于层次随机游走采样策略的嵌入向量表示方法及系统,可广泛应用于计算机数据挖掘技术领域。技术领域。技术领域。

【技术实现步骤摘要】
基于层次随机游走采样策略的嵌入向量表示方法及系统


[0001]本专利技术涉及计算机数据挖掘
,尤其涉及基于层次随机游走采样策略的嵌入向量表示方法及系统。

技术介绍

[0002]在复杂网络分析中常见的任务聚类、链接预测和分类等;在复杂网络中的节点的属性信息获取较为困难,而网络的结构信息比较容易获得;因此,基于网络结构信息的分析受到越来越多的关注,对于这些机器学习问题,首要的任务就是建立一组可以准确表达网络结构信息的特征向量,为节点和边构造一种特征向量表示,即网络嵌入向量表示方法,现阶段常用的网络嵌入向量表示方法是通过手工提取特征,机器学习和降维方法等,图嵌入向量的机器学习方法最早的是deepwalk算法,并在于deepwalk算法进一步产生node2vec算法,即一种用于网络中可拓展特征学习的半监督方法,主要特点是通过控制返回参数p和远行参数q,使得在deepwalk的基础上变为有偏的随机游走方式而非均匀的随机游走方式进行采样,采样得到的游走序列仍然使用word2vec模型生成网络嵌入向量表示,node2vec算法虽然综合考虑了深度优先遍历和广度优先遍历在节点游走上的合适性选择,对于网络的全局结构和局部信息进行了折中考虑,但是并没有考虑实际网络结构中的近邻节点的重要性,因为在现实网络结构中每个节点的重要程度不一样,因此这些节点对于网络的影响也是不同的,即若忽略了节点近邻节点的重要性,则无法充分的表现网络中的节点信息。

技术实现思路

[0003]为了解决上述技术问题,本专利技术的目的是提供基于层次随机游走采样策略的嵌入向量表示方法及系统,能够充分考虑近邻节点信息进而通过基于层次优先的随机游走采样实现网络嵌入向量表征学习。
[0004]本专利技术所采用的第一技术方案是:基于层次随机游走采样策略的嵌入向量表示方法,包括以下步骤:
[0005]设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;
[0006]对起始节点进行邻域划分处理,得到节点层;
[0007]根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;
[0008]对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。
[0009]进一步,所述设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点这一步骤,其具体包括:
[0010]设置网络结构节点参数,其中所述网络结构节点参数包括起始节点的游走序列的数量长度上限、节点游走序列在一次游走中的总长度、节点游走序列在子节点层中的游走总长度和节点游走序列在孙子节点层中的游走总长度;
[0011]根据起始节点选取条件在网络结构中随机选取节点,得到起始节点,所述起始节
点选取条件为在当前已经获得的游走序列集合中以该节点为起始节点计算其对应的节点游走序列数量长度且需小于起始节点的游走序列的数量长度上限。
[0012]进一步,所述对起始节点进行邻域划分处理,得到节点层这一步骤,其具体包括:
[0013]对起始节点进行预处理,得到预处理后的起始节点;
[0014]将预处理后的起始节点的直接邻居节点进行连接处理并划分子节点层范围,生成子节点层;
[0015]将预处理后的起始节点的间接邻居节点进行连接处理并划分孙子节点层范围,生成孙子节点层;
[0016]整合子节点层与孙子节点层,构建节点层。
[0017]进一步,所述对起始节点进行预处理,得到预处理后的起始节点这一步骤,其具体包括:
[0018]对起始节点的属性进行判断;
[0019]判断到所述起始节点存在自环,对其进行去除自环处理;
[0020]判断所述起始节点为孤立节点,保留该起始节点;
[0021]整合去除自环处理后的起始节点与孤立节点,得到预处理后的起始节点。
[0022]进一步,所述根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列这一步骤,其具体包括:
[0023]根据节点选取规则,对节点层进行添加权重处理,得到具有权重值的节点层;
[0024]所述具有权重值的节点层包括具有权重值的子节点层与具有权重值的孙子节点层;
[0025]根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列;
[0026]根据孙子节点层范围对具有权重值的孙子节点层进行随机游走处理,得到孙子节点游走序列;
[0027]整合子节点游走序列与孙子节点游走序列,获取节点游走序列。
[0028]进一步,所述根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列这一步骤,其具体包括:
[0029]对子节点层进行初始化处理,所述初始化处理过程包括定义初始节点为头节点以及当前节点,初始化一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表为空;
[0030]根据节点的权重值在子节点层范围内选取一个自由子节点,并将当前节点所指向自由子节点的节点序列嵌入至一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表;
[0031]对当前节点所指向自由子节点的节点序列进行判断;
[0032]判断到当前节点所指向自由子节点的节点序列存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将该兄弟节点嵌入至用于临时存放已经采样过的节点的集合的列表,所述兄弟节点为相邻节点之间存在连边;
[0033]判断到当前节点所指向自由子节点的节点序列不存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将当前节点所指向头节点的节点
序列嵌入至用于临时存放已经采样过的节点的集合的列表;
[0034]直至所述用于临时存放已经采样过的节点的集合的列表的长度等于节点游走序列在一次游走中的总长度与节点游走序列在子节点层中的游走总长度的乘积长度,输出子节点游走序列。
[0035]进一步,所述根据孙子节点层范围对具有权重值的孙子节点层进行随机游走处理,得到孙子节点游走序列这一步骤,其具体包括:
[0036]获取子节点游走序列并选取该列表中最后一个节点为根节点,若最后一个节点为起始节点则选取该列表中倒数第二个节点为根节点;
[0037]将根节点定义为孙子节点层的头节点;
[0038]获取当前节点所指向孙子节点层的头节点的节点序列并定义为孙子节点层范围;
[0039]根据节点的权重值在孙子节点层范围内选取一个自由孙子节点,且该自由孙子节点不存在于用于临时存放已经采样过的节点的集合的列表中;
[0040]获取当前节点所指向自由孙子节点的节点序列并进行判断;
[0041]判断到当前节点所指向自由孙子节点的节点序列存在兄弟节点且该兄弟节点不存在于用于临时存放已经采样过的节点的集合的列表中,将该兄弟节点嵌入至用于临时存放已经采样过的节点的集合的列表;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,包括以下步骤:设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;对起始节点进行邻域划分处理,得到节点层;根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。2.根据权利要求1所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点这一步骤,其具体包括:设置网络结构节点参数,其中所述网络结构节点参数包括起始节点的游走序列的数量长度上限、节点游走序列在一次游走中的总长度、节点游走序列在子节点层中的游走总长度和节点游走序列在孙子节点层中的游走总长度;根据起始节点选取条件在网络结构中随机选取节点,得到起始节点,所述起始节点选取条件为在当前已经获得的游走序列集合中以该节点为起始节点计算其对应的节点游走序列数量长度且需小于起始节点的游走序列的数量长度上限。3.根据权利要求2所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述对起始节点进行邻域划分处理,得到节点层这一步骤,其具体包括:对起始节点进行预处理,得到预处理后的起始节点;将预处理后的起始节点的直接邻居节点进行连接处理并划分子节点层范围,生成子节点层;将预处理后的起始节点的间接邻居节点进行连接处理并划分孙子节点层范围,生成孙子节点层;整合子节点层与孙子节点层,构建节点层。4.根据权利要求3所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述对起始节点进行预处理,得到预处理后的起始节点这一步骤,其具体包括:对起始节点的属性进行判断;判断到所述起始节点存在自环,对其进行去除自环处理;判断所述起始节点为孤立节点,保留该起始节点;整合去除自环处理后的起始节点与孤立节点,得到预处理后的起始节点。5.根据权利要求4所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列这一步骤,其具体包括:根据节点选取规则,对节点层进行添加权重处理,得到具有权重值的节点层;所述具有权重值的节点层包括具有权重值的子节点层与具有权重值的孙子节点层;根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列;根据孙子节点层范围对具有权重值的孙子节点层进行随机游走处理,得到孙子节点游走序列;整合子节点游走序列与孙子节点游走序列,获取节点游走序列。
6.根据权利要求5所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列这一步骤,其具体包括:对子节点层进行初始化处理,所述初始化处理过程包括定义初始节点为头节点以及当前节点,初始化一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表为空;根据节点的权重值在子节点层范围内选取一个自由子节点,并将当前节点所指向自由子节点的节点序列嵌入至一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表;对当前节点所指向自由子节点的节点序列进行判断;判断到当前节...

【专利技术属性】
技术研发人员:郭仕钧徐圣兵谢锐王振友
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1