【技术实现步骤摘要】
基于层次随机游走采样策略的嵌入向量表示方法及系统
[0001]本专利技术涉及计算机数据挖掘
,尤其涉及基于层次随机游走采样策略的嵌入向量表示方法及系统。
技术介绍
[0002]在复杂网络分析中常见的任务聚类、链接预测和分类等;在复杂网络中的节点的属性信息获取较为困难,而网络的结构信息比较容易获得;因此,基于网络结构信息的分析受到越来越多的关注,对于这些机器学习问题,首要的任务就是建立一组可以准确表达网络结构信息的特征向量,为节点和边构造一种特征向量表示,即网络嵌入向量表示方法,现阶段常用的网络嵌入向量表示方法是通过手工提取特征,机器学习和降维方法等,图嵌入向量的机器学习方法最早的是deepwalk算法,并在于deepwalk算法进一步产生node2vec算法,即一种用于网络中可拓展特征学习的半监督方法,主要特点是通过控制返回参数p和远行参数q,使得在deepwalk的基础上变为有偏的随机游走方式而非均匀的随机游走方式进行采样,采样得到的游走序列仍然使用word2vec模型生成网络嵌入向量表示,node2vec算法虽然综合考虑了深度优先遍历和广度优先遍历在节点游走上的合适性选择,对于网络的全局结构和局部信息进行了折中考虑,但是并没有考虑实际网络结构中的近邻节点的重要性,因为在现实网络结构中每个节点的重要程度不一样,因此这些节点对于网络的影响也是不同的,即若忽略了节点近邻节点的重要性,则无法充分的表现网络中的节点信息。
技术实现思路
[0003]为了解决上述技术问题,本专利技术的目的是提供基于层次随 ...
【技术保护点】
【技术特征摘要】
1.基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,包括以下步骤:设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点;对起始节点进行邻域划分处理,得到节点层;根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列;对所获取的节点游走序列输入至word2vec模型中进行向量化表征训练,得到所有游走节点对应的网络嵌入向量表征。2.根据权利要求1所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述设置网络结构节点参数并在网络结构中随机选取节点,得到起始节点这一步骤,其具体包括:设置网络结构节点参数,其中所述网络结构节点参数包括起始节点的游走序列的数量长度上限、节点游走序列在一次游走中的总长度、节点游走序列在子节点层中的游走总长度和节点游走序列在孙子节点层中的游走总长度;根据起始节点选取条件在网络结构中随机选取节点,得到起始节点,所述起始节点选取条件为在当前已经获得的游走序列集合中以该节点为起始节点计算其对应的节点游走序列数量长度且需小于起始节点的游走序列的数量长度上限。3.根据权利要求2所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述对起始节点进行邻域划分处理,得到节点层这一步骤,其具体包括:对起始节点进行预处理,得到预处理后的起始节点;将预处理后的起始节点的直接邻居节点进行连接处理并划分子节点层范围,生成子节点层;将预处理后的起始节点的间接邻居节点进行连接处理并划分孙子节点层范围,生成孙子节点层;整合子节点层与孙子节点层,构建节点层。4.根据权利要求3所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述对起始节点进行预处理,得到预处理后的起始节点这一步骤,其具体包括:对起始节点的属性进行判断;判断到所述起始节点存在自环,对其进行去除自环处理;判断所述起始节点为孤立节点,保留该起始节点;整合去除自环处理后的起始节点与孤立节点,得到预处理后的起始节点。5.根据权利要求4所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述根据节点选取规则,对节点层进行随机游走处理,获取节点游走序列这一步骤,其具体包括:根据节点选取规则,对节点层进行添加权重处理,得到具有权重值的节点层;所述具有权重值的节点层包括具有权重值的子节点层与具有权重值的孙子节点层;根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列;根据孙子节点层范围对具有权重值的孙子节点层进行随机游走处理,得到孙子节点游走序列;整合子节点游走序列与孙子节点游走序列,获取节点游走序列。
6.根据权利要求5所述基于层次随机游走采样策略的嵌入向量表示方法,其特征在于,所述根据子节点层范围对具有权重值的子节点层进行随机游走处理,得到子节点游走序列这一步骤,其具体包括:对子节点层进行初始化处理,所述初始化处理过程包括定义初始节点为头节点以及当前节点,初始化一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表为空;根据节点的权重值在子节点层范围内选取一个自由子节点,并将当前节点所指向自由子节点的节点序列嵌入至一次游走中用于存放游走序列的列表与用于临时存放已经采样过的节点的集合的列表;对当前节点所指向自由子节点的节点序列进行判断;判断到当前节...
【专利技术属性】
技术研发人员:郭仕钧,徐圣兵,谢锐,王振友,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。