当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于数据流模型的图划分方法和系统技术方案

技术编号:34125994 阅读:22 留言:0更新日期:2022-07-14 14:13
本发明专利技术公开了一种基于数据流模型的图划分方法和系统,方法包括以下步骤:S2:获取流图数据;S1:基于重划分的思想的方法对HDRF算法进行改进,得到改进后的HDRF算法,所述改进后的HDRF算法用于对流图进行划分;S3:利用改进后的HDRF算法对所述流图进行划分。本发明专利技术基于重划分的思路,对HDRF算法进行改进,利用改进后的HDRF算法对流图进行划分,提高了划分效果和算法的运行效率。和算法的运行效率。和算法的运行效率。

A graph partition method and system based on data flow model

【技术实现步骤摘要】
一种基于数据流模型的图划分方法和系统


[0001]本专利技术涉及图计算领域,更具体地,涉及一种基于数据流模型的图划分方法和系统。

技术介绍

[0002]图计算在解决组合优化问题中有着非常重要的作用。通过将研究对象抽象成图的顶点,将对象与对象之间的关系抽象成顶点之间的边,现实中的许多问题的研究对象都可以转化为图数据结构,因此很多问题都可以转化为图计算的相关问题来解决。
[0003]图划分问题主要研究的是在给定的限制条件下如何更好地把一个大的图划分成多个子图的问题,这一问题在实际场景中有许多的应用。在现实应用中,往往需要先将大图先划分为若干个小的子图,然后利用多台机器在各子图上并行地进行相应的计算,以达到提升计算效率的目的。
[0004]在大数据的应用场景下,工程中对图划分算法的运行时间效率的要求越来越高,现有技术中公开一种基于关联特征的流图划分系统,该系统包含数据解析模块、数据重排模块、点元存储模块、边元存储模块和数据导航模块。数据解析模块将交易数据流解析为关联图谱的数据格式,并生成点流和边流;数据重排模块对边流数据进行乱序重排,减少特定交易数据对后续划分算法的影响;数据导航模块为每个边流数据选择合适的存储位置;边元存储模块和点元存储模块将划分好的边流数据和点流数据写入数据库。该方案的算法复杂度依然较高,不满足现在对运行时间效率的要求。

技术实现思路

[0005]本专利技术的首要目的是提供一种基于数据流模型的图划分方法,提升算法效果的角度对流图划分算法进行了改进,达到减小算法复杂度的效果,提高了算法的运行效率
[0006]本专利技术的进一步目的是一种基于数据流模型的图划分系统。
[0007]为解决上述技术问题,本专利技术的技术方案如下:
[0008]一种基于数据流模型的图划分方法,包括以下步骤:
[0009]S2:获取流图数据;
[0010]S1:基于重划分的思想的方法对HDRF算法进行改进,得到改进后的HDRF算法,所述改进后的HDRF算法用于对流图进行划分;
[0011]S3:利用改进后的HDRF算法对所述流图进行划分。
[0012]HDRF算法出自论文《Hdrf:stream

based partitioning for power

law graphs》,HDRF算法在分配一条边时,为每个子图计算一个目标函数值,选择值最高的子图分配。
[0013]优选地,步骤S1中所述获取流图数据具体为:
[0014]获取图g(V,E)中的点集V、边集E、顶点度数d(v)和边的旧分区P,设置分区数k和用于控制复制因子和平衡项比例的参数λ。
[0015]优选地,步骤S2中基于重划分的思想对HDRF算法进行改进得到re

HDRF算法,基于重划分的思想和神经网络的方法对HDRF算法进行改进得到Ginger算法。
[0016]优选地,所述re

HDRF算法具体为:
[0017]对图G(V,E)中的顶点进行若干轮扫描,统计得到的顶点的准确度数,在后续轮次的迭代中均使用所述的顶点的准确度数,每轮扫描都以上一轮得到的顶点划分结果作为初始划分输入,在每一轮扫描中,对顶点进行重新分配,输出新的划分结果;在重划分过程中,通过调节参数λ来进一步改善划分的效果,在第一轮扫描时使用较大的λ确保分块间的平衡性,随后减小λ来优化划分产生的复制因子;
[0018]所述在每一轮扫描中,对顶点进行重新分配,输出新的划分结果,具体为:
[0019]遍历边集E中的每一条边,对于边e(v
i
,v
j
),更新对应值:A(v
i
),A(v
j
),θ(v
i
)的值,在k个分区中更新平衡项c(p)、计算re

HDRF算法的复制因子的项g(v,p),通过它们计算目标函数val[p]的值,其中A(v
i
)为点v
i
的邻点的集合,A(v
j
)为点v
j
的邻点的集合,θ(v
i
)为顶点的相对度数大小;
[0020]在这两层遍历中,找到使得目标函数最大的边e,在旧边集合中添加e然后更新划分的边集。
[0021]优选地,所述对于边e(v
i
,v
j
),更新对应值:A(v
i
),A(v
j
),θ(v
i
)的值,具体为:
[0022]t

P[e],E
t

E
t
\{e}
[0023]A(v
i
)

A(v
i
)\{t},A(v
j
)

A(v
j
)\{t}
[0024][0025]其中:t表示第t个分块,t

P[e]表示把边e划分到第t块,\表示去除集合中的元素,{t}和{e}表示一个元素的集合。
[0026]优选地,所述在k个分区中更新平衡项c(p)、计算re

HDRF算法的复制因子的项g(v,p),通过它们计算目标函数val[p]的值,具体为:
[0027][0028][0029]val[p]←
g(v
i
,p)+g(v
j
,p)+λc(p)
[0030]其中:maxsize表示分区中的最大的边数,minisize表示分区中最小的边数。p表示当前的分区,E
p
表示p分区的边的集合,σ为常数项。
[0031]优选地,所述Ginger算法,具体为:
[0032]对图G(V,E)中进行第一轮扫描后,统计得到图G(V,E)中所有顶点的度数信息,根据统计得到的图中顶点分布信息,利用神经网络进行学习确定阈值,若后续选择的顶点的度数大于所述阈值则进行操作;
[0033]将所有点的度数d(v)全部更新为0,使用神经网络学到阈值θ,遍历边集中的每一条边e(v
i
,v
j
),更新对应点v
i
,v
j
的归一化的度数,计算f(v
i
),f(v
j
),的值并比较大小,若满足:d(v
j
)>θ,且f(v
i
)≤f(v
j
)则将点v
i
重新分配,其中:
[0034]f(v
i
)=θ(v
i
)

λS(v
i
),f(v
j
)=θ(v
j
)

λS(v
j
)
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据流模型的图划分方法,其特征在于,包括以下步骤:S2:获取流图数据;S1:基于重划分的思想的方法对HDRF算法进行改进,得到改进后的HDRF算法,所述改进后的HDRF算法用于对流图数据进行划分;S3:利用改进后的HDRF算法对所述流图数据进行划分。2.根据权利要求1所述的基于数据流模型的图划分方法,其特征在于,步骤S1中所述获取流图数据具体为:获取图G(V,E)中的点集V、边集E、顶点度数d(v)和边的旧分区P,设置分区数k和用于控制复制因子和平衡项比例的参数λ。3.根据权利要求2所述的基于数据流模型的图划分方法,其特征在于,步骤S2中基于重划分的思想对HDRF算法进行改进得到re

HDRF算法,基于重划分的思想和神经网络的方法对HDRF算法进行改进得到Ginger算法。4.根据权利要求3所述的基于数据流模型的图划分方法,其特征在于,所述re

HDRF算法具体为:对图G(V,E)中的顶点进行若干轮扫描,统计得到的顶点的准确度数,在后续轮次的迭代中均使用所述的顶点的准确度数,每轮扫描都以上一轮得到的顶点划分结果作为初始划分输入,在每一轮扫描中,对顶点进行重新分配,输出新的划分结果;在重划分过程中,通过调节参数λ来进一步改善划分的效果,在第一轮扫描时使用较大的λ确保分块间的平衡性,随后减小λ来优化划分产生的复制因子;所述在每一轮扫描中,对顶点进行重新分配,输出新的划分结果,具体为:遍历边集E中的每一条边,对于边e(v
i
,v
j
),更新对应值:A(v
i
),A(v
j
),θ(v
i
)的值,在k个分区中更新平衡项c(p)、计算re

HDRF算法的复制因子的项g(v,p),通过它们计算目标函数val[p]的值,其中A(v
i
)为点v
i
的邻点的集合,A(v
j
)为点v
j
的邻点的集合,θ(v
i
)为顶点的相对度数大小;在这两层遍历中,找到使得目标函数最大的边e,在旧边集合中添加e然后更新划分的边集。5.根据权利要求4所述的基于数据流模型的图划分方法,其特征在于,所述对于边e(v
i
,v
j
),更新对应值:A(v
i
),A(v
j
),θ(v
i
)的值,具体为:t

P[e],E
t

E
t
\{e}A(v
i
)

A(v
i
)\{t},A(v
j
)

A(v
j
)\{t}其中:t表示第t个分块,t

P[e]表示把边e划分到第t块,\表示去除集合中的元素,{t}和{e}表示一个元素的集合。6.根据权利要求5所述...

【专利技术属性】
技术研发人员:姚正安邓郁涛何锦涛
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1