面向大规模多元网络数据的简化可视分析方法技术

技术编号:30038457 阅读:21 留言:0更新日期:2021-09-15 10:35
本发明专利技术公开了面向大规模多元网络数据的简化可视分析方法。本发明专利技术方法首先基于原始网络大规模数据,构建属性增强的网络表征学习模型,将节点转换成嵌入拓扑结构和属性信息的高维向量表示;然后利用属性增强的网络表征学习模型构建多层次聚类模型,在向量化空间中根据结构紧密度、属性同质性和聚类数量将节点划分为层次类别;最后设计简化表达可视分析方案,构建大规模多元网络数据的简化可视分析系统;所述的简化可视分析系统通过聚类视图、协同视图构成视觉表达。本发明专利技术方法对大规模多元网络数据进行视觉简化、探索和聚类,有效减少视觉混乱,并提高了大规模多元网络的可读性和分析效率。效率。效率。

【技术实现步骤摘要】
面向大规模多元网络数据的简化可视分析方法


[0001]本专利技术属于图形学与可视化
,具体涉及一种面向大规模多元网络数据的简化可视分析方法。

技术介绍

[0002]在多元网络中,节点和边包含丰富的属性信息,如包含了名称、年龄、性别、国籍、地域和职业等属性。在可视化领域研究方面,专家针对这种多元网络数据设计了多种可视化方法,通过修改力引导图上节点的视觉外观(大小、颜色、形状)来映射属性信息,或者将力引导图与辅助视图(例如表格、平行坐标图、雷达图)结合起来协同分析拓扑结构和多维属性信息。然而,随着多元网络规模的不断增大,同步分析拓扑结构和属性成为一个挑战。在力引导图中,视觉混乱在很大程度上阻碍了对拓扑结构的视觉感知。而聚类是一种较灵活的策略,可允许用户基于节点属性或网络拓扑结构将节点划分为不同类别。如Batagelj等人(V.Batagelj,F.Brandenburg,W.Didimo,G.Liotta,P.Palladino,and M.Patrignani.Visual analysis of large graphs using(x,y)

clustering and hybrid visualizations.IEEE transactions on visualization and computer graphics,17:1587

1598,12 2010.doi:10.1109/TVCG.2010.265)定义了类内图和类间图的拓扑特性,允许用户通过展开/收缩聚类来交互式地探索图。OnionGraph(L.Shi,Q.Liao,H.Tong,Y.Hu,Y.Zhao,and C.Lin.Hierarchical focus+context heterogeneous network visualization.pp.89

96,03 2014.doi:10.1109/PacificVis.2014.44)考虑了属性和拓扑结构,将异构网络节点聚类到不同级别,自顶向下的层次结构提供了更多的语义信息。
[0003]多元网络的聚类分为两类,基于拓扑结构的聚类(J.Abello,F.Ham,and N.Krishnan.Ask

graphview:A large scale graph visualization system.ieee trans vis comput graph.IEEE transactions on visualization and computer graphics,12:669

676,09 2006.doi:10.1109/TVCG.2006.120)和基于属性的聚类(M.Wattenberg.Visual exploration of multivariate graphs.pp.811

819,01 2006.doi:10.1145/1124772.1124891)。但是,在基于拓扑结构聚类的方法中,属性是随机分布的,这使得解释聚类的形成变得困难。而在基于属性聚类的方法中,网络的拓扑结构被严重破坏了,这使得节点之间的关系也变得难以探索和分析。因此,将拓扑结构和属性集成到大规模多元网络的可视化聚类中仍然是一个具有挑战性的任务。
[0004]另外,网络表征学习方法通过保留上下文特征将网络节点投影到向量空间中,可以处理具有数百万个节点和边的大型网络。其中,基于随机游走的学习算法实现简单、易于拓展和并行化,已有多种方法被提出,如DeepWalk(B.Perozzi,R.Al

Rfou,and S.Skiena.Deepwalk:Online learning of social representations.pp.701

710,2014)和node2vec(A.Grover and J.Leskovec.node2vec:Scalable feature learning for networks.vol.2016,pp.855

864,07 2016.doi:10.1145/2939672.2939754),这两种方法都很好地保持了节点间的高阶邻近性。

技术实现思路

[0005]本专利技术的目的在于针对
技术介绍
中存在的问题,提供一种新的基于聚类的大规模多元网络数据简化可视分析方法,着重研究网络表征学习中属性信息的使用,通过网络表征学习来探索大规模多元网络。
[0006]为实现上述目的,本专利技术采取采用如下技术方案:
[0007]步骤(1)基于原始网络大规模数据,构建属性增强的网络表征学习模型,将节点转换成嵌入拓扑结构和属性信息的高维向量表示;
[0008]步骤(2)利用属性增强的网络表征学习模型构建多层次聚类模型,在向量化空间中根据结构紧密度、属性同质性和聚类数量将节点划分为层次类别;
[0009]步骤(3)设计简化表达可视分析方案,构建大规模多元网络数据的简化可视分析系统;所述的简化可视分析系统通过聚类视图、协同视图构成视觉表达。
[0010]进一步,步骤(1)具体是:
[0011](1

1)构建基于属性相似性的语料库:
[0012]将节点之间的属性相似度进行量化,如果相邻节点拥有同一个类别时,则其相似性sim(v
i
,v
i,k

)设置为1,否则设置为0;v
i,k

为游走初始节点v
i
的第k

个相邻节点,k

∈(1,K),K为v
i
的相邻节点的数量;跳转概率
[0013]以节点v
i
的前w的节点v
i

w
为起始点,v
i

w
基于属性相似性的游走rw(v
i

w
)=(v
i

w
,

,v
i
‑1,v
i
,v
i+1
,

,v
i+w
),在当前游走路径中的最后一个节点的邻居中均匀地采样,直到达到最大游走步长L,L=2w+1;
[0014]以其他节点为初始节点的游走路径采用相同方式生成,所有节点都要作为初始节点进行基于属性相似性的游走。
[0015](1

2)以固定的次数T重复遍历节点,以固定的游走步长L生成以每个节点开始的游走路径,创建各个属性的所有游走路径组成的语料库;
[0016]由多个属性生成的语料构成一个复合语料库minimize
φ
(

logPr({v
i

w
,
...

【技术保护点】

【技术特征摘要】
1.面向大规模多元网络数据的简化可视分析方法,其特征在于,该方法具体是:步骤(1)基于原始网络大规模数据,构建属性增强的网络表征学习模型,将节点转换成嵌入拓扑结构和属性信息的高维向量表示;步骤(2)利用属性增强的网络表征学习模型构建多层次聚类模型,在向量化空间中根据结构紧密度、属性同质性和聚类数量将节点划分为层次类别;步骤(3)设计简化表达可视分析方案,构建大规模多元网络数据的简化可视分析系统;所述的简化可视分析系统通过聚类视图、协同视图构成视觉表达。2.如权利要求1所述的面向大规模多元网络数据的简化可视分析方法,其特征在于,步骤(1)具体是:(1

1)构建基于属性相似性的语料库:将节点之间的属性相似度进行量化,如果相邻节点拥有同一个类别时,则其相似性sim(v
i
,v
i,k

)设置为1,否则设置为0;v
i,k

为游走初始节点v
i
的第k

个相邻节点,k

∈(1,K),K为v
i
的相邻节点的数量;跳转概率以节点v
i
的前w的节点v
i

w
为起始点,v
i

w
基于属性相似性的游走rw(v
i

w
)=(v
i

w
,

,v
i
‑1,v
i
,v
i+1
,

,v
i+w
),在当前游走路径中的最后一个节点的邻居中均匀地采样,直到达到最大游走步长L,L=2w+1;以其他节点为初始节点的游走路径采用相同方式生成,所有节点都要作为初始节点进行基于属性相似性的游走;(1

2)以固定的次数T重复遍历节点,以固定的游走步长L生成以每个节点开始的游走路径,创建各个属性的所有游走路径组成的语料库;由多个属性生成的语料构成一个复合语料库minimize
φ
(

logPr({v
i

w
,

,v
i+w
}\v
i
|φ(v
i
))),作为Skip

Gram模型的输入;其中φ(v
i
)表示v
i
向量、Pr({v
i

w
,

,v
i+w
}\v
i
|φ(v
i
))表示节点v
i
上下文出现v
...

【专利技术属性】
技术研发人员:周志光张汝敏胡淼鑫刘玉华王毅刚
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1