当前位置: 首页 > 专利查询>常州工学院专利>正文

互联网超链接网络图数据的简化方法技术

技术编号:7917630 阅读:204 留言:0更新日期:2012-10-25 02:31
本发明专利技术涉及一种互联网超链接网络图数据的简化方法,该方法首先对所述超链接网络的图数据G0’,得到第一级简化子图G1’。再根据图的度序列确定第二级简化子图G2’的起点S2’,从S2’开始对G1’作宽度优先遍历,从G1’中选择点加入到G2’中,在G2’中选择点连接生成边,得到第二级简化子图G2’。再以从G1得到G2’的方法从G2’得到G3’,并以此类推得到最优简化子图G’。本发明专利技术方法得到的简化子图能够去除母图中的非关键点,有效地保留母图的拓扑结构,从而使子图相对于母图具备较好的代表性,且简化效率高。由于根据度序列确定起点及宽度优先遍历的计算量较小,因而本方法的执行速度快,而且可以对图进行分层次简化。

【技术实现步骤摘要】

本专利技术涉及一种。
技术介绍
在数学上,一个图(Graph)是表示物件与物件之间的关系的方法,是图论的基本研究对象。一个图看起来是由一些小圆点(称为顶点或结点)和连结这些圆点的直线或曲线(称为边)组成的。在金融、生物信息、社会学、交通管理、互联网的超链接网络以及软件工程等多个领域,经常需要对大规模图数据进行分析,而对数据的可视化则是分析、理解这些数据的直观、有效的方法,受到了越来越多的关注。由于很难一次性载入大规模数据进行分析,人们 通常先根据图的特性将原始图简化,得到具备一定代表性意义的母图的缩略图,然后再通过子图与母图交互,根据需要对数据进行显示、分析。图简化方法通常分为图聚合法和图过滤法两类。图聚合法将多个点合并,将多条边合并,从而减小图的大小,并揭示一组点间的关系。这种方法可以被多次重复,从而得到层次化的图。但是,用这种方法得到的合并后的点和边失去了其原始的语义,因此,简化后子图的代表性不强。与图聚合法相比,图过滤法能够保留点和边的语义,因为简化后的图是原始图的子图。图过滤法又分为随机性过滤和确定性过滤两种。随机性过滤也称为采样,用来从大规模图中得到代表性的样本。但是,由于对数据进行随机采样,因此,用这种简化方法得到的子图的代表性也不强。确定性过滤采用确定性的算法来选择待移除的点和边,这种过滤可以基于点和边的性质以及图的拓扑结构等特性。目前使用最多的是基于介数进行过滤的方法,介数表示的是一个节点位于其它节点间的最短路径上的频率,频率越高,则该点的介数越高,该点就越重要。这种方法得到的简化子图的代表性最好,但是,由于介数方法需要计算所有顶点间最短路径,而所有顶点间最短路径的计算非常耗时,因此,该方法难以应用于大规模图数据的简化。互联网的超链接网络中,近十几年来,随着互联网的普及和Web2 ()技术的推动,网页数量增长迅猛,据CNNIC统计,2010年中国网页规模达到600亿,年增长率78. 6%,而基于互联网的社交网络也后来居上,如全球最大的社交网络Facebook,已有约7亿用户,国内如QQ空间、人人网等,发展也异常迅猛。真实世界中实体规模的扩张,导致对应的图数据规模迅速增长,动辄有数十亿个顶点和上万亿条边。面对这样大规模的图数据,对海量数据处理技术提出了巨大挑战。以搜索引擎中常用的PageRank计算为例,一个网页的PageRank得分根据网页之间相互的超链接关系计算而得到。将网页用图顶点表示,网页之间的链接关系用有向边表示,按邻接表形式存储100亿个图顶点和600亿条边,假设每个顶点及出度边的存储空间占100字节,那么整个图的存储空间将超过1TB。如此大规模的图,对其存储、更新、查找等处理的时间开销和空间开销远远超出了传统集中式图数据管理的承受能力。针对大规模图数据的高效管理,对大规模图数据进行简化,已经成为急需解决的问题。相关参考文献 《图论导引》,美国Graychartrand , Ping Zhang著,范益政,汪毅,朱明译,人民邮电出版社,2007年9月第I版,ISBN 9787115161536 ; 《图论算法理论、实现及应用》,中国王桂平,王衍,任嘉辰主编,北京大学出版社,2011 年 I 月第 I 版,ISBN 978-7-301-17578-1/TP 1122 ; 《离散数学》,中国左孝凌、李为鉴、刘永才著,上海科学技术文献出版社,1982年9 月第一版,ISBN :7805130698, 9787805130699
技术实现思路
本专利技术的目的是一、针对目前图简化方法得到的子图的代表性不强或计算复杂度过大的问题,提出一种基于宽度优先遍历的大规模图数据的简化方法,该方法的计算速度快且得到的简化子图具备较强的代表性;二、针对目前海量的互联网的超链接网络的图数据,提出一种新的基于宽度优先遍历的互联网的超链接网络的图数据的简化方法,通过该简化后的骨干节点和链接的网络,以解决互联网数据高效管理的问题。本专利技术的原理是互联网的超链接网络的大规模图数据由一些关键点以及连接这些点的边构成,从而能够体现原始图的拓扑结构。通过将母图中一些不重要的点和边去除,保留原始图中一些重要的关节点和关键边,得到的必定是具备代表性的缩略图。通过度序列确定起始点的时间复杂度最大为O(NlogN),宽度优先遍历的计算复杂度为0(M+N),两者相加远小于根据介数进行简化的方法的时间复杂度为O(MN)。其中,M为边的数目,N为节点的数目。因此,该方法的计算速度较快。相关词汇解释 二元组的定义 图G是一个二元组(V,E),其中V称为顶点集(也称为点的集合),E称为边集(也称为边的集合)。它们亦可写成V(G)和E(G)。阶(Order):图G中顶集V的大小称作图G的阶。介数反映了相应的节点或者边在整个网络中的作用和影响力,是一个重要的全局几何量,具有很强的现实意义。度(Degree)是一个顶点的度是指与该顶点相关联的总边数。参考文献《图论导弓丨》中第27页有有关度的定义,即与某个点相关联的边的总数称为该点的度。遍历的含义所谓遍历(Traversal),是指沿着某条搜索路线,依次对树中每个结点均做一次且仅做一次访问。访问结点所做的操作依赖于具体的应用问题。遍历在二叉树上最重要的运算之一,是二叉树上进行其它运算之基础。当然遍历的概念也适合于多元素集合的情况,如数组。图的遍历方法有深度优先遍历和宽度(广度)优先遍历。图的宽度(广度)优先遍历是树的按层次遍历的推广,它的基本思想是首先访问初始点Vm,并将其标记为已访问过,接着访问Vm的所有未被访问过的邻接点Vml, Vm2,…,Vmt,并均标记已访问过,然后再按照Vml,Vffl2,…,Vfflt的次序,访问每一个顶点的所有未被访问过的邻接点,并均标记为已访问过,依次类推,直到图中所有和初始点Vi有路径相通的顶点都被访问过为止。参考文献《图论算法理论、实现及应用》中第25页有宽度优先遍历的定义。在参考文献《离散数学》的第273、275页上有自回路的定义和平行边的定义;平行边也称为多重边。根据前述原理,实现本专利技术的技术方案是一种基于宽度优先遍历的大规模图数据简化方法,包含以下步骤 ①对原始图Gtl进行去除自回路和平行边(多重边)的预处理,得到第一级简化子图G1=(V1, E1),其中V1为一级点的集合,E1为一级边的集合;所述一级点的集合V1为所述第一级简化子图G1的点的集合,所述一级边的集合E1为所述第一级简化子图G1的边的集合;并设第i级简化子图Gi为下一级简化子图Gi+1母图Gw ;i为初值等于I大于等于I的整数; ②选择所述母图中具有最优度的点作为下一级简化子图Gi+1的起点Si+1; ③从所述起点Si+1开始对所述母图进行宽度优先遍历获得所述下一级简化子图Gi+1=(Vi+1,Ei+1),其中Vi+1为下一级点的集合,Ei+1为下一级边的集合;所述获得所述下一级简化子图Gi+1= (Vi+1,Ei+1)的方法包括以下步骤 a :把所述起点S i+1及其直接邻接点加入到该级已遍历点的集合VTi+1中,并把所述起点si+1加入到所述下一级点的集合vi+1中; b :若所述已加入集合VTi+1中的各直接邻接点的邻接点不在所述集合VT本文档来自技高网
...

【技术保护点】
一种互联网超链接网络图数据的简化方法,包含以下步骤:步骤一、对所述超链接网络的图数据G0’进行去除自回路和平行边的预处理,得到第一级简化子图G1’=(V1’,E1’),V1’为一级点的集合,?E1’为一级边的集合,所述点为所述互联网的超链接网络中的网页,所述边为所述互联网的超链接网络中网页间的链接关系;并设第n级简化子图Gn’为下一级简化子图Gn+1’的母图GOn’;n为初值等于1的整数;步骤二、选择所述母图GOn’中具有最优度的点作为下一级简化子图G?n+1’的起点S?n+1’,其中度为一网页与其他网页的链接总数,所述最优度的点为超链接总数最多的网页;?步骤三、从所述起点S?n+1’开始对所述母图进行宽度优先遍历,获得所述下一级简化子图G?n+1’=(V?n+1’,E?n+1’),其中V?n+1’为下一级点的集合,E?n+1’为下一级边的集合;?步骤四、设所述下一级简化子图G?n+1’为再下一级简化子图的母图GO(n+1)’,重复所述步骤二、三直至得到最优简化子图G’,即获得最优超链接网络。

【技术特征摘要】

【专利技术属性】
技术研发人员:毛国勇张永春张燕红高敏廉春原
申请(专利权)人:常州工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利