互联网超链接网络图数据的简化方法技术

技术编号：7917630 阅读：212 留言：0更新日期：2012-10-25 02:31

本发明专利技术涉及一种互联网超链接网络图数据的简化方法，该方法首先对所述超链接网络的图数据G0’，得到第一级简化子图G1’。再根据图的度序列确定第二级简化子图G2’的起点S2’，从S2’开始对G1’作宽度优先遍历，从G1’中选择点加入到G2’中，在G2’中选择点连接生成边，得到第二级简化子图G2’。再以从G1得到G2’的方法从G2’得到G3’，并以此类推得到最优简化子图G’。本发明专利技术方法得到的简化子图能够去除母图中的非关键点，有效地保留母图的拓扑结构，从而使子图相对于母图具备较好的代表性，且简化效率高。由于根据度序列确定起点及宽度优先遍历的计算量较小，因而本方法的执行速度快，而且可以对图进行分层次简化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种。
技术介绍
在数学上，一个图(Graph)是表示物件与物件之间的关系的方法，是图论的基本研究对象。一个图看起来是由一些小圆点(称为顶点或结点)和连结这些圆点的直线或曲线(称为边)组成的。在金融、生物信息、社会学、交通管理、互联网的超链接网络以及软件工程等多个领域，经常需要对大规模图数据进行分析，而对数据的可视化则是分析、理解这些数据的直观、有效的方法，受到了越来越多的关注。由于很难一次性载入大规模数据进行分析，人们通常先根据图的特性将原始图简化，得到具备一定代表性意义的母图的缩略图，然后再通过子图与母图交互，根据需要对数据进行显示、分析。图简化方法通常分为图聚合法和图过滤法两类。图聚合法将多个点合并，将多条边合并，从而减小图的大小，并揭示一组点间的关系。这种方法可以被多次重复，从而得到层次化的图。但是，用这种方法得到的合并后的点和边失去了其原始的语义，因此，简化后子图的代表性不强。与图聚合法相比，图过滤法能够保留点和边的语义，因为简化后的图是原始图的子图。图过滤法又分为随机性过滤和确定性过滤两种。随机性过滤也称为采样，用来从大规模图中得到代表性的样本。但是，由于对数据进行随机采样，因此，用这种简化方法得到的子图的代表性也不强。确定性过滤采用确定性的算法来选择待移除的点和边，这种过滤可以基于点和边的性质以及图的拓扑结构等特性。目前使用最多的是基于介数进行过滤的方法，介数表示的是一个节点位于其它节点间的最短路径上的频率，频率越高，则该点的介数越高，该点就越重要。这种方法得到的简化子图的代表性最好，但是，由于介数方法需要计算所有顶点间最短...

【技术保护点】
一种互联网超链接网络图数据的简化方法，包含以下步骤：步骤一、对所述超链接网络的图数据G0’进行去除自回路和平行边的预处理，得到第一级简化子图G1’=（V1’，E1’），V1’为一级点的集合，？E1’为一级边的集合，所述点为所述互联网的超链接网络中的网页，所述边为所述互联网的超链接网络中网页间的链接关系;并设第n级简化子图Gn’为下一级简化子图Gn+1’的母图GOn’；n为初值等于1的整数；步骤二、选择所述母图GOn’中具有最优度的点作为下一级简化子图G？n+1’的起点S？n+1’，其中度为一网页与其他网页的链接总数，所述最优度的点为超链接总数最多的网页；？步骤三、从所述起点S？n+1’开始对所述母图进行宽度优先遍历，获得所述下一级简化子图G？n+1’=（V？n+1’，E？n+1’），其中V？n+1’为下一级点的集合，E？n+1’为下一级边的集合；？步骤四、设所述下一级简化子图G？n+1’为再下一级简化子图的母图GO(n+1)’，重复所述步骤二、三直至得到最优简化子图G’,即获得最优超链接网络。

【技术特征摘要】

【专利技术属性】
技术研发人员：毛国勇，张永春，张燕红，高敏，廉春原，
申请(专利权)人：常州工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人