当前位置: 首页 > 专利查询>天津大学专利>正文

基于内容的网络链接拓扑重构方法技术

技术编号:13681854 阅读:61 留言:0更新日期:2016-09-08 12:54
一种基于内容的网络链接拓扑重构方法,包括:从内容特征方面和链接特征方面剔除冗余和不相关特征属性,组合新特征向量;计算两个相连网页间相似度,确定两个相连网页间的相关性;根据网页相关性,剔除垃圾链接得到权值计算公式,拓扑中权重越高的链接相连的两个网页相似度越高;根据链接的权值,重新生成网络链接拓扑。本发明专利技术在TrustRank算法基础上加入网页内容分析,通过网页间相似度距离与链接数识别垃圾链接,从内容的角度对网络链接拓扑进行重构,能够有效克服基于链接的网页检测方法忽略垃圾链接存在的可能性,可提高检测和识别垃圾网页的效率。

【技术实现步骤摘要】

本专利技术涉及一种网络链接拓扑重构方法。特别是涉及一种用来对网页排序算法进行优化,进一步有效识别和检测垃圾网页的基于内容的网络链接拓扑重构方法
技术介绍
对垃圾网页检测和识别的实质是对网络中的网页进行排序。目前广泛使用的网页排序算法有HITS,PageRank,BadRank和TrustRank算法。HITS算法中有两个基本假设,第一是一个好的权威性页面会被很多好的中心性页面指向,第二是一个好的中心性页面会指向很多好的权威页面。根据HITS算法的执行过程,用户在搜索引擎界面输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值,另一种是权威值,权威值和枢纽值具有相互强化的关系,权威值指的是所有导入链接所指向网页的枢纽值之和,而枢纽值指的是页面上所有导出链接指向页面的权威值之和。将页面根据权威值得分由高到低排序,根据排序结果顺序返回并输出到搜索引擎界面。PageRank算法基于两个假设,分别是数量假设和质量假设。PageRank算法执行过程为:为每个网页赋予相同初始PR值,通过迭代公式计算并更新每个页面的PR值,直到得分不再改变为止。PageRank算法使用链接来衡量网页整体受欢迎程度,而不是使用相关主题。在特定查询下,具有较低PR值的页面仍然能够排在具有高PR值页面的前面,因此PageRank算法是主题无关的。BadRank算法是一种反链接作弊算法。它首先构建作弊网页集,之后利用链接关系来传达垃圾网页信息到其他网页。BadRank算法提出的假设是:网页A将其链接指向作弊网页B,浏览器有理由判定A为作弊网页,但相反作弊网页B指向网页C,但是网页C没有反链,则浏览器就不会认定网页C作弊。TrustRank算法基本思想是在为网页排名时,要考虑到该页面所在站点的信任指数和权威指数。算法选择小部分可信赖的网页,即“种子”页面,然后人工设定一个初始TrustRank值。挑选种子网站有三种方式,一是选择导出链接最多的网站,二是挑选PR值高的网站,三是人为查看网页内容,为网页设置一个符合其信任指数的初始TrustRank值。但是,TrustRank算法只考虑了网页间链接的信息,而忽略了网页中的文本信息。由于作弊手段越来越多,单纯只根据链接关系找出垃圾网页越来越困难,且链接信息并非对所有的作弊网页都有效。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够有效克服基于链接的网页检测方法忽略垃圾链接存在可能性的基于内容的网络链接拓扑重构方法。本专利技术所采用的技术方案是:一种基于内容的网络链接拓扑重构方法,包括如下步骤:1)从内容特征方面和链接特征方面剔除冗余和不相关特征属性,组合新特征向量feature;2)计算两个相连网页间相似度,确定两个相连网页间的相关性;3)根据网页相关性,剔除垃圾链接得到权值计算公式,拓扑中权重越高的链接相连的两个网页相似度越高,权值计算公式如下: weight n e w = weight o r i g i n a l d i s tan c e - - - ( 4 ) ]]>式中,weightoriginal表示更新前链接的权值,weightnew表示更新后链接的权值,distance表示相邻网页间相似度。4)根据链接的权值,重新生成网络链接拓扑T*。步骤2)中所述的计算两个相连网页间的相似度,首先要对新特征向量feature的各个分量进行标准化,公式如下: X * = X - m s - - - ( 1 ) ]]>式中,X*是标准化后的向量,X是标准化前的向量,m是相应分量的均值,s是相应分量的方差;在标准化的基础上,采用欧式距离计算两个网页间的相似度,公式如下: d i j = Σ k = 1 n ( x i k - x j k ) 2 - - - ( 2 ) ]]>式中,dij表示网页i、j之间的欧式距离,xik表示网页i的第k个特征值,xjk表示网页j的第k个特征值。步骤4)是依据网页链接数、平均相似度和网页相关性三个标准判断链接是否为垃圾链接,为这三个标准分别设置阈值,当每一个链接满足任一阈值,则视为正常链接,否则,视为垃圾链接,当所有链接都判断完后,最后,所有正常链接网页构成网络链接拓扑T*。本专利技术的基于内容的网络链接拓扑重构方法,在TrustRank算法基础上加入网页内容分析,通过网页间相似度距离与链接数识别垃圾链接,从内容的角度对网络链接拓扑进行重构,能够有效克服基于链接的网页检测方法忽略垃圾链接存在的可能性,可提高检测和识别垃圾网页的效率。附图说明图1是本专利技术基于内容的网络链接拓扑重构方法的流程图;图2是重构链接拓扑前后TrustRank算法实验对比图。具体实施方式下面结合实施例和附图对本专利技术的基于内容的网络链接拓扑重构方法做出详细说明。本专利技术的基于内容的网络链接拓扑重构方法,在TrustRank算法基础上加入网页内容分析,从内容的角度对网络链接拓扑进行重构,可提高检测和识别垃圾网页的效率。如图1所示,本专利技术的基于内容的网络链接拓扑重构方法,包括如下步骤:1)从内容特征方面和链接特征方面剔除冗余和不相关特征属性,组合新特征向量feature;2)计算两个相连网页间相似度,确定两个相连网页间的相关性,本文档来自技高网
...

【技术保护点】
一种基于内容的网络链接拓扑重构方法,其特征在于,包括如下步骤:1)从内容特征方面和链接特征方面剔除冗余和不相关特征属性,组合新特征向量feature;2)计算两个相连网页间相似度,确定两个相连网页间的相关性;3)根据网页相关性,剔除垃圾链接得到权值计算公式,拓扑中权重越高的链接相连的两个网页相似度越高,权值计算公式如下:weightnew=weightoriginaldistance---(4)]]>式中,weightoriginal表示更新前链接的权值,weightnew表示更新后链接的权值,distance表示相邻网页间相似度;4)根据链接的权值,重新生成网络链接拓扑T*。

【技术特征摘要】
1.一种基于内容的网络链接拓扑重构方法,其特征在于,包括如下步骤:1)从内容特征方面和链接特征方面剔除冗余和不相关特征属性,组合新特征向量feature;2)计算两个相连网页间相似度,确定两个相连网页间的相关性;3)根据网页相关性,剔除垃圾链接得到权值计算公式,拓扑中权重越高的链接相连的两个网页相似度越高,权值计算公式如下: weight n e w = weight o r i g i n a l d i s tan c e - - - ( 4 ) ]]>式中,weightoriginal表示更新前链接的权值,weightnew表示更新后链接的权值,distance表示相邻网页间相似度;4)根据链接的权值,重新生成网络链接拓扑T*。2.根据权利要求1所述的基于内容的网络链接拓扑重构方法,其特征在于,步骤2)中所述的计算两个相连网页间的相似度,首先要对新特征向量feature的各个分量进行标准化,公式如下: X * = X - m s - - - ( ...

【专利技术属性】
技术研发人员:喻梅高洁于健王建荣徐天一周静
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1