基于内容的网络链接拓扑重构方法技术

技术编号：13681854 阅读：72 留言：0更新日期：2016-09-08 12:54

一种基于内容的网络链接拓扑重构方法，包括：从内容特征方面和链接特征方面剔除冗余和不相关特征属性，组合新特征向量；计算两个相连网页间相似度，确定两个相连网页间的相关性；根据网页相关性，剔除垃圾链接得到权值计算公式，拓扑中权重越高的链接相连的两个网页相似度越高；根据链接的权值，重新生成网络链接拓扑。本发明专利技术在TrustRank算法基础上加入网页内容分析，通过网页间相似度距离与链接数识别垃圾链接，从内容的角度对网络链接拓扑进行重构，能够有效克服基于链接的网页检测方法忽略垃圾链接存在的可能性，可提高检测和识别垃圾网页的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种网络链接拓扑重构方法。特别是涉及一种用来对网页排序算法进行优化，进一步有效识别和检测垃圾网页的基于内容的网络链接拓扑重构方法。
技术介绍
对垃圾网页检测和识别的实质是对网络中的网页进行排序。目前广泛使用的网页排序算法有HITS，PageRank，BadRank和TrustRank算法。HITS算法中有两个基本假设，第一是一个好的权威性页面会被很多好的中心性页面指向，第二是一个好的中心性页面会指向很多好的权威页面。根据HITS算法的执行过程，用户在搜索引擎界面输入关键词后，算法对返回的匹配页面计算两种值，一种是枢纽值，另一种是权威值，权威值和枢纽值具有相互强化的关系，权威值指的是所有导入链接所指向网页的枢纽值之和，而枢纽值指的是页面上所有导出链接指向页面的权威值之和。将页面根据权威值得分由高到低排序，根据排序结果顺序返回并输出到搜索引擎界面。PageRank算法基于两个假设，分别是数量假设和质量假设。PageRank算法执行过程为：为每个网页赋予相同初始PR值，通过迭代公式计算并更新每个页面的PR值，直到得分不再改变为止。PageRank算法使用链接来衡量网页整体受欢迎程度，而不是使用相关主题。在特定查询下，具有较低PR值的页面仍然能够排在具有高PR值页面的前面，因此PageRank算法是主题无关的。BadRank算法是一种反链接作弊算法。它首先构建作弊网页集，之后利用链接关系来传达垃圾网页信息到其他网页。BadRank算法提出的假设是：网页A将其链接指向作弊网页B，浏览器有理由判定A为作弊网页，但相反作弊网页B指向网页C，但是网页C没有...

【技术保护点】
一种基于内容的网络链接拓扑重构方法，其特征在于，包括如下步骤：1)从内容特征方面和链接特征方面剔除冗余和不相关特征属性，组合新特征向量feature；2)计算两个相连网页间相似度，确定两个相连网页间的相关性；3)根据网页相关性，剔除垃圾链接得到权值计算公式，拓扑中权重越高的链接相连的两个网页相似度越高，权值计算公式如下：weightnew=weightoriginaldistance---(4)]]>式中，weightoriginal表示更新前链接的权值，weightnew表示更新后链接的权值，distance表示相邻网页间相似度；4)根据链接的权值，重新生成网络链接拓扑T*。

【技术特征摘要】
1.一种基于内容的网络链接拓扑重构方法，其特征在于，包括如下步骤：1)从内容特征方面和链接特征方面剔除冗余和不相关特征属性，组合新特征向量feature；2)计算两个相连网页间相似度，确定两个相连网页间的相关性；3)根据网页相关性，剔除垃圾链接得到权值计算公式，拓扑中权重越高的链接相连的两个网页相似度越高，权值计算公式如下： weight n e w = weight o r i g i n a l d i s tan c e - - - ( 4 ) ]]>式中，weightoriginal表示更新前链接的权值，weightnew表示更新后链接的权值，distance表示相邻网页间相似度；4)根据链接的权值，重新生成网络链接拓扑T*。2.根据权利要求1所述的基于内容的网络链接拓扑重构方法，其特征在于，步骤2)中所述的计算两个相连网页间的相似度，首先要对新特征向量feature的各个分量进行标准化，公式如下： X * = X - m s - - - ( ...

【专利技术属性】
技术研发人员：喻梅，高洁，于健，王建荣，徐天一，周静，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人