The invention discloses a hyperlink prediction algorithm based on the theme, compared with the prior art, the invention proposes a hyperlink topic prediction algorithm, the main idea is web crawling before removing links to judge correlation topic page in web crawler, when the correlation is greater than the preset threshold to crawl. Finally, the experimental results show that the proposed hyperlink prediction algorithm improves the efficiency of crawler and the accuracy of retrieval system.
【技术实现步骤摘要】
基于超链接的主题预测算法
本专利技术涉及一种搜素引擎算法,尤其涉及一种基于超链接的主题预测算法。
技术介绍
搜索引擎在查找能够满足用户请求的网页时,主要考虑两方面的因素:一方面是用户发出的查询与网页内容的内容相似性得分,即网页和查询的相关性,第三章已经就内容相似性计算做了介绍;另一方面就是通过链接分析方法计算获得的得分,即网页的重要性,用户访问网页的过程就是通过点击页面超链接,因此用户的访问方式和超链接包含的主题内容是进行链接分析的关键数据。随机游走模型和子集传播模型,并分析了传统链接分析算法的主要思想和相互关系。其次,重点分析了经典链接分析算法PageRank的计算方法,发现其在进行特殊链接结构计算时,会出现“链接陷阱”问题,从而导致计算的PageRank值误差很大;在对链接分析基础算法HITS进行分析时,发现其计算的内容向量和链接向量是存在的,但不一定是唯一的,也无法保证其大于零,因此会出现“主题漂移”和排序结果质量差等问题。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于超链接的主题预测算法。本专利技术通过以下技术方案来实现上述目的:本专利技术首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:矩阵H:网页之间链接图对应的链接矩阵;yn:网页n(n∈S)的内容权值(Authority)Zn:网页n(n∈S)的链接权值(Hub);y=(y1,...,yN)T:内容权值向量;z=(z1,...,zN)T:链接权值向量;An:所有指向网页n的集合;Bn:所有被网页n指向的网页集合;具体算法步骤:(1)初始化内容权值向量y,使初始 ...
【技术保护点】
一种基于超链接的主题预测算法,其特征在于:首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:矩阵H:网页之间链接图对应的链接矩阵;y
【技术特征摘要】
1.一种基于超链接的主题预测算法,其特征在于:首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:矩阵H:网页之间链接图对应的链接矩阵;yn:网页n(n∈S)的内容权值(Authority)Zn:网页n(n∈S)的链接权值(Hub);y=(y1,...,yN)T:内容权值向量;z=(z1,...,zN)T:链接权值向量;An:所有指向网页n的集合;Bn:所有被网页n指向的网页集合;具体算法步骤:(1)初始化内容权值向量y,使初始化链接权值向量z,使(2)进行第k步迭代的时候,网页n的内容权值yn由所有指向它的网页集An的Hub值组成,即其矩阵表达式为y=HTz;(3)在步骤(2)中得到新的内容权值向量y后,网页n的Hub值Zn由它所引用的网页Bn的内容权值组成,即其矩阵表达式为z=Hy;(4)对步骤(2)和(3)中计算的向量y和z进行单位化,使得按照以上四个步骤进行循环迭代,直到收敛结束;为了更深层次的分析HITS算法,将第k步迭代得到的内容向量和链接向量分别记作yk和zk,其中:...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。