当前位置: 首页 > 专利查询>新乡学院专利>正文

基于超链接的主题预测算法制造技术

技术编号:15542175 阅读:78 留言:0更新日期:2017-06-05 11:14
本发明专利技术公开了一种基于超链接的主题预测算法,与现有技术相比,本发明专利技术提出了超链接主题预测算法,主要思想是在网络爬虫爬取网页之前取出页面的超链接进行主题相关度判断,当相关度大于预设的阈值时才进行爬取。最后,通过实验比较表明,本文提出的超链接预测算法提高了爬虫的工作效率和检索系统的精准度。

Topic prediction algorithm based on Hyperlink

The invention discloses a hyperlink prediction algorithm based on the theme, compared with the prior art, the invention proposes a hyperlink topic prediction algorithm, the main idea is web crawling before removing links to judge correlation topic page in web crawler, when the correlation is greater than the preset threshold to crawl. Finally, the experimental results show that the proposed hyperlink prediction algorithm improves the efficiency of crawler and the accuracy of retrieval system.

【技术实现步骤摘要】
基于超链接的主题预测算法
本专利技术涉及一种搜素引擎算法,尤其涉及一种基于超链接的主题预测算法。
技术介绍
搜索引擎在查找能够满足用户请求的网页时,主要考虑两方面的因素:一方面是用户发出的查询与网页内容的内容相似性得分,即网页和查询的相关性,第三章已经就内容相似性计算做了介绍;另一方面就是通过链接分析方法计算获得的得分,即网页的重要性,用户访问网页的过程就是通过点击页面超链接,因此用户的访问方式和超链接包含的主题内容是进行链接分析的关键数据。随机游走模型和子集传播模型,并分析了传统链接分析算法的主要思想和相互关系。其次,重点分析了经典链接分析算法PageRank的计算方法,发现其在进行特殊链接结构计算时,会出现“链接陷阱”问题,从而导致计算的PageRank值误差很大;在对链接分析基础算法HITS进行分析时,发现其计算的内容向量和链接向量是存在的,但不一定是唯一的,也无法保证其大于零,因此会出现“主题漂移”和排序结果质量差等问题。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于超链接的主题预测算法。本专利技术通过以下技术方案来实现上述目的:本专利技术首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:矩阵H:网页之间链接图对应的链接矩阵;yn:网页n(n∈S)的内容权值(Authority)Zn:网页n(n∈S)的链接权值(Hub);y=(y1,...,yN)T:内容权值向量;z=(z1,...,zN)T:链接权值向量;An:所有指向网页n的集合;Bn:所有被网页n指向的网页集合;具体算法步骤:(1)初始化内容权值向量y,使初始化链接权值向量z,使(2)进行第k步迭代的时候,网页n的内容权值yn由所有指向它的网页集An的Hub值组成,即其矩阵表达式为y=HTz;(3)在步骤(2)中得到新的内容权值向量y后,网页n的Hub值Zn由它所引用的网页Bn的内容权值组成,即其矩阵表达式为z=Hy;(4)对步骤(2)和(3)中计算的向量y和z进行单位化,使得按照以上四个步骤进行循环迭代,直到收敛结束;为了更深层次的分析HITS算法,将第k步迭代得到的内容向量和链接向量分别记作yk和zk,其中:初始化为:根据算法步骤(2)、(3)和(4),可以计算:yk=φkψkHTHyk-1,k=2,3,....(5)zk=ψkφkHHTzk-1,k=1,2,....(6)收敛后,得到内容向量和链接向量分别为:在式(7)中,内容向量y'是矩阵HTH的一个特征向量,链接向量z'是矩阵HHT的一个特征向量,因此为了确定内容向量和链接向量的存在和唯一性,下文对式中HTH和HHT进行分析。因为内容向量对应矩阵HTH,链接向量对应HHT,所以下文将HTH称作内容矩阵,将HHT称作链接矩阵。本专利技术的有益效果在于:本专利技术是一种基于超链接的主题预测算法,与现有技术相比,本专利技术提出了超链接主题预测算法,主要思想是在网络爬虫爬取网页之前取出页面的超链接进行主题相关度判断,当相关度大于预设的阈值时才进行爬取。最后,通过实验比较表明,本文提出的超链接预测算法提高了爬虫的工作效率和检索系统的精准度。具体实施方式下面对本专利技术作进一步说明:本专利技术首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:矩阵H:网页之间链接图对应的链接矩阵;yn:网页n(n∈S)的内容权值(Authority)Zn:网页n(n∈S)的链接权值(Hub);y=(y1,...,yN)T:内容权值向量;z=(z1,...,zN)T:链接权值向量;An:所有指向网页n的集合;Bn:所有被网页n指向的网页集合;具体算法步骤:(1)初始化内容权值向量y,使初始化链接权值向量z,使(2)进行第k步迭代的时候,网页n的内容权值yn由所有指向它的网页集An的Hub值组成,即其矩阵表达式为y=HTz;(3)在步骤(2)中得到新的内容权值向量y后,网页n的Hub值Zn由它所引用的网页Bn的内容权值组成,即其矩阵表达式为z=Hy;(4)对步骤(2)和(3)中计算的向量y和z进行单位化,使得按照以上四个步骤进行循环迭代,直到收敛结束;为了更深层次的分析HITS算法,将第k步迭代得到的内容向量和链接向量分别记作yk和zk,其中:初始化为:根据算法步骤(2)、(3)和(4),可以计算:yk=φkψkHTHyk-1,k=2,3,....(5)zk=ψkφkHHTzk-1,k=1,2,....(6)收敛后,得到内容向量和链接向量分别为:在式(7)中,内容向量y'是矩阵HTH的一个特征向量,链接向量z'是矩阵HHT的一个特征向量,因此为了确定内容向量和链接向量的存在和唯一性,下文对式中HTH和HHT进行分析。因为内容向量对应矩阵HTH,链接向量对应HHT,所以下文将HTH称作内容矩阵,将HHT称作链接矩阵。以上显示和描述了本专利技术的基本原理和主要特征及本专利技术的优点。本行业的技术人员应该了解,本专利技术不受上述实施例的限制,上述实施例和说明书中描述的只是说明本专利技术的原理,在不脱离本专利技术精神和范围的前提下,本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内。本专利技术要求保护范围由所附的权利要求书及其等效物界定。本文档来自技高网...

【技术保护点】
一种基于超链接的主题预测算法,其特征在于:首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:矩阵H:网页之间链接图对应的链接矩阵;y

【技术特征摘要】
1.一种基于超链接的主题预测算法,其特征在于:首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:矩阵H:网页之间链接图对应的链接矩阵;yn:网页n(n∈S)的内容权值(Authority)Zn:网页n(n∈S)的链接权值(Hub);y=(y1,...,yN)T:内容权值向量;z=(z1,...,zN)T:链接权值向量;An:所有指向网页n的集合;Bn:所有被网页n指向的网页集合;具体算法步骤:(1)初始化内容权值向量y,使初始化链接权值向量z,使(2)进行第k步迭代的时候,网页n的内容权值yn由所有指向它的网页集An的Hub值组成,即其矩阵表达式为y=HTz;(3)在步骤(2)中得到新的内容权值向量y后,网页n的Hub值Zn由它所引用的网页Bn的内容权值组成,即其矩阵表达式为z=Hy;(4)对步骤(2)和(3)中计算的向量y和z进行单位化,使得按照以上四个步骤进行循环迭代,直到收敛结束;为了更深层次的分析HITS算法,将第k步迭代得到的内容向量和链接向量分别记作yk和zk,其中:...

【专利技术属性】
技术研发人员:贾海龙
申请(专利权)人:新乡学院
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1