基于超链接的主题预测算法制造技术

技术编号：15542175 阅读：90 留言：0更新日期：2017-06-05 11:14

本发明专利技术公开了一种基于超链接的主题预测算法，与现有技术相比，本发明专利技术提出了超链接主题预测算法，主要思想是在网络爬虫爬取网页之前取出页面的超链接进行主题相关度判断，当相关度大于预设的阈值时才进行爬取。最后，通过实验比较表明，本文提出的超链接预测算法提高了爬虫的工作效率和检索系统的精准度。

Topic prediction algorithm based on Hyperlink

The invention discloses a hyperlink prediction algorithm based on the theme, compared with the prior art, the invention proposes a hyperlink topic prediction algorithm, the main idea is web crawling before removing links to judge correlation topic page in web crawler, when the correlation is greater than the preset threshold to crawl. Finally, the experimental results show that the proposed hyperlink prediction algorithm improves the efficiency of crawler and the accuracy of retrieval system.

全部详细技术资料下载

【技术实现步骤摘要】
基于超链接的主题预测算法
本专利技术涉及一种搜素引擎算法，尤其涉及一种基于超链接的主题预测算法。
技术介绍
搜索引擎在查找能够满足用户请求的网页时，主要考虑两方面的因素：一方面是用户发出的查询与网页内容的内容相似性得分，即网页和查询的相关性，第三章已经就内容相似性计算做了介绍；另一方面就是通过链接分析方法计算获得的得分，即网页的重要性，用户访问网页的过程就是通过点击页面超链接，因此用户的访问方式和超链接包含的主题内容是进行链接分析的关键数据。随机游走模型和子集传播模型，并分析了传统链接分析算法的主要思想和相互关系。其次，重点分析了经典链接分析算法PageRank的计算方法，发现其在进行特殊链接结构计算时，会出现“链接陷阱”问题，从而导致计算的PageRank值误差很大；在对链接分析基础算法HITS进行分析时，发现其计算的内容向量和链接向量是存在的，但不一定是唯一的，也无法保证其大于零，因此会出现“主题漂移”和排序结果质量差等问题。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于超链接的主题预测算法。本专利技术通过以下技术方案来实现上述目的：本专利技术首先假设有网页集合S＝{1，2，…，N}，在此基础上做如下定义：矩阵H：网页之间链接图对应的链接矩阵；yn：网页n(n∈S)的内容权值(Authority)Zn：网页n(n∈S)的链接权值(Hub)；y＝(y1，...，yN)T：内容权值向量；z＝(z1，...，zN)T：链接权值向量；An：所有指向网页n的集合；Bn：所有被网页n指向的网页集合；具体算法步骤：(1)初始化内容权值向量y，使初始...

【技术保护点】
一种基于超链接的主题预测算法，其特征在于：首先假设有网页集合S＝{1，2，…，N}，在此基础上做如下定义：矩阵H：网页之间链接图对应的链接矩阵；y

【技术特征摘要】
1.一种基于超链接的主题预测算法，其特征在于：首先假设有网页集合S＝{1，2，…，N}，在此基础上做如下定义：矩阵H：网页之间链接图对应的链接矩阵；yn：网页n(n∈S)的内容权值(Authority)Zn：网页n(n∈S)的链接权值(Hub)；y＝(y1,...,yN)T：内容权值向量；z＝(z1,...,zN)T：链接权值向量；An：所有指向网页n的集合；Bn：所有被网页n指向的网页集合；具体算法步骤：(1)初始化内容权值向量y，使初始化链接权值向量z，使(2)进行第k步迭代的时候，网页n的内容权值yn由所有指向它的网页集An的Hub值组成，即其矩阵表达式为y＝HTz；(3)在步骤(2)中得到新的内容权值向量y后，网页n的Hub值Zn由它所引用的网页Bn的内容权值组成，即其矩阵表达式为z＝Hy；(4)对步骤(2)和(3)中计算的向量y和z进行单位化，使得按照以上四个步骤进行循环迭代，直到收敛结束；为了更深层次的分析HITS算法，将第k步迭代得到的内容向量和链接向量分别记作yk和zk，其中：...

【专利技术属性】
技术研发人员：贾海龙，
申请(专利权)人：新乡学院，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人