一种基于相似性的半监督学习垃圾网页检测方法技术

技术编号:3961504 阅读:309 留言:0更新日期:2012-04-11 18:40
本发明专利技术的目的是设计基于相似性的半监督学习垃圾网页检测方法,解决利用网页链接关系进行半监督学习出现的问题。该方法根据网页间的相似性建立一个隐含的“链接”关系图。步骤1:从网页中提取基于内容和链接的特征步骤2)对步骤1)所提取的特征用主成分分析方法进行特征提取;步骤3)根据网页间的相似性建立隐含的“链接”关系图;步骤4)在“链接”关系图上建立高斯随机域模型,利用调和函数进行半监督学习,步骤5)将步骤4)的模型与其它分类器的分类结果结合,提高分类效果,在关系图中,网页间的链接根据相似性赋予权重,然后建立高斯随机域模型,使用调和函数进行半监督学习,提高了半监督学习的能力。

【技术实现步骤摘要】

本专利技术涉及一种搜索引擎垃圾网页的检测方法,主要解决了小样本条件下的垃圾网页检测问题,属于搜索引擎和半监督机器学习的领域。
技术介绍
搜索引擎使得用户能从海量的网页中找到自己感兴趣的、正确的内容。但垃圾网页的盛行损害了搜索引擎的信誉,减弱了其用户的信任。找到一种有效的降低网页垃圾影 响,提高搜索引擎网页排名质量的方法,对用户迅速找到感兴趣而且正确的网页有十分重 要的意义。最初,搜索引擎使用传统的信息提取算法,如TF-IDF(词频-逆文档频率), 为提交给搜索引擎的查询所返回的结果进行排名。为了提高搜索质量,现在的网页重要 性排名大多基于链接图,这个过程称为链接分析。著名的链接分析算法包括HITS, PageRank(网页排名)以及其它一些算法。此类算法都基于这样的假设, 如果一个网页在链接图中有很多重要的网页链向它,那么这个网页也很可能是重要的。为 了进一步提高网页排名的有效性和准确性,研究者们又提出了许多改进算法。如针对链接 工厂的TrustRank(信任排名)算法在计算网页重要性时考虑了网页的可靠性。但是这 些方法都只是针对某种类型的垃圾网页,对新的垃圾网页技术无能为力。机器学习方法是一种从样本中提取能表征该样本的特征,根据特征的差异对样本 进行分类的方法。检测垃圾网页的一种重要途径就是利用机器学习方法对网页进行分类。 这种方法可以适应新出现的垃圾网页类型,并取得了不错的效果。但是,传统的机器学习方 法实际上是利用已标签数据训练一个目标函数,然后每个未标签的数据由训练得到的目标 函数获得一个函数值,若这个函数值大于某个既定阀值则认为它是属于垃圾网页,否则不 是垃圾网页。这种方法属于监督学习的范围。然而,数据的标签类别通常需要具有相关知 识的熟练的专家才能确定,因此对数据进行标签是费时的,而且代价也很大。用小量的样本 训练的分类器通常都是不理想的。应该注意的是,未标签数据是大量存在的。怎样有效地 将标签数据和未标签数据结合起来进行半监督学习以提高分类效果,现已成为机器学习中 的重要部分。当前,在垃圾网页检测方面的半监督方法主要是利用网页之间的链接关系,决定 本网页是否为垃圾网页时,它的邻居网页(包括链入网页和链出网页)的标签也作为考虑 的因素。例如Guang-Gang Geng等人提出的Link training (链接训练法),就是基于 链接的小样本学习算法。它遵循的原则是相邻的节点有相似的属性。在链接训练算法中首 先用少量的标签数据训练一个分类器。然后用训练好的分类器对大量的未标签数据分类, 从而每个未标签的样本都会得到一个预测值PS,表示属于垃圾网页的概率。在链接学习阶 段,未标签样本将根据它的邻居计算LS值,表示在参考其邻居的类别后该样本属于垃圾网 页的概率。最后,把具有最大LS值的ρ个样本和最小LS值的η个样本分布作为垃圾网页和 非垃圾网页加入到标签集中。这个训练过程将会进行多次,直到迭代次数到达预设值。这样最终会得到一个扩展的标签数据集。最后,利用扩展后的标签数据集训练最终的分类器。利用网页链接关系进行半监督学习的方法取得了一定的效果。但是,若在一个垃 圾网页通过增加对权威网页的链接来增加自身重要性等的情况下,这种方法就失效了,相 邻的网页并没有相似的属性。而且这种方法往往需要多次迭代以扩展训练集,较为费时。本 专利技术所涉及到的一种基于调和函数的半监督学习垃圾网页检测方法,正是为解决此问题而 开展进行的。目的是根据网页间相似性,建立一个隐含的“链接”关系图,在这个隐含的关 系图上进行半监督学习,提高机器学习检测垃圾网页的性能。参考文献SALT0N, G. . Developments in automatic text retrieval. Science 253, 974-980,1991.J. M. Kleinberg. Authoritative sources in a hyperlinked environment. In SODA,98,pages 668-677,Philadelphia, PA, USA, 1998.S.Brin, L. Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems,30(1-7) :107_117,1998. L. Page, S. Brin, R. Motwani, T. ffinograd. The pagerank citation ranking Bringingorder to the web. Technical report,Stanford Digital Library Technologies Project,1998.P. Boldi, M. Santini, S. Vigna. Pagerank as a function of the damping factor. InffffT 05. ACM, 2005. Z. Gyongyi, H. Garcia-Molina, J. Pedersen. Combating web spam with trustrank. InVLDB' 04,pages 576-587. VLDB Endowment,2004.T. Haveliwala. Effcient computation of pageRank. Technical Report, StanfordUniversity, 1999. Z. Gyongyi, H. Garcia-Molina, J. Pedersen. Combating web spam with trustrank. VLDB' 04, pages 576-587. VLDB Endowment,2004.
技术实现思路
技术问题本专利技术的目的是设计一种基于相似性的半监督学习垃圾网页检测方 法,解决利用网页链接关系进行半监督学习出现的问题。该方法根据网页间的相似性建立 一个隐含的“链接”关系图。在关系图中,网页间的链接根据相似性赋予权重,然后建立高 斯随机域模型,使用调和函数进行半监督学习。技术方案本专利技术提出的,根据 网页间的相似性建立一个隐含的“链接”关系图,在关系图中,网页间的链接根据相似性赋 予权重,然后建立高斯随机域模型,使用调和函数进行半监督学习;所包含的步骤为步骤1 从网页中提取基于内容和链接的特征基于内容的特征,主要包括以下几种类型的内容特征a.网页词的个数、标题词的个数,词的平均长度,仅考虑网页中可视文本的词,并且这些词是数字或字符类型的,b.锚文本的比值锚文本中词的个数与网页全部词个数的比值。c.可视化文本的比值可视化文本中词的个数与网页全部词个数的比值,包括 html标签和其它不可视文本,c.压缩率,压缩为bzip格式的网页与未压缩网页大小的比值,d.词库的精度和召全率找到数据集中最常用的k个词,词库的精度为网页中属 于k个词的个数的比例,词库召全率则表示k个词中出现在该网页的比例,k= 100,200, 500,1000,e.查询精度和召全率找到查询日志中最常用的q个查询本文档来自技高网
...

【技术保护点】
一种基于相似性的半监督学习垃圾网页检测方法,其特征在于根据网页间的相似性建立一个隐含的“链接”关系图,在关系图中,网页间的链接根据相似性赋予权重,然后建立高斯随机域模型,使用调和函数进行半监督学习;所包含的步骤为:步骤1:从网页中提取基于内容和链接的特征基于内容的特征,主要包括以下几种类型的内容特征:a.网页词的个数、标题词的个数,词的平均长度,仅考虑网页中可视文本的词,并且这些词是数字或字符类型的。b.锚文本的比值:锚文本中词的个数与网页全部词个数的比值。c.可视化文本的比值:可视化文本中词的个数与网页全部词个数的比值,包括html标签和其它不可视文本。c.压缩率,压缩为bzip格式的网页与未压缩网页大小的比值。d.词库的精度和召全率。e.查询精度和召全率:找到查询日志中最常用的查询词,查询精度和召全率的定义与词库的精度和召全率类似。f.词三元组的熵:网页压缩率的另一种度量方法。基于链接的特征,主要包括以下几种类型的链接特征:g.与度相关的度量:网页的入度和出度。h.网页排名:本网页的网页排名和链入网页的网页排名。i.信任排名。j.删减后的网页排名。k.支持者的个数。步骤2)对步骤1)所提取的特征用主成分分析方法进行特征提取;步骤3)根据网页间的相似性建立隐含的“链接”关系图;步骤4)在“链接”关系图上建立高斯随机域模型,利用调和函数进行半监督学习;步骤5)将步骤4)的模型与其它分类器的分类结果结合,提高分类效果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张卫丰朱丹梅周国强张迎周陆柳敏许碧娣刘霞
申请(专利权)人:南京邮电大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1