一种基于相似性的半监督学习垃圾网页检测方法技术

技术编号：3961504 阅读：323 留言：0更新日期：2012-04-11 18:40

本发明专利技术的目的是设计基于相似性的半监督学习垃圾网页检测方法，解决利用网页链接关系进行半监督学习出现的问题。该方法根据网页间的相似性建立一个隐含的“链接”关系图。步骤１：从网页中提取基于内容和链接的特征步骤２）对步骤１）所提取的特征用主成分分析方法进行特征提取；步骤３）根据网页间的相似性建立隐含的“链接”关系图；步骤４）在“链接”关系图上建立高斯随机域模型，利用调和函数进行半监督学习，步骤５）将步骤４）的模型与其它分类器的分类结果结合，提高分类效果，在关系图中，网页间的链接根据相似性赋予权重，然后建立高斯随机域模型，使用调和函数进行半监督学习，提高了半监督学习的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种搜索引擎垃圾网页的检测方法，主要解决了小样本条件下的垃圾网页检测问题，属于搜索引擎和半监督机器学习的领域。
技术介绍
搜索引擎使得用户能从海量的网页中找到自己感兴趣的、正确的内容。但垃圾网页的盛行损害了搜索引擎的信誉，减弱了其用户的信任。找到一种有效的降低网页垃圾影响，提高搜索引擎网页排名质量的方法，对用户迅速找到感兴趣而且正确的网页有十分重要的意义。最初，搜索引擎使用传统的信息提取算法，如TF-IDF(词频-逆文档频率)，为提交给搜索引擎的查询所返回的结果进行排名。为了提高搜索质量，现在的网页重要性排名大多基于链接图，这个过程称为链接分析。著名的链接分析算法包括HITS， PageRank(网页排名)以及其它一些算法。此类算法都基于这样的假设，如果一个网页在链接图中有很多重要的网页链向它，那么这个网页也很可能是重要的。为了进一步提高网页排名的有效性和准确性，研究者们又提出了许多改进算法。如针对链接工厂的TrustRank(信任排名)算法在计算网页重要性时考虑了网页的可靠性。但是这些方法都只是针对某种类型的垃圾网页，对新的垃圾网页技术无能为力。机器学习方法是一种从样本中提取能表征该样本的特征，根据特征的差异对样本进行分类的方法。检测垃圾网页的一种重要途径就是利用机器学习方法对网页进行分类。这种方法可以适应新出现的垃圾网页类型，并取得了不错的效果。但是，传统的机器学习方法实际上是利用已标签数据训练一个目标函数，然后每个未标签的数据由训练得到的目标函数获得一个函数值，若这个函数值大于某个既定阀值则认为它是属于垃圾网页...

【技术保护点】
一种基于相似性的半监督学习垃圾网页检测方法，其特征在于根据网页间的相似性建立一个隐含的“链接”关系图，在关系图中，网页间的链接根据相似性赋予权重，然后建立高斯随机域模型，使用调和函数进行半监督学习；所包含的步骤为：步骤１：从网页中提取基于内容和链接的特征基于内容的特征，主要包括以下几种类型的内容特征：ａ．网页词的个数、标题词的个数，词的平均长度，仅考虑网页中可视文本的词，并且这些词是数字或字符类型的。ｂ．锚文本的比值：锚文本中词的个数与网页全部词个数的比值。ｃ．可视化文本的比值：可视化文本中词的个数与网页全部词个数的比值，包括ｈｔｍｌ标签和其它不可视文本。ｃ．压缩率，压缩为ｂｚｉｐ格式的网页与未压缩网页大小的比值。ｄ．词库的精度和召全率。ｅ．查询精度和召全率：找到查询日志中最常用的查询词，查询精度和召全率的定义与词库的精度和召全率类似。ｆ．词三元组的熵：网页压缩率的另一种度量方法。基于链接的特征，主要包括以下几种类型的链接特征：ｇ．与度相关的度量：网页的入度和出度。ｈ．网页排名：本网页的网页排名和链入网页的网页排名。ｉ．信任排名。ｊ．删减后的网页排名。ｋ．支持者的个数。步骤２）对步骤１...

【技术特征摘要】

【专利技术属性】
技术研发人员：张卫丰，朱丹梅，周国强，张迎周，陆柳敏，许碧娣，刘霞，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：84[中国|南京]

全部详细技术资料下载我是这个专利的主人