基于导航路径信息的主题相关网页过滤方法和系统技术方案

技术编号:3543594 阅读:240 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种基于导航路径信息的主题相关网页过滤方法和系统。所述方法包括:获取一个或多个网页集合中的所有网页;收集所述所有网页之间的链接关系;基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。在一些实施例中,导航路径的提取优选地是针对网页之间的导航链接进行的,因此本发明专利技术还可以包括从所有链接关系中删除掉非导航链接的过程。相比现有技术,本发明专利技术可以更充分地利用网页之间的上下文信息来进行网页过滤,从而提高网页过滤的精确性和客观性。

【技术实现步骤摘要】

本专利技术一般地涉及信息获取或信息提取,尤其是网页搜索或网页挖掘,具体而言,本专利技术涉及采用网页的导航路径集合作为上下文信息来进行主题相关的网页过滤的方法和系统。
技术介绍
随着因特网上电子信息的不断增多,在Web上积累了大量多样化的信息,并且这种积累仍在以令人吃惊的速度快速增长。因此,帮助网民从大量信息中找到有用信息是一项很有挑战性的任务。信息获取(information retrieval,IR)是一种在文件集合中搜索信息的技术,它可被进一步划分成以下几类:搜索包含在文件中的一段信息;搜索文件本身;搜索描述文件的元数据(metadata);或者在数据库中搜索文本、声音、图像或数据。信息提取(information extraction,IE)是IR技术中的一种,其目标在于从非结构化的机器可读文件中自动提取结构化或半结构化的信息。Web搜索引擎(例如Google和百度)是一种文件获取系统,其被专门设计以用于帮助用户找到存储在Web上的信息,这允许用户寻找满足特定条件的内容(通常是包含给定词或短语的内容)并且得到匹配这些条件的项目列表。最近,一种新的Web搜索引擎,即垂直搜索引擎,在Web上变得越来越流行。其利用某些信息提取或Web挖掘技术从高度细化的数据库或网站中提取出关于特定主题的结构化信息,从而向对特定领域感兴趣的用户提供更精确和更有价值的信息。在所有这些信息获取或信息提取技术中,无论对于一般(或垂直)搜索引擎还是特定的Web挖掘系统,网页过滤都起着非常重要的作用。从技术上讲,网页过滤的过程主要分成两个步骤:首先,针对特定过滤目的,选择适当并且有效的网页特征;然后,基于这些所选特征来建模-->过滤机制。从所选特征的角度来看,现有的网页过滤方案被粗略分成四类,即基于内容的过滤、基于网页类型的过滤、基于链接的过滤和基于扩展锚(anchor)的过滤。下面将对这四类过滤方法作简单介绍。基于内容的过滤:这种方法是依赖于查询的算法,即其无论何时提交查询,都分别给每个Web网页一个相似性得分。其基本思想是这样的:出现在网页中的单词被用于获取相关网页,即给那些在文件中较早出现查询项或者以大字体或黑体形式出现查询项的网页赋予较高得分。然后,基于向量空间模型(VSM),可以通过计算夹角余弦来计算该网页和相应查询之间的相似性,并根据相似性得分来实现相关网页过滤。基于网页类型的过滤:考虑到大多数因特网用户可以通过查看网页来识别该网页所属的文件类型,因此可以得出这样的结论,即人们不仅可以基于网页内容,还可以基于其各种格式和设计信息来评价网页。鉴于此,网页的内容和其结构化特征被一起提供到基于规则的分类器以进行网页类型分类。基本的结构化特征包括内嵌的图像的大小和数目、链接的种类和数目、URL串等等。基于相似网页的内部特征(例如锚文本、关键字、标题、URL等等),可以采用基于机器学习的方法来进行网页分类。基于链接的过滤:由于Web是一个超级链接的集合,因此除了各个网页的文本内容之外,这些集合的链接结构也可能包含网页过滤所需的有用信息。基于模拟网络浏览用户的随机浏览模型,一种基于链接结构的方法被用于网页的重要度排名。其利用Web的链接结构来计算每个网页的质量排名(quality ranking),这种质量排名被称为PageRank得分。由于网页的排名得分是根据网页在Web的链接结构中的位置单独确定的,因此其与查询无关并且可以在查询之前被计算出。最后,来自基于内容的方法和基于链接的方法的排名值被合并,以得到最终的相似性得分。基于扩展锚的过滤:当采用Web的超级链接结构进行网页过滤时,出现在链接上的文本,即锚文本也可以被用于网页排名。锚文本不仅与链接所在的网页有关,还与链接指向的网页有关。尤其针对第二种情况,锚文本通常比网页本身提供更精确的网页描述。而且其有助于搜索非文本信息,从而将搜索覆盖扩展到例如图像、程序和数据库。因此,基于扩展锚-->的网页过滤方法被提出。首先,出现在网页中并且将Web浏览器从主页导航到每个目标网页的所有锚文本都被收集,以建立扩展的锚列表。然后,出现在扩展锚列表中的关键字被用于目标网页过滤。但是,现有的网页过滤方案具有缺陷。首先,基于内容、网页类型和链接方法所采用的信息获取模型将每个网页看作一个独立文件,即基于单页执行索引和排名,这意味着返回的网页必须包括查询中的所有关键字。它们忽略了网页的内部内容通常不是自包含的这一事实。由于这些技术方案的索引功能基于网页的内部内容来单独地索引网页,因此从这种受限的内容中生成的网页过滤结果的质量往往无法令人满意。通常,在用户进行Web导航的过程中,特定网页的上下文信息(例如该网页所在的域(domain)、目录以及从其它网页到该网页的导航超级链接)处于用户的思维内并且提供了关于网页内容的重要指示。但是,在现有技术中,这种上下文信息没有得到充分利用。基于内容的方法将Web作为传统的文件库来处理,因此Web和网页的特殊特性(例如上下文信息)没有被用于网页过滤。网页的文本内容对于高度精确的网页过滤而言是不足够的。对于基于网页类型的方法,虽然它利用了网页的某些结构化特性来进行网页过滤,但是Web中的超级链接信息未被考虑在内。由于超级链接集合的链接结构通常反映了用户关于目标网页的暗示推荐,因此它应该有助于提高网页过滤结果的质量。虽然Web中的超级链接信息在基于链接和基于扩展锚的方法中有被用到,但是这种利用并不充分。对于基于链接的方法,假设用户对链接的点击是随机的,但是实际上这种点击可能不是随机的。另一方面,用户可以利用锚文本来导航它们的Web浏览,通常出现在导航路径中的锚文本能够提供关于目的地网页的重要指示。但是,在基于扩展锚的方法中,只有锚文本信息在网页过滤中被考虑到,网页标题中的文本、URL文本,甚至网页所属的域都没有涉及。然而,这些未被涉及的项目通常也提供了关于网页内容的重要指示,因此对于网页过滤也是十分重要的。-->
技术实现思路
鉴于上述问题,作出了本专利技术。本专利技术的网页过滤方法和系统可以解决现有技术中存在的技术问题,提高网页过滤结果的质量。根据本专利技术的一个方面,提供了一种网页过滤方法,该方法包括:获取一个或多个网页集合中的所有网页;收集所述所有网页之间的链接关系;基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。其中,所述导航路径是由网页标题、锚文本、URL的组合、网页内容以及域名构成的列表。在某些实施例中,所述网页集合可以是域、子域或目录。优选地,为了实现更加精确而有效的网页过滤,导航路径集合可以仅针对网页之间的导航链接而非所有链接来提取,因此在某些实施例中,在提取导航路径集合之前或者在其过程中需要对链接集合进行过滤以得到导航链接,然后再基于过滤出的导航链接获得所需导航路径集合。并且优选地,所述网页过滤可以是基于主题的过滤。根据本专利技术的另一方面,提供了一种网页过滤系统,该系统包括:网页获取装置,用于获取一个或多个网页集合中的所有网页;链接关系收集装置,用于收集所述所有网页之间的链接关系;导航路径提取装置,用于基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及网页过滤装置,用于基于所述本文档来自技高网
...

【技术保护点】
一种网页过滤方法,该方法包括以下步骤: 获取一个或多个网页集合中的所有网页; 收集所述所有网页之间的链接关系; 基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及 基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。

【技术特征摘要】
1.一种网页过滤方法,该方法包括以下步骤:获取一个或多个网页集合中的所有网页;收集所述所有网页之间的链接关系;基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。2.如权利要求1所述的网页过滤方法,还包括:在提取出所述导航路径集合之后,利用所述获取的每个网页对所述提取出的导航路径集合进行索引;以及基于所述经索引的导航路径集合对所述所有网页进行过滤。3.如权利要求1所述的网页过滤方法,还包括:收集各个所述网页集合的目录结构;以及根据所述目录结构从相应网页集合的链接关系中删除掉所有非导航链接以获得导航链接集合,并且基于所述导航链接集合提取出每个所述网页的所述导航路径集合。4.如权利要求3所述的网页过滤方法,其中所述非导航链接是以下三种链接中的至少一种:所述目录结构上由子指向父的链接;所述目录结构上的同一层次上的所有兄弟网页指向同一网页的链接;以及所述目录结构上同一语义块中的所有网页指向同一网页的链接。5.如权利要求3所述的网页过滤方法,其中提取所述导航路径集合包括:a.从所述获取的所有网页中选择一个网页;b.建立所述网页所属网页集合的网页队列并以该网页集合的索引页作为源网页;并且c.从所述源网页开始,针对该网页的每条导航链接:如果该导航链接指向的网页与所述网页处于同一网页集合,则将对应于该导航链接的锚文本和该导航链接指向的网页的标题添加到所述网页的导航路径,并将该导航链接指向的网页添加到所述网页所属网页集合的网页队列并返回步骤c考虑所述网页的下一导航链接;否则如果该导航链接指向的网页与所述网页处于不同的网页集合,则将对应于该导航链接的锚文本和该导航链接指向的网页的标题添加到所述网页的导航路径,并且返回步骤b以建立该导航链接指向的网页所属网页集合的网页队列并以该网页集合的索引页作为源网页继续步骤c的处理。6.如权利要求1所述的网页过滤方法,其中提取所述导航路径集合包括:a.从所述获取的所有网页中选择一个网页;b.建立所述网页所属网页集合的网页队列并以该网页集合的索引页作为源网页;并且c.从所述源网页开始,针对该网页的每条链接:如果该链接指向的网页与所述网页处于同一网页集合,则判断该链接指向的网页是否已存在于该网页集合的网页队列中,如果否,则将对应于该链接的锚文本和该链接指向的网页的标题添加到所述网页的导航路径,并将该链接指向的网页添加到所述网页所属网页集合的网页队列,如果是,则返回步骤c考虑所述网页的下一链接;否则如果该链接指向的网页与所述网页处于不同的网页集合,则将对应于该链接的锚文本和该链接指向的网页的标题添加到所述网页的导航路径,并且返回步骤b以建立该链接指向的网页所属网页集合的网页队列并以该网页集合的索引页作为源网页继续步骤c的处理。7.如权利要求1所述的网页过滤方法,其中所述网页过滤是主题相关的过滤,所述方法还包括:在所述提取之后输入预定主题;并且基于所述导航路径集合,根据所述预定主题对所述获取的所有网页进行过滤以得到所述所需网页。8.如权利要求1所述的网页过滤方法,其中所述网页过滤是主题相关的过滤,所述方法还包括:在所述提取之前输入预定主题;根据所述预定主题对所述获取的所有网页执行主题相关的预过滤;提取出所述经预过滤的网页的导航路径集合;并且基于所述导航路径集合,根据所述预定主题对所述经预过滤的网页进行过滤以得到所述所需网页。9.如权利要求7或8所述的网页过滤方法,其中执行所述主题相关的过滤包括:根据所述预定主题选择相关本体术语和无关本体术语;根据所述相关本体术语和无关本体术语来判断网页是否是明确主题相关页和明确主题无关页;保存所述明确主题相关页作为所述所需网页,并且丢弃所述明确主题无关页;并且对于既不属于所述明确主题相关页也不属于所述明确主题无关页的网页:如果该网页无法经由任意导航路径从任意所述明确主题相关页被导航到,则丢弃该网页,否则将该网页视为候选网页;如果所述候选网页与任意所述具有明确主题相关页之间的距离小于预定阈值,则保存该网页作为所述所需网页,否则将该网页视为未决网页;如果所述未决网页可以通过任意导航路径从任意所述明确主题无关页被导航到,则丢弃该网页,否则保存该网页作为所述所需网页。10.如权利要求1所述的网页过滤方法,其中所述网页集合是域、子域或目录。11.一种基于网页的导航路径集合的网页过滤方法,其中所述导航路径是由在从顶端网页到目标网页的路径上的网页的标题、锚文本、URL的组合构成的列表,该方法包括以下步骤:获取一个或多个网页集合中的所有网页;收集所述所有网页之间的链接关系;基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。12.一种网页过滤系统,包括:网页获取装置,用于获取一个或多个网页集合中的所有网页;链接关系收集装置,用于收集所述所有网页之间的链接关系;导航路径提取装置,用于基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及网页过滤装置,用于基于所...

【专利技术属性】
技术研发人员:李建强赵彧
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1