【技术实现步骤摘要】
本专利技术一般地涉及信息获取或信息提取,尤其是网页搜索或网页挖掘,具体而言,本专利技术涉及采用网页的导航路径集合作为上下文信息来进行主题相关的网页过滤的方法和系统。
技术介绍
随着因特网上电子信息的不断增多,在Web上积累了大量多样化的信息,并且这种积累仍在以令人吃惊的速度快速增长。因此,帮助网民从大量信息中找到有用信息是一项很有挑战性的任务。信息获取(information retrieval,IR)是一种在文件集合中搜索信息的技术,它可被进一步划分成以下几类:搜索包含在文件中的一段信息;搜索文件本身;搜索描述文件的元数据(metadata);或者在数据库中搜索文本、声音、图像或数据。信息提取(information extraction,IE)是IR技术中的一种,其目标在于从非结构化的机器可读文件中自动提取结构化或半结构化的信息。Web搜索引擎(例如Google和百度)是一种文件获取系统,其被专门设计以用于帮助用户找到存储在Web上的信息,这允许用户寻找满足特定条件的内容(通常是包含给定词或短语的内容)并且得到匹配这些条件的项目列表。最近,一种新的Web搜索引擎,即垂直搜索引擎,在Web上变得越来越流行。其利用某些信息提取或Web挖掘技术从高度细化的数据库或网站中提取出关于特定主题的结构化信息,从而向对特定领域感兴趣的用户提供更精确和更有价值的信息。在所有这些信息获取或信息提取技术中,无论对于一般(或垂直)搜索引擎还是特定的Web挖掘系统,网页过滤都起着非常重要的作用。从技术上讲,网页过滤的过程主要分成两个步骤:首先,针对特定过滤目的,选择适当并且有 ...
【技术保护点】
一种网页过滤方法,该方法包括以下步骤: 获取一个或多个网页集合中的所有网页; 收集所述所有网页之间的链接关系; 基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及 基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。
【技术特征摘要】
1.一种网页过滤方法,该方法包括以下步骤:获取一个或多个网页集合中的所有网页;收集所述所有网页之间的链接关系;基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。2.如权利要求1所述的网页过滤方法,还包括:在提取出所述导航路径集合之后,利用所述获取的每个网页对所述提取出的导航路径集合进行索引;以及基于所述经索引的导航路径集合对所述所有网页进行过滤。3.如权利要求1所述的网页过滤方法,还包括:收集各个所述网页集合的目录结构;以及根据所述目录结构从相应网页集合的链接关系中删除掉所有非导航链接以获得导航链接集合,并且基于所述导航链接集合提取出每个所述网页的所述导航路径集合。4.如权利要求3所述的网页过滤方法,其中所述非导航链接是以下三种链接中的至少一种:所述目录结构上由子指向父的链接;所述目录结构上的同一层次上的所有兄弟网页指向同一网页的链接;以及所述目录结构上同一语义块中的所有网页指向同一网页的链接。5.如权利要求3所述的网页过滤方法,其中提取所述导航路径集合包括:a.从所述获取的所有网页中选择一个网页;b.建立所述网页所属网页集合的网页队列并以该网页集合的索引页作为源网页;并且c.从所述源网页开始,针对该网页的每条导航链接:如果该导航链接指向的网页与所述网页处于同一网页集合,则将对应于该导航链接的锚文本和该导航链接指向的网页的标题添加到所述网页的导航路径,并将该导航链接指向的网页添加到所述网页所属网页集合的网页队列并返回步骤c考虑所述网页的下一导航链接;否则如果该导航链接指向的网页与所述网页处于不同的网页集合,则将对应于该导航链接的锚文本和该导航链接指向的网页的标题添加到所述网页的导航路径,并且返回步骤b以建立该导航链接指向的网页所属网页集合的网页队列并以该网页集合的索引页作为源网页继续步骤c的处理。6.如权利要求1所述的网页过滤方法,其中提取所述导航路径集合包括:a.从所述获取的所有网页中选择一个网页;b.建立所述网页所属网页集合的网页队列并以该网页集合的索引页作为源网页;并且c.从所述源网页开始,针对该网页的每条链接:如果该链接指向的网页与所述网页处于同一网页集合,则判断该链接指向的网页是否已存在于该网页集合的网页队列中,如果否,则将对应于该链接的锚文本和该链接指向的网页的标题添加到所述网页的导航路径,并将该链接指向的网页添加到所述网页所属网页集合的网页队列,如果是,则返回步骤c考虑所述网页的下一链接;否则如果该链接指向的网页与所述网页处于不同的网页集合,则将对应于该链接的锚文本和该链接指向的网页的标题添加到所述网页的导航路径,并且返回步骤b以建立该链接指向的网页所属网页集合的网页队列并以该网页集合的索引页作为源网页继续步骤c的处理。7.如权利要求1所述的网页过滤方法,其中所述网页过滤是主题相关的过滤,所述方法还包括:在所述提取之后输入预定主题;并且基于所述导航路径集合,根据所述预定主题对所述获取的所有网页进行过滤以得到所述所需网页。8.如权利要求1所述的网页过滤方法,其中所述网页过滤是主题相关的过滤,所述方法还包括:在所述提取之前输入预定主题;根据所述预定主题对所述获取的所有网页执行主题相关的预过滤;提取出所述经预过滤的网页的导航路径集合;并且基于所述导航路径集合,根据所述预定主题对所述经预过滤的网页进行过滤以得到所述所需网页。9.如权利要求7或8所述的网页过滤方法,其中执行所述主题相关的过滤包括:根据所述预定主题选择相关本体术语和无关本体术语;根据所述相关本体术语和无关本体术语来判断网页是否是明确主题相关页和明确主题无关页;保存所述明确主题相关页作为所述所需网页,并且丢弃所述明确主题无关页;并且对于既不属于所述明确主题相关页也不属于所述明确主题无关页的网页:如果该网页无法经由任意导航路径从任意所述明确主题相关页被导航到,则丢弃该网页,否则将该网页视为候选网页;如果所述候选网页与任意所述具有明确主题相关页之间的距离小于预定阈值,则保存该网页作为所述所需网页,否则将该网页视为未决网页;如果所述未决网页可以通过任意导航路径从任意所述明确主题无关页被导航到,则丢弃该网页,否则保存该网页作为所述所需网页。10.如权利要求1所述的网页过滤方法,其中所述网页集合是域、子域或目录。11.一种基于网页的导航路径集合的网页过滤方法,其中所述导航路径是由在从顶端网页到目标网页的路径上的网页的标题、锚文本、URL的组合构成的列表,该方法包括以下步骤:获取一个或多个网页集合中的所有网页;收集所述所有网页之间的链接关系;基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。12.一种网页过滤系统,包括:网页获取装置,用于获取一个或多个网页集合中的所有网页;链接关系收集装置,用于收集所述所有网页之间的链接关系;导航路径提取装置,用于基于所述链接关系提取出所述获取的所有网页的导航路径集合;以及网页过滤装置,用于基于所...
【专利技术属性】
技术研发人员:李建强,赵彧,
申请(专利权)人:日电中国有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。