识别网络资源实体目录页的方法及装置制造方法及图纸

技术编号:9718798 阅读:92 留言:0更新日期:2014-02-27 05:34
本发明专利技术公开了识别网络资源实体目录页的方法及装置,其中,所述方法包括:获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息;根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹;获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页。通过本发明专利技术,能够提高识别目录页的可扩展性。

【技术实现步骤摘要】
识别网络资源实体目录页的方法及装置
本专利技术涉及网页识别
,具体涉及识别网络资源实体目录页的方法及装置。
技术介绍
网页浏览器是用于显示网页服务器或档案系统内的文件,并让用户与这些文件互动的一种软件。它可以用来显示在万维网或局域网络内的文字、影像及其他资讯。这些文字或影像,可以是连接到其他网址的超链接,用户可通过点击各种超链接的方式浏览各种资讯。在众多丰富的网络资源中,有一类特殊的网络资源,这种网络资源以集、章、节等为单位,具有连续性,并且会进行周期性的更新。例如,某连续剧,每天更新两集,某漫画,每周更新一集,等等。对于这种网络资源,一般每个具体的实体会对应一个目录页,在这种目录页中,显示出该实体的每一个单位的浏览入口。例如,某实体为名称为“AreaD异能领域”的漫画,则在该漫画的目录页中,会显示有该漫画各个剧集的播放入口,这种播放入口一般以超链接的形式存在,并且以“第1集”、“第2集”等为锚文本,用户可以通过点击某一播放入口,跳转到具体的剧集进行播放。如果该漫画的作者后续对该漫画进行了更新,产生了新的剧集,则会在该漫画的目录页中显示出新的剧集的播放入口。通常,需要用户主动关注并查找目录页的更新,以获取到网络资源的最新内容。为了节省用户的操作成本,有些浏览器或者浏览器插件可以为用户提供网络资源的更新提醒服务,例如,浏览器可以采用后台的方式对某网络资源的更新情况进行监控,如果出现更新,可以将最新网络资源的超链接等提供给用户,用户直接点击该超链接即可获取到网络资源的最新更新内容,以此减少用户的获取资源更新的操作步骤。例如为用户主动提供最新电视剧集,最新漫画章节等。在上述获取网络资源的更新情况的过程中,需要对网络资源实体的目录页的更新情况进行监控,对于用于监控的应用程序而言,如何通过程序自动从众多网页中识别出网络资源实体的目录页,是实现过程中需要解决的技术问题。现有技术中,一般会根据目录页的文本特点对网页中的文本内容进行分析的方式,来识别目录页。例如,目录页中一般包括“第××集”、“第××章”等具有一些规则的文本,因此,通过判断网页的文本内容中是否包含符合这些规则的文本,就可以判断出一个网页是否为某网络资源的目录页。但是,这种文本判断的方式需要预先建立一些规则,如果某网页中的文本不满足预置规则,则会被过滤掉。但是实际上,即使某网页的文本中不满足预置的规则,也可能属于目录页。可见,现有技术的可扩展性比较差。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的识别网络资源实体目录页的方法及装置,能够提高识别目录页的可扩展性。依据本专利技术的一个方面,提供了一种识别网络资源实体目录页的方法,其特征在于,包括:获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息;根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹;获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页。可选地,所述过程信息包括所述实体资源网页所属的站点,所述实体资源网页的地址,以及点出所述实体资源网页时的引用页的地址;所述根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹,包括:根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集;其中,每个子集中包含同一站点下与同一网络资源实体相关的多个实体资源网页;在同一子集内,根据各个实体资源网页的地址以及所述引用页的地址,还原出用户访问对应站点下对对应网络资源实体的实体访问轨迹;所述获取所述实体访问轨迹上的起点网页地址,包括:在一条所述实体访问轨迹上,对比目标实体资源网页对应的引用页地址与该实体访问轨迹上其他实体资源网页的地址,如果目标实体资源网页对应的引用页地址与任意一个其他实体资源网页的地址相同,则将该实体资源网页确定为实体访问轨迹上的非起点网页,并将该实体资源网页从所述访问轨迹上删除;重复执行上一步骤,直至该实体访问轨迹上不再有任何实体资源网页对应的引用页地址与其他实体资源网页的地址相同;将该实体访问轨迹上剩余的实体资源网页对应的引用页确定为所述实体访问轨迹上的起点网页。可选地,所述根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集,包括:以预先获取的网络资源实体的实体名,采用最长匹配的方法匹配所述实体资源网页的标题,根据匹配的结果将所述实体资源网页划分为多个子集。可选地,所述获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页,包括:获取同一站点的同一网络资源实体对应的两条以上实体访问轨迹上的多个起点网页;分别统计所述多个起点网页中每个起点网页出现次数,并将出现次数符合预置条件的起点网页,确定为对应特定网络资源实体在对应站点的目录页。可选地,还包括:在获取到所述多个起点网页后,判断所述多个起点网页是否与所述同一站点的同一网络资源实体相关,并将不相关的起点网页滤除。可选地,所述获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息,包括:获取用户浏览网页的过程中所点出网页的地址,以及与所点出网页对应的引用页的地址;以预先获取的实体名,和/或实体资源地址,对用户点出网页的地址,以及所述引用页的地址进行过滤,获取用户点出的地址以及所述引用页的地址中与所述实体名,和/或所述实体资源地址相匹配的地址。可选地,还包括,预先通过以下方式获取所述实体资源地址:根据已知导航页面中的超链接的超文本标记语言HTML标签代码,提取所述实体资源地址;和/或,从用户的网页收藏夹中获取包含特定关键词的地址作为所述实体资源地址;和/或,判断用户网页收藏夹的目录名称中是否包含特定关键词,若包含则提取目录中的地址作为所述实体资源地址;和/或,获取站点首页的标题中特定关键词的站点地址作为所述实体资源地址。可选地,预先通过以下方式获取所述实体名:抓取已知的网络资源实体索引页中超链接的锚文本;对所述锚文本进行降噪过滤,从所述锚文本中提取所述实体名。根据本专利技术的另一方面,提供了一种识别网络资源实体目录页的装置,其特征在于,包括:过程信息获取单元,用于获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息;访问轨迹还原单元,用于根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹;目录页获取单元,用于获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页。可选地,所述过程信息包括所述实体资源网页所属的站点,所述实体资源网页的地址,以及点出所述实体资源网页时的引用页的地址;所述访问轨迹还原单元,包括:子集划分子单元,用于根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集;其中,每个子集中包含同一站点下与同一网络资源实体相关的多个实体资源网页;访问轨迹还原子单元,用于在同一子集内,根据各个实体资源网页的地址以及所述引用页的地址,还原出用户访问对应站点下对对应网络资源实体的实体访问轨迹;所述目录页获取单元,包括:对比删除子单元,用于在一条所述实体访问轨迹上,对比目本文档来自技高网
...
识别网络资源实体目录页的方法及装置

【技术保护点】
一种识别网络资源实体目录页的方法,其特征在于,包括:获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息;根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹;获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页。

【技术特征摘要】
1.一种识别网络资源实体目录页的方法,其特征在于,包括:获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息;根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹;获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页,具体包括:获取同一站点的同一网络资源实体对应的两条以上实体访问轨迹上的多个起点网页;分别统计所述多个起点网页中每个起点网页出现次数,并将出现次数符合预置条件的起点网页,确定为对应特定网络资源实体在对应站点的目录页。2.根据权利要求1所述的方法,其特征在于,所述过程信息包括所述实体资源网页所属的站点,所述实体资源网页的地址,以及点出所述实体资源网页时的引用页的地址;所述根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹,包括:根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集;其中,每个子集中包含同一站点下与同一网络资源实体相关的多个实体资源网页;在同一子集内,根据各个实体资源网页的地址以及所述引用页的地址,还原出用户访问对应站点下对对应网络资源实体的实体访问轨迹;所述获取所述实体访问轨迹上的起点网页地址,包括:在一条所述实体访问轨迹上,对比目标实体资源网页对应的引用页地址与该实体访问轨迹上其他实体资源网页的地址,如果目标实体资源网页对应的引用页地址与任意一个其他实体资源网页的地址相同,则将该实体资源网页确定为实体访问轨迹上的非起点网页,并将该实体资源网页从所述访问轨迹上删除;重复执行上一步骤,直至该实体访问轨迹上不再有任何实体资源网页对应的引用页地址与其他实体资源网页的地址相同;将该实体访问轨迹上剩余的实体资源网页对应的引用页确定为所述实体访问轨迹上的起点网页。3.如权利要求2所述的方法,其特征在于,所述根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集,包括:以预先获取的网络资源实体的实体名,采用最长匹配的方法匹配所述实体资源网页的标题,根据匹配的结果将所述实体资源网页划分为多个子集。4.根据权利要求1所述的方法,其特征在于,还包括:在获取到所述多个起点网页后,判断所述多个起点网页是否与所述同一站点的同一网络资源实体相关,并将不相关的起点网页滤除。5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息,包括:获取用户浏览网页的过程中所点出网页的地址,以及与所点出网页对应的引用页的地址;以预先获取的实体名,和/或实体资源地址,对用户点出网页的地址,以及所述引用页的地址进行过滤,获取用户点出的地址以及所述引用页的地址中与所述实体名,和/或所述实体资源地址相匹配的地址。6.根据权利要求5所述的方法,其特征在于,还包括,预先通过以下方式获取所述实体资源地址:根据已知导航页面中的超链接的超文本标记语言HTML标签代码,提取所述实体资源地址;和/或,从用户的网页收藏夹中获取包含特定关键词的地址作为所述实体资源地址;和/或,判断用户网页收藏夹的目录名称中是否包含特定关键词,若包含则提取目录中的地址作为所述实体资源地址;和/或,获取站点首页的标题中特定关键词的站点地址作为所述实体资源地址。7.根据权利要求5所述的方法,其特征在于,预先通过以下方式获取所述实体名:抓取已知的网络资源实体索引页中超链接的锚文本;对所述锚文本进行降噪过滤,从所述锚文本中提取所述实体名。8.一种识别网络资源实体目录页的装置,其特征在于,包括:过程信息获...

【专利技术属性】
技术研发人员:崔华肖镜辉
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1