【技术实现步骤摘要】
识别网络资源实体目录页的方法及装置
本专利技术涉及网页识别
,具体涉及识别网络资源实体目录页的方法及装置。
技术介绍
网页浏览器是用于显示网页服务器或档案系统内的文件,并让用户与这些文件互动的一种软件。它可以用来显示在万维网或局域网络内的文字、影像及其他资讯。这些文字或影像,可以是连接到其他网址的超链接,用户可通过点击各种超链接的方式浏览各种资讯。在众多丰富的网络资源中,有一类特殊的网络资源,这种网络资源以集、章、节等为单位,具有连续性,并且会进行周期性的更新。例如,某连续剧,每天更新两集,某漫画,每周更新一集,等等。对于这种网络资源,一般每个具体的实体会对应一个目录页,在这种目录页中,显示出该实体的每一个单位的浏览入口。例如,某实体为名称为“AreaD异能领域”的漫画,则在该漫画的目录页中,会显示有该漫画各个剧集的播放入口,这种播放入口一般以超链接的形式存在,并且以“第1集”、“第2集”等为锚文本,用户可以通过点击某一播放入口,跳转到具体的剧集进行播放。如果该漫画的作者后续对该漫画进行了更新,产生了新的剧集,则会在该漫画的目录页中显示出新的剧集的播放入口。通常,需要用户主动关注并查找目录页的更新,以获取到网络资源的最新内容。为了节省用户的操作成本,有些浏览器或者浏览器插件可以为用户提供网络资源的更新提醒服务,例如,浏览器可以采用后台的方式对某网络资源的更新情况进行监控,如果出现更新,可以将最新网络资源的超链接等提供给用户,用户直接点击该超链接即可获取到网络资源的最新更新内容,以此减少用户的获取资源更新的操作步骤。例如为用户主动提供最新电视剧集,最新 ...
【技术保护点】
一种识别网络资源实体目录页的方法,其特征在于,包括:获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息;根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹;获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页。
【技术特征摘要】
1.一种识别网络资源实体目录页的方法,其特征在于,包括:获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息;根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹;获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页,具体包括:获取同一站点的同一网络资源实体对应的两条以上实体访问轨迹上的多个起点网页;分别统计所述多个起点网页中每个起点网页出现次数,并将出现次数符合预置条件的起点网页,确定为对应特定网络资源实体在对应站点的目录页。2.根据权利要求1所述的方法,其特征在于,所述过程信息包括所述实体资源网页所属的站点,所述实体资源网页的地址,以及点出所述实体资源网页时的引用页的地址;所述根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹,包括:根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集;其中,每个子集中包含同一站点下与同一网络资源实体相关的多个实体资源网页;在同一子集内,根据各个实体资源网页的地址以及所述引用页的地址,还原出用户访问对应站点下对对应网络资源实体的实体访问轨迹;所述获取所述实体访问轨迹上的起点网页地址,包括:在一条所述实体访问轨迹上,对比目标实体资源网页对应的引用页地址与该实体访问轨迹上其他实体资源网页的地址,如果目标实体资源网页对应的引用页地址与任意一个其他实体资源网页的地址相同,则将该实体资源网页确定为实体访问轨迹上的非起点网页,并将该实体资源网页从所述访问轨迹上删除;重复执行上一步骤,直至该实体访问轨迹上不再有任何实体资源网页对应的引用页地址与其他实体资源网页的地址相同;将该实体访问轨迹上剩余的实体资源网页对应的引用页确定为所述实体访问轨迹上的起点网页。3.如权利要求2所述的方法,其特征在于,所述根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集,包括:以预先获取的网络资源实体的实体名,采用最长匹配的方法匹配所述实体资源网页的标题,根据匹配的结果将所述实体资源网页划分为多个子集。4.根据权利要求1所述的方法,其特征在于,还包括:在获取到所述多个起点网页后,判断所述多个起点网页是否与所述同一站点的同一网络资源实体相关,并将不相关的起点网页滤除。5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息,包括:获取用户浏览网页的过程中所点出网页的地址,以及与所点出网页对应的引用页的地址;以预先获取的实体名,和/或实体资源地址,对用户点出网页的地址,以及所述引用页的地址进行过滤,获取用户点出的地址以及所述引用页的地址中与所述实体名,和/或所述实体资源地址相匹配的地址。6.根据权利要求5所述的方法,其特征在于,还包括,预先通过以下方式获取所述实体资源地址:根据已知导航页面中的超链接的超文本标记语言HTML标签代码,提取所述实体资源地址;和/或,从用户的网页收藏夹中获取包含特定关键词的地址作为所述实体资源地址;和/或,判断用户网页收藏夹的目录名称中是否包含特定关键词,若包含则提取目录中的地址作为所述实体资源地址;和/或,获取站点首页的标题中特定关键词的站点地址作为所述实体资源地址。7.根据权利要求5所述的方法,其特征在于,预先通过以下方式获取所述实体名:抓取已知的网络资源实体索引页中超链接的锚文本;对所述锚文本进行降噪过滤,从所述锚文本中提取所述实体名。8.一种识别网络资源实体目录页的装置,其特征在于,包括:过程信息获...
【专利技术属性】
技术研发人员:崔华,肖镜辉,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。