网页信息处理的方法及装置制造方法及图纸

技术编号:9865808 阅读:108 留言:0更新日期:2014-04-03 00:55
本发明专利技术提供一种网页信息处理方法及装置,涉及互联网技术领域。方法包括:获取属于同一类型网站中的多个网页;分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。采用本发明专利技术的方案,可以加快网页显示速度,减小网络系统负荷,节约网络资源消耗。

【技术实现步骤摘要】
网页信息处理的方法及装置
本专利技术涉及互联网
,特别是指一种网页信息处理的方法及装置。
技术介绍
互联网的网页成千上万,每个网页含有丰富的信息,大致分为两类信息,文本信息和URL链接信息(URL,统一资料定位符,Uniform/Universal Resource Locator的缩写,是因特网上标准的资源的地址)。文本信息是网页展现给用户浏览的,而URL链接信息是用户点击跳转到其他网页的,同时也是搜索引擎采集系统发现其他网页的最重要方式之一,这些URL有些是有用的,有些则是垃圾和无意义的信息,如广告链接。目前搜索引擎的网页采集系统并没有对这些链接信息进行区分,不仅增加了网页采集分析系统的压力,而且使大量的无意义和垃圾信息进入到搜索引擎系统。现有方案存在以下缺点:1.对采集下来的网页没有进行进一步细分,导致存储和索引冗余,增加了系统存储负荷。2.对网页的链接信息并没有进行分类,采集系统需要把一个网页包含的全部URL都进行采集,不仅消耗了网络带宽资源,而且采集了大量垃圾和无意义信息,增加了系统存储负荷。
技术实现思路
本专利技术要解决的技术问题是提供一种网页信息处理的方法及装置,通过本方案可以加快网页显示速度,减小网络系统负荷,节约网络资源消耗。为解决上述技术问题,本专利技术提供的技术方案如下:根据本专利技术的一方面,提出了一种网页信息处理的方法,包括:获取属于同一类型网站中的多个网页;分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。其中,分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块的步骤包括:分别对所述多个网页进行解析,获取多个网页结构元素;在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块;在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。其中,存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块后还包括:对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。其中,上述方法还包括:根据所述第一标记获得所述第一类网页区块的内容;根据所述第二标记获得所述第二类网页区块的内容;将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。其中,上述方法还包括:丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其他区块。根据本专利技术的另一方面,还提出了一种网页信息处理的装置,包括:获取模块,用于获取属于同一类型网站中的多个网页;处理模块,用于分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;存储模块,用于存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。其中,所述处理模块包括:解析单元,用于分别对所述多个网页进行解析,获取多个网页结构元素;第一查找单元,用于在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块;第二查找单元,用于在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。其中,上述装置还包括:设置模块,用于对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。其中,上述装置还包括:拼接模块,用于通过设置模块,所述第一标记获得所述第一类网页区块的内容,根据所述第二标记获得所述第二类网页区块的内容,将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。其中,所述处理模块还用于:丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其他区块。本专利技术的上述方案,通过对网页进行区块划分,多个网页相同的网页结构元素,不分别进行保存,只保存其中一个网页的该相同的网页结构元素,即对多个网页相同的网页结构元素只进行一次保存,可以减小网络系统负荷。进一步地,丢弃了没有意义及垃圾的网页结构元素,从而节约网络资源消耗。进一步地,网页拼接时,根据相应的标记信息获取第一类网页区块和第二类网页区块,并将所述第一类网页区块和第二类网页区块进行拼接即可显示,加快了网页显示速度。【附图说明】图1为本专利技术实施例1的网页信息处理方法的流程图;图2为本专利技术实施例1的网页分块处理的流程图;图3为本专利技术实施例1的网页分块处理时的DOM树分析流程图;图4为本专利技术实施例1的网页分块处理的流程图;图5为本专利技术实施例2的网页信息处理装置结构图。【具体实施方式】为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对具体实施例进行详细描述。实施例1如图1所示,本专利技术的实施例提供一种网页信息处理方法,包括如下步骤:步骤11,获取属于同一类型网站中的多个网页;步骤12,分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;步骤13,存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。本专利技术的上述实施例通过对网页进行区块划分,多个网页相同的网页结构元素,不分别进行保存,只保存其中一个网页的该相同的网页结构元素,即对多个网页相同的网页结构元素只进行一次保存,可以减小网络系统负荷。本专利技术的上述实施例中,步骤12可以包括:步骤121,分别对所述多个网页进行解析,获取多个网页结构元素;步骤122,在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块;步骤123,在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。进一步地,步骤13后还可以包括:步骤14,对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。相应的,上述步骤14后还可以包括:步骤15,根据所述第一标记获得所述第一类网页区块的内容;步骤16,根据所述第二标记获得所述第二类网页区块的内容;步骤17,将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。进一步地,还包括:丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其他区块。以减小系统负荷和节约存储资本文档来自技高网...

【技术保护点】
一种网页信息处理的方法,其特征在于,包括:获取属于同一类型网站中的多个网页;分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。

【技术特征摘要】
1.一种网页信息处理的方法,其特征在于,包括: 获取属于同一类型网站中的多个网页; 分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素; 存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。2.根据权利要求1所述的网页信息处理的方法,其特征在于,分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块的步骤包括: 分别对所述多个网页进行解析,获取多个网页结构元素; 在所述多个网页结构中,查找多个网页的相同的网页结构元素,并从中获取一个网页的所述网页结构元素作为所述第一类网页区块; 在所述多个网页结构中,查找多个网页的网页正文部分对应的网页结构元素,并分别获取各个网页的网页正文部分分别对应的网页结构元素作为所述第二类网页区块。3.根据权利要求1所述的网页信息处理的方法,其特征在于,存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块后还包括: 对所述第一类网页区块设置第一标记,并分别对各个网页的正文部分对应的第二类网页区块设置第二标记。4.根据权利要求3所述的网页信息处理的方法,其特征在于,还包括: 根据所述第一标记获得所述第一`类网页区块的内容; 根据所述第二标记获得所述第二类网页区块的内容; 将所述第二类网页区块的内容和所述第一类网页区块的内容进行拼接,形成网页快照。5.根据权利要求1一 4任一项所述的网页信息处理的方法,其特征在于,还包括: 丢弃对所述多个网页进行分块处理时得到的除所述第一类网页区块和所述第二类网页区块以外的其...

【专利技术属性】
技术研发人员:胡珉钱岭孙少陵
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1