数据存储方法和装置制造方法及图纸

技术编号:15616969 阅读:185 留言:0更新日期:2017-06-14 03:36
本申请公开了一种数据存储方法和装置。其中,该方法包括:爬取目标网站的目录页面,从目录页面中提取目标链接,其中,目标链接为在目录页面上用于链接到目标网站的内容页面的链接,目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类;确定出目标类别,目标类别为目标链接所链接到的内容页面的数据内容的类别;建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系;在爬取到目标链接所链接到的内容页面的数据内容之后,依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。本申请解决了现有技术中无法依据类别来获取相应的数据的技术问题。

【技术实现步骤摘要】
数据存储方法和装置
本申请涉及数据处理领域,具体而言,涉及一种数据存储方法和装置。
技术介绍
爬虫在对网站的页面数据进行爬取时,一般分为两步。第一步是通过网站的目录页面(或者门户页面)得到网站内容页的链接,第二步是根据网站内容页的链接进入网站的内容页面,获得内容页面的数据,并将得到的数据进行存储。目前,现有技术中在爬取到网站中的页面数据之后,通常是将这些数据进行统一存储,这种存储方式比较快捷方便。然而,当需要对网站中某些特定类别的数据进行分析时,例如需要对财经新闻的数据,或体育新闻的数据,或娱乐新闻的数据等分别进行分析,由于无法依据类别来获取相应的数据,导致无法对某些特定类别的数据进行分析。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种数据存储方法和装置,以至少解决现有技术中无法依据类别来获取相应的数据的技术问题。根据本申请实施例的一个方面,提供了一种数据存储方法,包括:爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。进一步地,在爬取所述目标链接所链接到的内容页面的数据内容之前,所述方法还包括:建立爬取任务,所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系包括:在所述爬取任务中添加用于表示所述目标类别的标签;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储包括:在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后,将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储。进一步地,确定出目标类别包括:建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系;确定所述目标链接在所述目录页面上所处的目标区域;根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。进一步地,所述目录页面中划分的区域包括区域Qi,所述目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为所述目录页面中划分的区域的数量,1≤h≤ni,ni为所述区域Qi所对应的类别的数量,建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系包括:建立所述区域Qi与所述类别Cih的对应关系;根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别包括:基于所述区域Qi与所述类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别,其中,1≤j≤m。进一步地,所述区域Qi包含链接Li1至链接,其中,ki为所述区域Qi包含的所述链接的数量,在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储还包括:将爬取目标链接Lij所链接到的内容页面的数据内容和目标类别Ci1至目标类别对应进行存储。根据本申请实施例的另一方面,还提供了一种数据存储装置,包括:爬取单元,用于爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;确定单元,用于确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;第一建立单元,用于建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系;存储单元,用于在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。进一步地,所述装置还包括:第二建立单元,用于在爬取所述目标链接所链接到的内容页面的数据内容之前,建立爬取任务,所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容;所述第一建立单元包括:添加子单元,用于在所述爬取任务中添加用于表示所述目标类别的标签;所述存储单元包括:第一存储子单元,用于在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后,将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储。进一步地,所述确定单元包括:建立子单元,用于建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系;第一确定子单元,用于确定所述目标链接在所述目录页面上所处的目标区域;第二确定子单元,用于根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。进一步地,所述目录页面中划分的区域包括区域Qi,所述目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为所述目录页面中划分的区域的数量,1≤h≤ni,ni为所述区域Qi所对应的类别的数量,所述建立子单元包括:建立模块,用于建立所述区域Qi与所述类别Cih的对应关系;所述第二确定子单元包括:查找模块,用于基于所述区域Qi与所述类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别,其中,1≤j≤m。进一步地,所述区域Qi包含链接Li1至链接,其中,ki为所述区域Qi包含的所述链接的数量,所述存储单元还包括:第二存储子单元,用于将爬取目标链接Lij所链接到的内容页面的数据内容和目标类别Ci1至目标类别对应进行存储。在本申请实施例中,采用爬取目标网站的目录页面,从目录页面中提取目标链接,其中,目标链接为在目录页面上用于链接到目标网站的内容页面的链接,目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类;确定出目标类别,目标类别为目标链接所链接到的内容页面的数据内容的类别;建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系;在爬取到目标链接所链接到的内容页面的数据内容之后,依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。通过找出目录页面上的链接所链接到的内容页面的数据内容的类别,将链接所链接到的内容页面的数据内容与该链接所链接到的内容页面的数据内容的类别对应进行存储,实现了将数据内容及该数据内容分类的类别对应存储的技术效果,进而解决了现有技术中无法依据类别来获取相应的数据的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施本文档来自技高网...
数据存储方法和装置

【技术保护点】
一种数据存储方法,其特征在于,包括:爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。

【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。2.根据权利要求1所述的方法,其特征在于,在爬取所述目标链接所链接到的内容页面的数据内容之前,所述方法还包括:建立爬取任务,所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系包括:在所述爬取任务中添加用于表示所述目标类别的标签;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储包括:在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后,将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储。3.根据权利要求1所述的方法,其特征在于,确定出目标类别包括:建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系;确定所述目标链接在所述目录页面上所处的目标区域;根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。4.根据权利要求3所述的方法,其特征在于,所述目录页面中划分的区域包括区域Qi,所述目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为所述目录页面中划分的区域的数量,1≤h≤ni,ni为所述区域Qi所对应的类别的数量,建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系包括:建立所述区域Qi与所述类别Cih的对应关系;根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别包括:基于所述区域Qi与所述类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别其中,1≤j≤m。5.根据权利要求4所述的方法,其特征在于,所述区域Qi包含链接Li1至链接其中,ki为所述区域Qi包含的所述链接的数量,在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到...

【专利技术属性】
技术研发人员:杨杰张祎博
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1