【技术实现步骤摘要】
数据存储方法和装置
本申请涉及数据处理领域,具体而言,涉及一种数据存储方法和装置。
技术介绍
爬虫在对网站的页面数据进行爬取时,一般分为两步。第一步是通过网站的目录页面(或者门户页面)得到网站内容页的链接,第二步是根据网站内容页的链接进入网站的内容页面,获得内容页面的数据,并将得到的数据进行存储。目前,现有技术中在爬取到网站中的页面数据之后,通常是将这些数据进行统一存储,这种存储方式比较快捷方便。然而,当需要对网站中某些特定类别的数据进行分析时,例如需要对财经新闻的数据,或体育新闻的数据,或娱乐新闻的数据等分别进行分析,由于无法依据类别来获取相应的数据,导致无法对某些特定类别的数据进行分析。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种数据存储方法和装置,以至少解决现有技术中无法依据类别来获取相应的数据的技术问题。根据本申请实施例的一个方面,提供了一种数据存储方法,包括:爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。进一步地,在爬取所述目标链接所链接到的内容页面的数据内容之前,所述 ...
【技术保护点】
一种数据存储方法,其特征在于,包括:爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。
【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:爬取目标网站的目录页面,从所述目录页面中提取目标链接,其中,所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接,所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类;确定出目标类别,所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。2.根据权利要求1所述的方法,其特征在于,在爬取所述目标链接所链接到的内容页面的数据内容之前,所述方法还包括:建立爬取任务,所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容;建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系包括:在所述爬取任务中添加用于表示所述目标类别的标签;在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储包括:在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后,将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储。3.根据权利要求1所述的方法,其特征在于,确定出目标类别包括:建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系;确定所述目标链接在所述目录页面上所处的目标区域;根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。4.根据权利要求3所述的方法,其特征在于,所述目录页面中划分的区域包括区域Qi,所述目标链接所链接到的内容页面的数据内容分类的类别包括类别Cih,其中,i依次取1至m,m为所述目录页面中划分的区域的数量,1≤h≤ni,ni为所述区域Qi所对应的类别的数量,建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系包括:建立所述区域Qi与所述类别Cih的对应关系;根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别包括:基于所述区域Qi与所述类别Cih的对应关系查找目标区域Qj所对应的目标类别Cj1至目标类别其中,1≤j≤m。5.根据权利要求4所述的方法,其特征在于,所述区域Qi包含链接Li1至链接其中,ki为所述区域Qi包含的所述链接的数量,在爬取到所述目标链接所链接到的内容页面的数据内容之后,依据所述关联关系对爬取到的所述目标链接所链接到...
【专利技术属性】
技术研发人员:杨杰,张祎博,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。