一种基于重做日志的分布式商品信息爬虫方法技术

技术编号：14015993 阅读：129 留言：0更新日期：2016-11-18 01:03

本发明专利技术公开了一种基于重做日志的分布式商品信息爬虫方法，包括：从数据库中读取配置来生成爬虫任务，定义三种爬虫的重做日志记录格式，执行商品搜索爬虫，在电商网站的搜索结果页中提取商品列表并生成商品信息任务和商品评论任务；把商品信息任务和商品评论任务再分配到各个服务器上，执行商品信息爬虫采集并保存商品的各种属性数据，执行商品评论爬虫采集并保存商品的评论数据；重做日志会记录采集失败的任务和状态；定时从重做日志中取出日志，反序列化为爬虫任务进行重新爬取。本发明专利技术的基于重做日志的分布式商品信息爬虫方法，能够针对电商网站的商品数据和评论数据的爬取，有效地提高数据采集的效率和完善性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网领域，具体涉及一种基于重做日志的分布式商品信息爬虫方法。
技术介绍
近十年来，随着互联网Web 2.0的快速发展，特别是移动互联网的兴起，国内出现了大量的移动应用和电商网站。人们可以很便捷地通过计算机、智能手机、平板电脑等途径对商品或商铺进行评价。而对这些海量的产品评论进行处理和挖掘，可以获取很多有价值的信息。对于商家而言，他们可以利用这些信息来获取自己与竞争对手的产品情况，并指导改进产品的质量和服务水平，从而在激烈的竞争中占据优势，而对于用户而言，用户可以通过这些信息更加方便地了解各种产品的优缺点，决定是否购买。但是，随着时间的推移，互联网上商品或商铺评论数目会不断增加，一个商品可能有成千上万的评论。即使平台本身会对用户评论中的评分进行汇总，用户还是要花一定时间和精力去浏览各种品牌商品的几十页评论，才能得出同类产品的客观评价。另一方面，商家依靠人工归纳汇总，也难以在短时间内在大量的评论里获取有价值的信息。一个商家通常会在各个平台上架自己的产品，而各个平台的数据本身是独立的，商家也很难通过人工的方式汇总各个平台的评论数据，从而难以基于大量的数据进行有效分析。现在的网络爬虫主要有两类：通用爬虫和定向爬虫。通用爬虫主要用于互联网搜索引擎采集网站的数据，一般是提供URL种子进行采集，再在采集的网页中获取新的URL，不断迭代采集，但是这种方法不适用于商品信息爬虫。定向爬虫，主要用于采集定向的数据。一般是根据一定的规则获取一些URL，例如通过电商网站本身的搜索引擎和关键字来获取搜索结果和URL，然后再对这些URL进行采集并解析数据成结构化数据。...
一种基于重做日志的分布式商品信息爬虫方法

【技术保护点】
一种基于重做日志的分布式商品信息爬虫方法，其特征在于，包括：通过配置任务数据库调度定向采集爬虫，读取配置任务得到多个商品搜索爬虫任务，定义搜索爬虫重做日记记录格式、商品信息爬虫重做日志记录格式及商品评论重做日志记录格式；将多个商品搜索爬虫任务分配到各台服务器上执行，通过爬取电商网站本身的搜索引擎搜索关键字得到的商品列表，进一步获得商品信息爬虫任务及商品评价爬虫任务；服务器执行商品信息爬虫任务及商品评价爬虫任务，获取多个商品的主页URL，通过这些URL爬取页面上的商品属性和商品的评论数据；使用重做日志实时记录当前服务器在执行商品搜索爬虫任务、商品信息爬虫任务及商品评价爬虫任务时，由于网络请求失败而导致不完整的中间结果、爬虫所需要的数据上下文、日志类型、任务ID；通过定时启动重做任务读取日志记录，重新执行之前失败的爬虫任务。

【技术特征摘要】
1.一种基于重做日志的分布式商品信息爬虫方法，其特征在于，包括：通过配置任务数据库调度定向采集爬虫，读取配置任务得到多个商品搜索爬虫任务，定义搜索爬虫重做日记记录格式、商品信息爬虫重做日志记录格式及商品评论重做日志记录格式；将多个商品搜索爬虫任务分配到各台服务器上执行，通过爬取电商网站本身的搜索引擎搜索关键字得到的商品列表，进一步获得商品信息爬虫任务及商品评价爬虫任务；服务器执行商品信息爬虫任务及商品评价爬虫任务，获取多个商品的主页URL，通过这些URL爬取页面上的商品属性和商品的评论数据；使用重做日志实时记录当前服务器在执行商品搜索爬虫任务、商品信息爬虫任务及商品评价爬虫任务时，由于网络请求失败而导致不完整的中间结果、爬虫所需要的数据上下文、日志类型、任务ID；通过定时启动重做任务读取日志记录，重新执行之前失败的爬虫任务。2.根据权利要求1所述的分布式商品信息爬虫方法，其特征在于，通过配置任务数据库调度定向采集爬虫，读取配置任务得到多个商品搜索爬虫任务；具体为：所述配置任务数据库，包括爬虫任务表，包括爬虫任务ID及任务名称；爬虫子任务表，包括子任务ID、商品类型、关键字、过滤关键字及任务ID；爬虫任务配置表，包括配置ID、爬虫ID、搜索关键字、对应子任务ID；爬虫实例表，包含爬虫ID、电商平台搜索爬虫类的类名、商品信息爬虫类的类名、商品评论爬虫类的类名、数据导出类的类名；读取配置任务得到多个商品搜索爬虫任务：从爬虫任务表读取一个爬虫任务，根据任务的任务ID在爬虫子任务表读取与任务ID相关子任务，然后根据每一个子任务读取它在爬虫任务配置表的所有任务配置，最后根据任务配置的爬虫ID在爬虫实例表取出执行电商平台搜索爬虫类的类名，从而生成商品搜索爬虫任务。3.根据权利要求1所述的分布式商品信息爬虫方法，其特征在于，服务器执行商品信息爬虫任务，获取多个商品的主页URL，通过这些URL爬取页面上的商品属性数据；执行商品信息爬虫任务：把商品信息的各个属性所在的URL，按照其数据依赖关系构成一个URL爬虫类的类名的有向无环图，其中点表示URL爬虫类的类名，边表示URL爬虫类的类名之间的数据依赖关系；对有向无环图进行拓扑排序得到URL爬虫类的类名执行序列，设每一个序列的初始状态为“未采集”；商品信息爬虫按照序列顺序采集每个URL页面，对于一个URL，先在有向无环图里查询它依赖的所有URL爬虫类的类名状态是否都标记为“已采集”；若不是，则跳过这个URL爬虫类的类名；若是，则进行采集这个URL，采集成功则修改当前URL爬虫类的类名的采集状态为“已采集”并提取出信息需要的维度；采集失败，不修改当前状态，继续执行下一个URL，依次地遍历完这个URL序列。4.根据权利要求1所述的分布式商品信息爬虫方法，其特征在于，服务器执行商品评价爬虫任务，获取多个商品的主页URL，通过这些URL爬取页面上的商品评论数据；具体为：执行商品评价爬虫任务，获得商品评论的主页URL，对于主页URL依次附加一个递增的页码，通过商品评论爬虫类进行评论数据的采集，当评论数据中...

【专利技术属性】
技术研发人员：董守玲，陈海棋，董守斌，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人