【技术实现步骤摘要】
本专利技术涉及互联网领域,具体涉及一种基于重做日志的分布式商品信息爬虫方法。
技术介绍
近十年来,随着互联网Web 2.0的快速发展,特别是移动互联网的兴起,国内出现了大量的移动应用和电商网站。人们可以很便捷地通过计算机、智能手机、平板电脑等途径对商品或商铺进行评价。而对这些海量的产品评论进行处理和挖掘,可以获取很多有价值的信息。对于商家而言,他们可以利用这些信息来获取自己与竞争对手的产品情况,并指导改进产品的质量和服务水平,从而在激烈的竞争中占据优势,而对于用户而言,用户可以通过这些信息更加方便地了解各种产品的优缺点,决定是否购买。但是,随着时间的推移,互联网上商品或商铺评论数目会不断增加,一个商品可能有成千上万的评论。即使平台本身会对用户评论中的评分进行汇总,用户还是要花一定时间和精力去浏览各种品牌商品的几十页评论,才能得出同类产品的客观评价。另一方面,商家依靠人工归纳汇总,也难以在短时间内在大量的评论里获取有价值的信息。一个商家通常会在各个平台上架自己的产品,而各个平台的数据本身是独立的,商家也很难通过人工的方式汇总各个平台的评论数据,从而难以基于大量的数据进行有效分析。现在的网络爬虫主要有两类:通用爬虫和定向爬虫。通用爬虫主要用于互联网搜索引擎采集网站的数据,一般是提供URL种子进行采集,再在采集的网页中获取新的URL,不断迭代采集,但是这种方法不适用于商品信息爬虫。定向爬虫,主要用于采集定向的数据。一般是根据一定的规则获取一些URL,例如通过电商网站本身的搜索引擎和关键字来获取搜索结果和URL,然后再对这些URL进行采集并解析数据成结构化数据。 ...
【技术保护点】
一种基于重做日志的分布式商品信息爬虫方法,其特征在于,包括:通过配置任务数据库调度定向采集爬虫,读取配置任务得到多个商品搜索爬虫任务,定义搜索爬虫重做日记记录格式、商品信息爬虫重做日志记录格式及商品评论重做日志记录格式;将多个商品搜索爬虫任务分配到各台服务器上执行,通过爬取电商网站本身的搜索引擎搜索关键字得到的商品列表,进一步获得商品信息爬虫任务及商品评价爬虫任务;服务器执行商品信息爬虫任务及商品评价爬虫任务,获取多个商品的主页URL,通过这些URL爬取页面上的商品属性和商品的评论数据;使用重做日志实时记录当前服务器在执行商品搜索爬虫任务、商品信息爬虫任务及商品评价爬虫任务时,由于网络请求失败而导致不完整的中间结果、爬虫所需要的数据上下文、日志类型、任务ID;通过定时启动重做任务读取日志记录,重新执行之前失败的爬虫任务。
【技术特征摘要】
1.一种基于重做日志的分布式商品信息爬虫方法,其特征在于,包括:通过配置任务数据库调度定向采集爬虫,读取配置任务得到多个商品搜索爬虫任务,定义搜索爬虫重做日记记录格式、商品信息爬虫重做日志记录格式及商品评论重做日志记录格式;将多个商品搜索爬虫任务分配到各台服务器上执行,通过爬取电商网站本身的搜索引擎搜索关键字得到的商品列表,进一步获得商品信息爬虫任务及商品评价爬虫任务;服务器执行商品信息爬虫任务及商品评价爬虫任务,获取多个商品的主页URL,通过这些URL爬取页面上的商品属性和商品的评论数据;使用重做日志实时记录当前服务器在执行商品搜索爬虫任务、商品信息爬虫任务及商品评价爬虫任务时,由于网络请求失败而导致不完整的中间结果、爬虫所需要的数据上下文、日志类型、任务ID;通过定时启动重做任务读取日志记录,重新执行之前失败的爬虫任务。2.根据权利要求1所述的分布式商品信息爬虫方法,其特征在于,通过配置任务数据库调度定向采集爬虫,读取配置任务得到多个商品搜索爬虫任务;具体为:所述配置任务数据库,包括爬虫任务表,包括爬虫任务ID及任务名称;爬虫子任务表,包括子任务ID、商品类型、关键字、过滤关键字及任务ID;爬虫任务配置表,包括配置ID、爬虫ID、搜索关键字、对应子任务ID;爬虫实例表,包含爬虫ID、电商平台搜索爬虫类的类名、商品信息爬虫类的类名、商品评论爬虫类的类名、数据导出类的类名;读取配置任务得到多个商品搜索爬虫任务:从爬虫任务表读取一个爬虫任务,根据任务的任务ID在爬虫子任务表读取与任务ID相关子任务,然后根据每一个子任务读取它在爬虫任务配置表的所有任务配置,最后根据任务配置的爬虫ID在爬虫实例表取出执行电商平台搜索爬虫类的类名,从而生成商品搜索爬虫任务。3.根据权利要求1所述的分布式商品信息爬虫方法,其特征在于,服务器执行商品信息爬虫任务,获取多个商品的主页URL,通过这些URL爬取页面上的商品属性数据;执行商品信息爬虫任务:把商品信息的各个属性所在的URL,按照其数据依赖关系构成一个URL爬虫类的类名的有向无环图,其中点表示URL爬虫类的类名,边表示URL爬虫类的类名之间的数据依赖关系;对有向无环图进行拓扑排序得到URL爬虫类的类名执行序列,设每一个序列的初始状态为“未采集”;商品信息爬虫按照序列顺序采集每个URL页面,对于一个URL,先在有向无环图里查询它依赖的所有URL爬虫类的类名状态是否都标记为“已采集”;若不是,则跳过这个URL爬虫类的类名;若是,则进行采集这个URL,采集成功则修改当前URL爬虫类的类名的采集状态为“已采集”并提取出信息需要的维度;采集失败,不修改当前状态,继续执行下一个URL,依次地遍历完这个URL序列。4.根据权利要求1所述的分布式商品信息爬虫方法,其特征在于,服务器执行商品评价爬虫任务,获取多个商品的主页URL,通过这些URL爬取页面上的商品评论数据;具体为:执行商品评价爬虫任务,获得商品评论的主页URL,对于主页URL依次附加一个递增的页码,通过商品评论爬虫类进行评论数据的采集,当评论数据中...
【专利技术属性】
技术研发人员:董守玲,陈海棋,董守斌,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。