本公开是关于一种分布式信息采集方法、装置、电子设备以及存储介质。其中,该方法包括:根据数据源生成数据抓取任务信息,所述数据抓取任务信息包含配置信息;根据数据抓取任务信息进行分布式数据抓取,生成抓取结果;根据预设模版解析规则,将所述抓取结果进行解析,生成模版解析信息;根据预设二次解析规则,将所述模版解析信息进行解析,生成二次解析信息;根据预设数据合并规则,将所述二次解析信息进行数据合并处理,生成数据合并信息;根据预设价格计算规则,将所述数据合并信息进行价格计算处理,生成价格信息。本公开可以通过分布式商品信息抓取、解析计算,生成符合不同需求的价格信息。
【技术实现步骤摘要】
分布式信息采集方法以及装置
本公开涉及计算机
,具体而言,涉及一种分布式信息采集方法、装置、电子设备以及计算机可读存储介质。
技术介绍
随着电子商务的快速发展,电商网站成为大量商品信息数据的载体平台,有效地提取并利用这些商品相关信息数据成为数据处理需要编队的巨大挑战。目前市场上各大电商平台竞争剧烈,也催生出了整合所有电商平台商品数据的需求,但也存在如下问题:同一件商品在每家电商平台中的价格不同,促销信息不同,优惠信息不同,展现方式不同;同一种品牌在每家电商平台中策略不同,侧重点不同,从而导致所出售的商品不同;电商平台的特点不同,导致商品的展现风格各不相同,有图片,有文字,更有音频和视频等丰富的多媒体载体。现有技术一般是通过基于Python编写的Scrapy来解决,Scrapy因其可灵活配置,异步框架,自定义程度强,社区活跃,文档详细等优点而被广泛使用。但由于Scrapy仅支持命令行操作,没有WEB页面上的调试,控制,监控等功能,所以在开发和维护管理场景操作繁琐。加之Scrapy不支持分布式的解决方案,所以无法搭建分布式抓取系统,不能发挥出分布式集群的最大化效能。因此,需要提供一种或多种至少能够解决上述问题的技术方案。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种分布式信息采集方法、装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本公开的一个方面,提供一种分布式信息采集方法,包括:任务获取步骤,根据数据源生成数据抓取任务信息,所述数据抓取任务信息包含配置信息;数据抓取步骤,根据数据抓取任务信息进行分布式数据抓取,生成抓取结果;模版解析步骤,根据预设模版解析规则,将所述抓取结果进行解析,生成模版解析信息;二次解析步骤,根据预设二次解析规则,将所述模版解析信息进行解析,生成二次解析信息;数据合并步骤,根据预设数据合并规则,将所述二次解析信息进行数据合并处理,生成数据合并信息;价格计算步骤,根据预设价格计算规则,将所述数据合并信息进行价格计算处理,生成价格信息。在本公开的一种示例性实施例中,所述任务获取步骤中,根据商品的商品编号SKUID数据源或商品分类页的统一资源定位符URL数据源生成数据抓取任务信息。在本公开的一种示例性实施例中,所述数据抓取步骤中,通过配置异步网络框架,实现分布式数据抓取。在本公开的一种示例性实施例中,所述数据抓取步骤还包括:若数据抓取失败,添加数据抓取失败标识,并重新抓取。在本公开的一种示例性实施例中,所述模版解析步骤中,通过对象简谱json方式、正则方式或可扩展标记路径语言xpath方式将所述抓取结果进行解析,并校验所述模版解析信息。在本公开的一种示例性实施例中,所述模版解析步骤还包括:若模版解析失败,添加模版解析失败标识,并重新抓取。在本公开的一种示例性实施例中,所述二次解析步骤还包括:若二次解析失败,添加二次解析失败标识,并重新抓取。在本公开的一种示例性实施例中,所述价格计算步骤中,所述价格信息包括根据包含不同时效的促销信息、优惠信息的价格计算规则,生成的包括最终可购买最低价格、未来可购买最低价格、预售价格、拼购价格、活动价格、不同平台端的价格的价格信息。在本公开的一种示例性实施例中,若大于预设重新抓取次数,则停止重新抓取。在本公开的一个方面,提供一种分布式信息采集装置,包括:任务获取模块,用于根据数据源生成数据抓取任务信息,所述数据抓取任务信息包含配置信息;数据抓取模块,用于根据数据抓取任务信息进行分布式数据抓取,生成抓取结果;模版解析模块,用于根据预设模版解析规则,将所述抓取结果进行解析,生成模版解析信息;二次解析模块,用于根据预设二次解析规则,将所述模版解析信息进行解析,生成二次解析信息;数据合并模块,用于根据预设数据合并规则,将所述二次解析信息进行数据合并处理,生成数据合并信息;价格计算模块,用于根据预设价格计算规则,将所述数据合并信息进行价格计算处理,生成价格信息。在本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的方法。在本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任意一项所述的方法。本公开的示例性实施例中的分布式信息采集方法,根据数据源生成数据抓取任务信息,所述数据抓取任务信息包含配置信息;根据数据抓取任务信息进行分布式数据抓取,生成抓取结果;根据预设模版解析规则,将所述抓取结果进行解析,生成模版解析信息;根据预设二次解析规则,将所述模版解析信息进行解析,生成二次解析信息;根据预设数据合并规则,将所述二次解析信息进行数据合并处理,生成数据合并信息;根据预设价格计算规则,将所述数据合并信息进行价格计算处理,生成价格信息。一方面,由于采用基于分布式的抓取方案,可根据抓取量的不同,横向扩展服务器资源,最大化利用硬件资源,减少不必要的开销,降低成本;另一方面,通过分布式商品信息抓取、解析计算,可以生成符合不同需求的价格信息,提升了用户体验。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明通过参照附图来详细描述其示例实施例,本公开的上述和其它特征及优点将变得更加明显。图1示出了根据本公开一示例性实施例的分布式信息采集方法的流程图;图2示出了根据本公开一示例性实施例的分布式信息采集方法的逻辑图;图3示出了根据本公开一示例性实施例的分布式信息采集方法应用场景的示意图;图4示出了根据本公开一示例性实施例的分布式信息采集装置的示意框图;图5示意性示出了根据本公开一示例性实施例的电子设备的框图;以及图6示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者本文档来自技高网...
【技术保护点】
1.一种分布式信息采集方法,其特征在于,所述方法包括:/n任务获取步骤,根据数据源生成数据抓取任务信息,所述数据抓取任务信息包含配置信息;/n数据抓取步骤,根据数据抓取任务信息进行分布式数据抓取,生成抓取结果;/n模版解析步骤,根据预设模版解析规则,将所述抓取结果进行解析,生成模版解析信息;/n二次解析步骤,根据预设二次解析规则,将所述模版解析信息进行解析,生成二次解析信息;/n数据合并步骤,根据预设数据合并规则,将所述二次解析信息进行数据合并处理,生成数据合并信息;/n价格计算步骤,根据预设价格计算规则,将所述数据合并信息进行价格计算处理,生成价格信息。/n
【技术特征摘要】
1.一种分布式信息采集方法,其特征在于,所述方法包括:
任务获取步骤,根据数据源生成数据抓取任务信息,所述数据抓取任务信息包含配置信息;
数据抓取步骤,根据数据抓取任务信息进行分布式数据抓取,生成抓取结果;
模版解析步骤,根据预设模版解析规则,将所述抓取结果进行解析,生成模版解析信息;
二次解析步骤,根据预设二次解析规则,将所述模版解析信息进行解析,生成二次解析信息;
数据合并步骤,根据预设数据合并规则,将所述二次解析信息进行数据合并处理,生成数据合并信息;
价格计算步骤,根据预设价格计算规则,将所述数据合并信息进行价格计算处理,生成价格信息。
2.根据权利要求1所述的方法,其特征在于,所述任务获取步骤中,根据商品的商品编号SKUID数据源或商品分类页的统一资源定位符URL数据源生成数据抓取任务信息。
3.根据权利要求1所述的方法,其特征在于,所述数据抓取步骤中,通过配置异步网络框架,实现分布式数据抓取。
4.根据权利要求1所述的方法,其特征在于,所述数据抓取步骤还包括:若数据抓取失败,添加数据抓取失败标识,并重新抓取。
5.根据权利要求1所述的方法,其特征在于,所述模版解析步骤中,通过对象简谱json方式、正则方式或可扩展标记路径语言xpath方式将所述抓取结果进行解析,并校验所述模版解析信息。
6.根据权利要求1所述的方法,其特征在于,所述模版解析步骤还包括:若模版解析失败,添加模版解析失败标识,并重新抓取。
7.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:张永军,毛文静,崔翊翔,郭红雁,
申请(专利权)人:北京值得买科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。