一种电商大数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:30919037 阅读:16 留言:0更新日期:2021-11-23 00:08
本发明专利技术是关于一种电商大数据处理方法、装置、设备及存储介质。该方法包括:通过Spark程序读取Hbase中的商品数据,生成弹性分布式数据集RDD;将RDD转换成DataFrame;通过电商网站ID及上下架条件,过滤DataFrame中的数据;将过滤数据后的DataFrame重新转换成RDD;通过RDD的MapPartitions操作,将重新转换的RDD的每条数据与预先配置的采集方案和采集任务做匹配,生成最优调度项;将生成的最优调度项,按任务频次推入到不同的链接池中。本发明专利技术提供的技术方案,大大提高商品数据的调度速度,且调度商品数据量稳定,大大减少了取分区数据读取失败的情况。的情况。的情况。

【技术实现步骤摘要】
一种电商大数据处理方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种电商大数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着业务数据的积累,电商商品数据量越来越大,数据的读取越来越慢,导致整个数据处理流程变慢。以Hbase数据库为例,Hbase数据库内部以分区为数据单位,一个分区中可以有很多条数据,4096个分区可存储多达2亿商品数据量,用Python程序顺序遍历每个分区,读取商品数据后,做调度、分发、下载分析操作,这种方式存在的问题是:执行速度慢,调度一轮数据的时候,为1.5小时

2小时;并且,在执行过程中会有分区扫描失败的情况,导致有数据不能正常进入下游流程。

技术实现思路

[0003]为克服相关技术中存在的问题,本专利技术提供一种电商大数据处理方法、装置、设备及存储介质。
[0004]根据本专利技术实施例的第一方面,提供一种电商大数据处理方法,包括:通过Spark程序读取Hbase中的商品数据,生成弹性分布式数据集RDD;将RDD转换成DataFrame;通过电商网站ID及上下架条件,过滤DataFrame中的数据;将过滤数据后的DataFrame重新转换成RDD;通过RDD的MapPartitions操作,将重新转换的RDD的每条数据与预先配置的采集方案和采集任务做匹配,生成最优调度项;将生成的最优调度项,按任务频次推入到不同的链接池中。
[0005]进一步,所述通过电商网站ID及上下架条件,过滤DataFrame中的数据,具体包括:根据电商网站对应的ID字段从DataFrame中的数据过滤出需要参与调度的电商网站的商品数据,从所述需要参与调度的电商网站的商品数据中过滤出处于上架状态的商品数据。
[0006]进一步,所述采集方案和采集任务包括采集的数据范围和字段。
[0007]进一步,所述链接池为kafka队列。
[0008]根据本专利技术实施例的第二方面,提供一种电商大数据处理装置,包括:数据读取模块,用于通过Spark程序读取Hbase中的商品数据,生成弹性分布式数据集RDD;第一转换模块,用于将RDD转换成DataFrame;数据过滤模块,用于通过电商网站ID及上下架条件,过滤DataFrame中的数据;第二转换模块,用于将过滤数据后的DataFrame重新转换成RDD;数据匹配模块,用于通过RDD的MapPartitions操作,将重新转换的RDD的每条数据
与预先配置的采集方案和采集任务做匹配,生成最优调度项;任务推入模块,用于将生成的最优调度项,按任务频次推入到不同的链接池中。
[0009]进一步,所述数据过滤模块,具体用于根据电商网站对应的ID字段从DataFrame中的数据过滤出需要参与调度的电商网站的商品数据,从所述需要参与调度的电商网站的商品数据中过滤出处于上架状态的商品数据。
[0010]进一步,所述采集方案和采集任务包括采集的数据范围和字段。
[0011]进一步,所述链接池为kafka队列。
[0012]根据本专利技术实施例的第三方面,提供一种终端设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
[0013]根据本专利技术实施例的第四方面,提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
[0014]本专利技术的实施例提供的技术方案可以包括以下有益效果:大大提高商品数据的调度速度,且调度商品数据量稳定,大大减少了取分区数据读取失败的情况。
[0015]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
[0016]附图说明
[0017]通过结合附图对本专利技术示例性实施方式进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本专利技术示例性实施方式中,相同的参考标号通常代表相同部件。
[0018]图1是根据本专利技术一示例性实施例示出的一种电商大数据处理方法的流程示意图;图2是根据本专利技术一示例性实施例示出的一种电商大数据处理装置的结构框图;图3是根据本专利技术一示例性实施例示出的一种计算设备的结构示意图。
[0019]具体实施方式
[0020]下面将参照附图更详细地描述本专利技术的优选实施方式。虽然附图中显示了本专利技术的优选实施方式,然而应该理解,可以以各种形式实现本专利技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本专利技术更加透彻和完整,并且能够将本专利技术的范围完整地传达给本领域的技术人员。
[0021]在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包
含一个或多个相关联的列出项目的任何或所有可能组合。
[0022]应当理解,尽管在本专利技术可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0023]以下结合附图详细描述本专利技术实施例的技术方案。
[0024]图1是根据本专利技术一示例性实施例示出的一种电商大数据处理方法的流程示意图。
[0025]参见图1,该方法包括:110、通过Spark程序读取Hbase中的商品数据,生成RDD;其中,Spark是专为大规模数据处理而设计的快速通用的计算引擎,RDD(Resilient Distributed Datasets,弹性分布式数据集)是Spark中的一种数据集合,字段不对称,每条数据拥有的字段不一定相同。
[0026]120、将RDD转换成DataFrame,以便过滤数据;其中,DataFrame是Spark中的一种数据集合,类似一个二维表,数据对称,每条数据拥有的字段相同。
[0027]130、通过电商网站ID及上下架条件,过滤DataFrame中的数据,得到需要参与调度的数据其中,在调度库中每条数据都有WebsiteID字段,该字段可标识出当前这条数据属于哪个电商网站,例:京东=1、苏宁=17、天猫=71等等。
[0028]上下架条件即电商商品的上下架状态,如果商品为上架状态,则可以电商购买;如果为下架状态,则不可在电商购买。在调度库中对应有字段为IsDeleted ,True:表示下架,False:表示上架。
[0029]在确定参与调度的数据时,一方面需要根据电商网站对应的的ID本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电商大数据处理方法,其特征在于,包括:通过Spark程序读取Hbase中的商品数据,生成弹性分布式数据集RDD;将RDD转换成DataFrame;通过电商网站ID及上下架条件,过滤DataFrame中的数据;将过滤数据后的DataFrame重新转换成RDD;通过RDD的MapPartitions操作,将重新转换的RDD的每条数据与预先配置的采集方案和采集任务做匹配,生成最优调度项;将生成的最优调度项,按任务频次推入到不同的链接池中。2.根据权利要求1所述的方法,其特征在于,所述通过电商网站ID及上下架条件,过滤DataFrame中的数据,具体包括:根据电商网站对应的ID字段从DataFrame中的数据过滤出需要参与调度的电商网站的商品数据,从所述需要参与调度的电商网站的商品数据中过滤出处于上架状态的商品数据。3.根据权利要求1所述的方法,其特征在于,所述采集方案和采集任务包括采集的数据范围和字段。4.根据权利要求1所述的方法,其特征在于,所述链接池为kafka队列。5.一种电商大数据处理装置,其特征在于,包括:数据读取模块,用于通过Spark程序读取Hbase中的商品数据,生成弹性分布式数据集RDD;第一转换模块,用于将RDD转换成DataFrame;数据过滤模块,用于通过电商网站ID及上...

【专利技术属性】
技术研发人员:隋国栋高景洋刘峰刘超
申请(专利权)人:北京值得买科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1