一种电商大数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号：30919037 阅读：16 留言：0更新日期：2021-11-23 00:08

本发明专利技术是关于一种电商大数据处理方法、装置、设备及存储介质。该方法包括：通过Spark程序读取Hbase中的商品数据，生成弹性分布式数据集RDD；将RDD转换成DataFrame；通过电商网站ID及上下架条件，过滤DataFrame中的数据；将过滤数据后的DataFrame重新转换成RDD；通过RDD的MapPartitions操作，将重新转换的RDD的每条数据与预先配置的采集方案和采集任务做匹配，生成最优调度项；将生成的最优调度项，按任务频次推入到不同的链接池中。本发明专利技术提供的技术方案，大大提高商品数据的调度速度，且调度商品数据量稳定，大大减少了取分区数据读取失败的情况。的情况。的情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种电商大数据处理方法、装置、设备及存储介质

[0001]本专利技术涉及数据处理领域，尤其涉及一种电商大数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着业务数据的积累，电商商品数据量越来越大，数据的读取越来越慢，导致整个数据处理流程变慢。以Hbase数据库为例，Hbase数据库内部以分区为数据单位，一个分区中可以有很多条数据，4096个分区可存储多达2亿商品数据量，用Python程序顺序遍历每个分区，读取商品数据后，做调度、分发、下载分析操作，这种方式存在的问题是：执行速度慢，调度一轮数据的时候，为1.5小时
‑
2小时；并且，在执行过程中会有分区扫描失败的情况，导致有数据不能正常进入下游流程。

技术实现思路

[0003]为克服相关技术中存在的问题，本专利技术提供一种电商大数据处理方法、装置、设备及存储介质。
[0004]根据本专利技术实施例的第一方面，提供一种电商大数据处理方法，包括：通过Spark程序读取Hbase中的商品数据，生成弹性分布式数据集RDD；将RDD转换成DataFrame；通过电商网站ID及上下架条件，过滤DataFrame中的数据；将过滤数据后的DataFrame重新转换成RDD；通过RDD的MapPartitions操作，将重新转换的RDD的每条数据与预先配置的采集方案和采集任务做匹配，生成最优调度项；将生成的最优调度项，按任务频次推入到不同的链接池中。
[0005]进一步，所述通过电商网站ID及上下架条件，过滤DataFrame...

【技术保护点】

【技术特征摘要】
1.一种电商大数据处理方法，其特征在于，包括：通过Spark程序读取Hbase中的商品数据，生成弹性分布式数据集RDD；将RDD转换成DataFrame；通过电商网站ID及上下架条件，过滤DataFrame中的数据；将过滤数据后的DataFrame重新转换成RDD；通过RDD的MapPartitions操作，将重新转换的RDD的每条数据与预先配置的采集方案和采集任务做匹配，生成最优调度项；将生成的最优调度项，按任务频次推入到不同的链接池中。2.根据权利要求1所述的方法，其特征在于，所述通过电商网站ID及上下架条件，过滤DataFrame中的数据，具体包括：根据电商网站对应的ID字段从DataFrame中的数据过滤出需要参与调度的电商网站的商品数据，从所述需要参与调度的电商网站的商品数据中过滤出处于上架状态的商品数据。3.根据权利要求1所述的方法，其特征在于，所述采集方案和采集任务包括采集的数据范围和字段。4.根据权利要求1所述的方法，其特征在于，所述链接池为kafka队列。5.一种电商大数据处理装置，其特征在于，包括：数据读取模块，用于通过Spark程序读取Hbase中的商品数据，生成弹性分布式数据集RDD；第一转换模块，用于将RDD转换成DataFrame；数据过滤模块，用于通过电商网站ID及上...

【专利技术属性】
技术研发人员：隋国栋，高景洋，刘峰，刘超，
申请(专利权)人：北京值得买科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人