页面数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:25989308 阅读:10 留言:0更新日期:2020-10-20 18:57
本申请实施例属于大数据领域,应用于智慧城市领域中,涉及一种页面数据处理方法,包括:当接收到终端发送的选取指令时,从ETL平台部署的数据处理算子中选取爬虫算子;根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息;根据所述爬虫配置信息配置所述爬虫算子;通过爬虫应用运行配置完毕的爬虫算子,并指示所述爬虫应用将爬取到的页面数据存储在Redis中;将所述Redis中的所述页面数据添加到所述ETL平台的ETL数据流中;对所述ETL数据流进行ETL处理,得到库存数据。本申请还提供一种页面数据处理装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,库存数据可存储于区块链中。本申请提高了对页面数据的处理效率。

【技术实现步骤摘要】
页面数据处理方法、装置、计算机设备及存储介质
本申请涉及大数据领域,尤其涉及一种页面数据处理方法、装置、计算机设备及存储介质。
技术介绍
随着大数据技术的发展,ETL的应用也越来越广泛。ETL(Extract-Transform-Load)是将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL的数据来源端通常是各种业务系统,目的端通常为数据仓库,但也不局限于数据仓库。ETL目的是将各种分散、零乱、标准不统一的数据整合到一起,为决策提供分析依据,ETL在商业智能中有着重要的应用。然而,传统的ETL工具只能从数据库或者指定的文件中获取数据,对于大量的没有存储在数据库或文件中的数据,例如页面数据等不能直接处理,使得ETL工具的数据处理效率较低。
技术实现思路
本申请实施例的目的在于提出一种页面数据处理方法、装置、计算机设备及存储介质,以解决传统的ETL工具对页面数据处理效率较低的问题。为了解决上述技术问题,本申请实施例提供一种页面数据处理方法,采用了如下所述的技术方案:当接收到终端发送的选取指令时,从ETL平台部署的数据处理算子中选取爬虫算子;其中,所述爬虫算子为实现爬虫功能的算子;根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息;根据所述爬虫配置信息配置所述爬虫算子;通过爬虫应用运行配置完毕的爬虫算子,并指示所述爬虫应用将爬取到的页面数据存储在Redis中;将所述Redis中的所述页面数据添加到所述ETL平台的ETL数据流中;对所述ETL数据流进行ETL处理,得到库存数据。进一步的,所述当接收到终端发送的选取指令时,从ETL平台部署的数据处理算子中选取爬虫算子包括:当接收到终端发送的选取指令时,读取ETL平台的状态标识;当通过所述状态标识确定所述ETL平台未处于数据输出状态时,从所述ETL平台部署的数据处理算子中选取爬虫算子,并通过所述终端展示所述爬虫算子的爬虫配置页面。进一步的,所述根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息包括:通过所述终端获取所述爬虫配置页面中的确认选项及文本框文本;接收所述终端根据获取到的确认选项及文本框文本触发的配置指令;根据所述配置指令获取爬虫配置信息。进一步的,所述根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息包括:当接收到终端发送的流展示指令时,通过所述终端的爬虫配置页面展示所述ETL平台中的ETL数据流;接收在展示的ETL数据流中选中待爬取字段触发的配置指令;将所述配置指令中的待爬取字段添加为爬虫配置信息。进一步的,所述根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息,还包括:获取所述终端的爬虫配置页面中触发的配置指令中所包含的URL;将所述URL添加为爬虫配置信息;或者,当所述终端的爬虫配置页面中触发的配置指令中包含流获取指令时,从所述ETL平台的ETL数据流中查询URL标识;读取所述URL标识所对应的ETL数据流作为爬虫配置信息。进一步的,所述将所述Redis中的所述页面数据添加到所述ETL平台的ETL数据流中包括:监测所述Redis与所述爬虫算子中的关键字;当监测到所述Redis与所述爬虫算子中存在相同的关键字时,将所述Redis中所述关键字对应的页面数据添加到所述ETL平台的ETL数据流中。进一步的,所述对所述ETL数据流进行ETL处理,得到库存数据包括:从所述终端获取ETL设置信息;根据所述ETL设置信息选取处理引擎对所述ETL数据流进行ETL处理;将ETL处理后的ETL数据流进行存储,得到库存数据。为了解决上述技术问题,本申请实施例还提供一种页面数据处理装置,采用了如下所述的技术方案:算子选取模块,用于当接收到终端发送的选取指令时,从ETL平台部署的数据处理算子中选取爬虫算子;其中,所述爬虫算子为实现爬虫功能的算子;信息获取模块,用于根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息;算子配置模块,用于根据所述爬虫配置信息配置所述爬虫算子;算子运行模块,用于通过爬虫应用运行配置完毕的爬虫算子,并指示所述爬虫应用将爬取到的页面数据存储在Redis中;数据添加模块,用于将所述Redis中的所述页面数据添加到所述ETL平台的ETL数据流中;数据处理模块,用于对所述ETL数据流进行ETL处理,得到库存数据。为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述的页面数据处理方法。为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的页面数据处理方法。与现有技术相比,本申请实施例主要有以下有益效果:先根据选取指令,从ETL平台中选取爬虫算子,ETL平台集成部署有包括爬虫算子在内的多种数据处理算子,能对数据进行多种处理;用户在终端的配置页面中进行配置操作触发配置指令,依据配置指令获取爬虫配置信息,简单快捷,提高了爬虫算子的配置效率;爬虫应用运行爬虫算子,从页面中爬取页面数据并存储在Redis中;Redis是一种响应快速、支持多批量数据存储的数据库,通过Redis缓存页面数据,保证了ETL平台能通过多个爬虫算子同时爬取页面数据,保证了页面数据的获取速度;最后将Redis中的页面数据添加到ETL平台的ETL数据流中,并进行ETL处理得到库存数据,使得ETL平台能够实现对页面数据的一站式处理,提高了对页面数据的处理效率。附图说明为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的页面数据处理方法的一个实施例的流程图;图3是根据本申请的页面数据处理装置的一个实施例的结构示意图;图4是根据本申请的计算机设备的一个实施例的结构示意图。具体实施方式除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。在本文中提本文档来自技高网
...

【技术保护点】
1.一种页面数据处理方法,其特征在于,包括:/n当接收到终端发送的选取指令时,从ETL平台部署的数据处理算子中选取爬虫算子;其中,所述爬虫算子为实现爬虫功能的算子;/n根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息;/n根据所述爬虫配置信息配置所述爬虫算子;/n通过爬虫应用运行配置完毕的爬虫算子,并指示所述爬虫应用将爬取到的页面数据存储在Redis中;/n将所述Redis中的所述页面数据添加到所述ETL平台的ETL数据流中;/n对所述ETL数据流进行ETL处理,得到库存数据。/n

【技术特征摘要】
1.一种页面数据处理方法,其特征在于,包括:
当接收到终端发送的选取指令时,从ETL平台部署的数据处理算子中选取爬虫算子;其中,所述爬虫算子为实现爬虫功能的算子;
根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息;
根据所述爬虫配置信息配置所述爬虫算子;
通过爬虫应用运行配置完毕的爬虫算子,并指示所述爬虫应用将爬取到的页面数据存储在Redis中;
将所述Redis中的所述页面数据添加到所述ETL平台的ETL数据流中;
对所述ETL数据流进行ETL处理,得到库存数据。


2.根据权利要求1所述的页面数据处理方法,其特征在于,所述当接收到终端发送的选取指令时,从ETL平台部署的数据处理算子中选取爬虫算子包括:
当接收到终端发送的选取指令时,读取ETL平台的状态标识;
当通过所述状态标识确定所述ETL平台未处于数据输出状态时,从所述ETL平台部署的数据处理算子中选取爬虫算子,并通过所述终端展示所述爬虫算子的爬虫配置页面。


3.根据权利要求2所述的页面数据处理方法,其特征在于,所述根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息包括:
通过所述终端获取所述爬虫配置页面中的确认选项及文本框文本;
接收所述终端根据获取到的确认选项及文本框文本触发的配置指令;
根据所述配置指令获取爬虫配置信息。


4.根据权利要求1所述的页面数据处理方法,其特征在于,所述根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息包括:
当接收到终端发送的流展示指令时,通过所述终端的爬虫配置页面展示所述ETL平台中的ETL数据流;
接收在展示的ETL数据流中选中待爬取字段触发的配置指令;
将所述配置指令中的待爬取字段添加为爬虫配置信息。


5.根据权利要求1所述的页面数据处理方法,其特征在于,所述根据所述终端的爬虫配置页面中触发的配置指令,获取爬虫配置信息,还包括:
获取所述终端的爬虫配置页面中触发的配置指令中所包含的URL;
将所述URL添加为爬虫配置信息;
或者...

【专利技术属性】
技术研发人员:贾波涛
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1