实时数据抓取方法技术

技术编号:39714574 阅读:16 留言:0更新日期:2023-12-17 23:22
本申请提供一种实时数据抓取方法

【技术实现步骤摘要】
实时数据抓取方法、装置、设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种实时数据抓取方法

装置

设备及存储介质


技术介绍

[0002]变化数据捕获
(Change Data Capture
,简称
CDC)
是指识别和捕获对数据库中的数据所做的更改
(
包括数据或数据表的插入

更新

删除等
)
,然后将这些更改按发生的顺序完整记录下来,并实时通过消息中间件传送到下游流程或系统的过程

将数据库表中数据的变化以标准的形式通知到下游流程或系统,可以保证下游流程或系统的数据一致性

[0003]相关技术中,在捕获变化数据时,通常是通过定期批量抓取数据库的数据,然后对抓取到的数据进行同步处理

但批量抓取数据需要一定的时间,若在批量抓取数据的过程中出现异常,会导致抓取到不完整或错误的数据,导致同步后的数据与同步前的数据不一致

[0004]因此,亟需一种可以提高抓取到的数据的完整性和准确性的方案


技术实现思路

[0005]本申请提供一种实时数据抓取方法

装置

设备及存储介质,用以提高抓取到的数据的完整性和准确性

[0006]第一方面,本申请提供一种实时数据抓取方法,包括:响应于接收到面向可视化页面的数据抓取操作,获取可视化页面的可视化配置参数,可视化页面用于提供与用户的交互,以实现数据抓取;根据可视化配置参数,生成用于抓取待抓取数据的抓取任务;执行抓取任务,获取待抓取数据的数据变更日志;根据数据变更日志,抓取待抓取数据

[0007]在一种实施例中,可视化配置参数包括以下至少一项:数据源配置参数

数据表配置参数

字段配置参数,数据源配置参数对应的数据源包括关系型数据库和非关系型数据库;抓取任务包括数据源配置参数对应的数据源

数据表配置参数对应的数据表

字段配置参数对应的字段

[0008]在一种实施例中,执行抓取任务,获取待抓取数据的数据变更日志,包括:根据抓取任务中包括的数据源,确定待抓取数据对应的第一数据库;根据抓取任务中包括的数据表,确定第一数据库中的第一数据表;根据抓取任务中包括的字段,确定第一数据表中的第一字段;获取包括第一数据库

第一数据表和第一字段的数据变更日志

[0009]在一种实施例中,可视化页面还用于提供与用户的交互,以实现数据同步,可视化配置参数还包括字段映射关系配置参数,根据数据变更日志,抓取待抓取数据之后,还包括:根据字段映射关系配置参数对应的字段映射关系,将待抓取数据同步至第二数据库中的第二数据表,字段映射关系用于表示第一字段和第二数据表中的第二字段之间的映射关系

[0010]在一种实施例中,可视化配置参数还包括数据预处理配置参数,根据数据变更日
志,抓取待抓取数据之后,还包括:根据数据预处理配置参数对应的数据预处理规则,对待抓取数据进行预处理,得到预处理数据,数据预处理规则用于对待抓取数据进行格式转换

数据清洗和数据过滤;将预处理数据同步至第二数据库中

[0011]在一种实施例中,可视化配置参数还包括定时同步配置参数,根据数据变更日志,抓取待抓取数据之后,还包括:根据定时同步配置参数对应的数据同步周期,将待抓取数据同步至第二数据库中

[0012]在一种实施例中,根据数据变更日志,抓取待抓取数据之后,还包括:按照预设数据分区规则,对待抓取数据进行分区处理,得到多个分区数据;并行执行将多个分区数据同步至第二数据库中的操作

[0013]在一种实施例中,该实时数据抓取方法应用于
Flink CDC
集群,或应用于
Flink CDC
集群中包括的多个
Flink CDC
节点中的任一
Flink CDC
节点

[0014]第二方面,本申请提供一种实时数据抓取装置,包括:第一获取模块,用于响应于接收到面向可视化页面的数据抓取操作,获取可视化页面的可视化配置参数,可视化页面用于提供与用户的交互,以实现数据抓取;生成模块,用于根据可视化配置参数,生成用于抓取待抓取数据的抓取任务;第二获取模块,用于执行抓取任务,获取待抓取数据的数据变更日志;抓取模块,用于根据数据变更日志,抓取待抓取数据

[0015]第三方面,本申请还提供一种电子设备,包括:处理器,以及预处理器连接的存储器;存储器存储有计算机执行指令;处理器执行存储器存储的计算机执行指令,以实现如第一方面的实时数据抓取方法

[0016]第四方面,本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被执行时用于实现如第一方面的实时数据抓取方法

[0017]第五方面,本申请还提供一种计算机程序产品,包括计算机程序,计算机程序被执行时实现如第一方面的实时数据抓取方法

[0018]本申请提供的实时数据抓取方法

装置

设备及存储介质,通过可视化页面,可以降低用户的操作难度,提高用户体验;并且,通过获取待抓取数据的数据变更日志,可以第一时间确定数据的变更情况,从而在数据发生变化时立即捕获待抓取数据,也就不会由于批量抓取数据的过程中出现异常而导致抓取到不完整或错误的数据,进而可以确保对待抓取数据的准确捕获,降低了数据丢失或不一致的风险,提高了抓取到的数据的完整性和准确性

附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理

[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图

[0021]图1为本申请实施例提供的实时数据抓取方法的应用场景示意图;
[0022]图2为本申请实施例提供的实时数据抓取方法的流程示意图;
[0023]图3为本申请实施例提供的可视化页面的一种页面示意图;
[0024]图4为本申请实施例提供的可视化页面的另一种页面示意图;
[0025]图5为本申请实施例提供的可视化页面的又一种页面示意图;
[0026]图6为本申请实施例提供的可视化页面的再一种页面示意图;
[0027]图7为本申请实施例提供的实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种实时数据抓取方法,其特征在于,包括:响应于接收到面向可视化页面的数据抓取操作,获取所述可视化页面的可视化配置参数,所述可视化页面用于提供与用户的交互,以实现数据抓取;根据所述可视化配置参数,生成用于抓取待抓取数据的抓取任务;执行所述抓取任务,获取所述待抓取数据的数据变更日志;根据所述数据变更日志,抓取所述待抓取数据
。2.
根据权利要求1所述的实时数据抓取方法,其特征在于,所述可视化配置参数包括以下至少一项:数据源配置参数

数据表配置参数

字段配置参数,所述数据源配置参数对应的数据源包括关系型数据库和非关系型数据库;所述抓取任务包括所述数据源配置参数对应的数据源

所述数据表配置参数对应的数据表

所述字段配置参数对应的字段
。3.
根据权利要求2所述的实时数据抓取方法,其特征在于,所述执行所述抓取任务,获取所述待抓取数据的数据变更日志,包括:根据所述抓取任务中包括的数据源,确定所述待抓取数据对应的第一数据库;根据所述抓取任务中包括的数据表,确定所述第一数据库中的第一数据表;根据所述抓取任务中包括的字段,确定所述第一数据表中的第一字段;获取包括所述第一数据库

所述第一数据表和所述第一字段的数据变更日志
。4.
根据权利要求3所述的实时数据抓取方法,其特征在于,所述可视化页面还用于提供与用户的交互,以实现数据同步,所述可视化配置参数还包括字段映射关系配置参数,所述根据所述数据变更日志,抓取所述待抓取数据之后,还包括:根据所述字段映射关系配置参数对应的字段映射关系,将所述待抓取数据同步至第二数据库中的第二数据表,所述字段映射关系用于表示所述第一字段和所述第二数据表中的第二字段之间的映射关系
。5.
根据权利要求4所述的实时数据抓取方法,其特征在于,所述可视化配置参数还包括数据预处理配置参数,所述根据所述数据变更日志,抓取所述待抓取数据之后,还包括:根据所述数据预处理配置参数对应的数据预处理规则,对所述待抓取数据进行预处理,得到预处理数据,所述数据预处理规则用于对所述待抓取数据进行格式转换

【专利技术属性】
技术研发人员:陶建宇康勇侯安晋
申请(专利权)人:北京九恒星科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1