【技术实现步骤摘要】
实时数据抓取方法、装置、设备及存储介质
[0001]本申请涉及数据处理
,尤其涉及一种实时数据抓取方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]变化数据捕获
(Change Data Capture
,简称
CDC)
是指识别和捕获对数据库中的数据所做的更改
(
包括数据或数据表的插入
、
更新
、
删除等
)
,然后将这些更改按发生的顺序完整记录下来,并实时通过消息中间件传送到下游流程或系统的过程
。
将数据库表中数据的变化以标准的形式通知到下游流程或系统,可以保证下游流程或系统的数据一致性
。
[0003]相关技术中,在捕获变化数据时,通常是通过定期批量抓取数据库的数据,然后对抓取到的数据进行同步处理
。
但批量抓取数据需要一定的时间,若在批量抓取数据的过程中出现异常,会导致抓取到不完整或错误的数据,导致同步后的数据与同步前的数据不一致
。
[0004]因此,亟需一种可以提高抓取到的数据的完整性和准确性的方案
。
技术实现思路
[0005]本申请提供一种实时数据抓取方法
、
装置
、
设备及存储介质,用以提高抓取到的数据的完整性和准确性
。
[0006]第一方面,本申请提供一种实时数据抓取方法,包括:响应于接收到面向可视化页 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种实时数据抓取方法,其特征在于,包括:响应于接收到面向可视化页面的数据抓取操作,获取所述可视化页面的可视化配置参数,所述可视化页面用于提供与用户的交互,以实现数据抓取;根据所述可视化配置参数,生成用于抓取待抓取数据的抓取任务;执行所述抓取任务,获取所述待抓取数据的数据变更日志;根据所述数据变更日志,抓取所述待抓取数据
。2.
根据权利要求1所述的实时数据抓取方法,其特征在于,所述可视化配置参数包括以下至少一项:数据源配置参数
、
数据表配置参数
、
字段配置参数,所述数据源配置参数对应的数据源包括关系型数据库和非关系型数据库;所述抓取任务包括所述数据源配置参数对应的数据源
、
所述数据表配置参数对应的数据表
、
所述字段配置参数对应的字段
。3.
根据权利要求2所述的实时数据抓取方法,其特征在于,所述执行所述抓取任务,获取所述待抓取数据的数据变更日志,包括:根据所述抓取任务中包括的数据源,确定所述待抓取数据对应的第一数据库;根据所述抓取任务中包括的数据表,确定所述第一数据库中的第一数据表;根据所述抓取任务中包括的字段,确定所述第一数据表中的第一字段;获取包括所述第一数据库
、
所述第一数据表和所述第一字段的数据变更日志
。4.
根据权利要求3所述的实时数据抓取方法,其特征在于,所述可视化页面还用于提供与用户的交互,以实现数据同步,所述可视化配置参数还包括字段映射关系配置参数,所述根据所述数据变更日志,抓取所述待抓取数据之后,还包括:根据所述字段映射关系配置参数对应的字段映射关系,将所述待抓取数据同步至第二数据库中的第二数据表,所述字段映射关系用于表示所述第一字段和所述第二数据表中的第二字段之间的映射关系
。5.
根据权利要求4所述的实时数据抓取方法,其特征在于,所述可视化配置参数还包括数据预处理配置参数,所述根据所述数据变更日志,抓取所述待抓取数据之后,还包括:根据所述数据预处理配置参数对应的数据预处理规则,对所述待抓取数据进行预处理,得到预处理数据,所述数据预处理规则用于对所述待抓取数据进行格式转换
、
技术研发人员:陶建宇,康勇,侯安晋,
申请(专利权)人:北京九恒星科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。