System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据领域,尤其涉及一种关于实时同步实施方案。
技术介绍
1、在大数据领域,flink作为社区比较活跃的分布式处理框架,凭借其相对简单的编程模型加上其高吞吐、低延迟、高性能以及支持exactly-once语义的特性,现已发展成为企业内部主流的数据处理框架。但在企业应用在对数据的加工处理方面则相对较弱,如质量稽核策略、脏数据策略、动态字段增减下的实时同步、资源监控等方面。
技术实现思路
1、为此,本专利技术提供一种关于实时同步实施方案,用以克服现有技术中企业应用在对数据的加工处理方面相对较弱导致质量稽核策略、脏数据策略、动态字段增减下的实时同步、资源监控的问题。
2、为实现上述目的,本专利技术提供一种关于实时同步实施方案,包括:
3、数据采集,通过flink cdc采集binlog日志;
4、字段变更事件识别,根据是否存在字段变更事件生成下游二段kafka,或,将变更前的数据写入sink端;
5、质量稽核,由flink实时读取/写入时对行/列数据进行类型匹配、数值判空、格式校对,以确定符合稽核策略的数据;
6、算子编排,将每行所包含的字段数值进行加工,对每个算子设置下标,方案对用户多个算子下标进行排序,下放到rts engine以策略形式植入数据链路;
7、脏数据策略与恢复,针对异常数据设置异常策略,每一种异常策略对应一种异常类型,将确定的脏数据进行处理操作;
8、资源管理监控,以kaf
9、进一步地,源端通过flink cdc采集binlog日志,将变化的数据和变化的字段捕获写入一段kafka,rts engine判断是否有字段变更事件。
10、进一步地,无变更字段时,将数据写入下游二段kafka入sink端;存在变更字段时,先将变更前的数据写入sink端,未变更的数据先暂停写入,待执行构建ddl-->执行ddl-->构建dml完成后,从新消费再入二段kafka后进入sink端。
11、进一步地,提供以作业、库表粒度的策略配置,随作业自身下放到rts engine,数据经由flink实时读取、写入时对行/列数据进行类型匹配、数值判空以及格式校对,对符合稽核策略的数据入库。
12、进一步地,数据传输过程将每行所包含的字段数值进行加工,包括字符串截取、敏感数据混淆、字符串反转以及数据加密。
13、进一步地,对每个算子设置下标,方案对用户多个算子下标进行排序,下放到rtsengine以策略形式植入数据链路,以pipeline流水线式执行。
14、进一步地,针对异常会设置异常策略,包括主键冲突、数据超长、类型转换异常以及非空判断异常均对应一种异常策略。
15、进一步地,数据传输以kafka为中继,缓冲所有用户数据,以topic、partition为资源,对传输的表数据写入某固定分区以保障数据。
16、与现有技术相比,本专利技术的有益效果在于,本专利技术技术方案中以flink cdc为source数据采集,以flink connector为sink端写入,以自研rts engine为处理引擎,用于策略的植入和控制、资源管理和监控。此方案具备高效、智能、可扩展等特点。此方案在开源的基础上,使其实时同步链路更加符合业务需要,其设计思路亦更加系统化、模块化、灵活化和具有先进性。
本文档来自技高网...【技术保护点】
1.一种关于实时同步实施方案,其特征在于,包括:
2.根据权利要求1所述的关于实时同步实施方案,其特征在于,源端通过Flink cdc采集binlog日志,将变化的数据和变化的字段捕获写入一段kafka,RTS Engine判断是否有字段变更事件。
3.根据权利要求2所述的关于实时同步实施方案,其特征在于,无变更字段时,将数据写入下游二段kafka入sink端;存在变更字段时,先将变更前的数据写入sink端,未变更的数据先暂停写入,待执行构建ddl-->执行ddl-->构建dml完成后,从新消费再入二段kafka后进入sink端。
4.根据权利要求3所述的关于实时同步实施方案,其特征在于,提供以作业、库表粒度的策略配置,随作业自身下放到RTS Engine,数据经由Flink实时读取、写入时对行/列数据进行类型匹配、数值判空以及格式校对,对符合稽核策略的数据入库。
5.根据权利要求4所述的关于实时同步实施方案,其特征在于,数据传输过程将每行所包含的字段数值进行加工,包括字符串截取、敏感数据混淆、字符串反转以及数据加密。<
...【技术特征摘要】
1.一种关于实时同步实施方案,其特征在于,包括:
2.根据权利要求1所述的关于实时同步实施方案,其特征在于,源端通过flink cdc采集binlog日志,将变化的数据和变化的字段捕获写入一段kafka,rts engine判断是否有字段变更事件。
3.根据权利要求2所述的关于实时同步实施方案,其特征在于,无变更字段时,将数据写入下游二段kafka入sink端;存在变更字段时,先将变更前的数据写入sink端,未变更的数据先暂停写入,待执行构建ddl-->执行ddl-->构建dml完成后,从新消费再入二段kafka后进入sink端。
4.根据权利要求3所述的关于实时同步实施方案,其特征在于,提供以作业、库表粒度的策略配置,随作业自身下放到rts engine,数据经由flink实时读取、写入时对行/列数据进行类型匹配、数值判空...
【专利技术属性】
技术研发人员:高海玲,高经郡,宋东喜,
申请(专利权)人:北京科杰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。