基于互联网监管的多数据源动态数据同步治理方法及系统技术方案

技术编号:28786815 阅读:22 留言:0更新日期:2021-06-09 11:22
本发明专利技术公开了基于互联网监管的多数据源动态数据同步治理方法及系统,属于互联网+监管领域,本发明专利技术要解决的技术问题为如何帮助用户快速构建大数据处理分析流程以及实现低成本快速构建数据中心,采用的技术方案为:该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合,并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控,实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心;具体如下:数据源管理:管理数据连接服务;数据流程设计:将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;模板管理:流程迁移和复用。流程迁移和复用。流程迁移和复用。

【技术实现步骤摘要】
基于互联网监管的多数据源动态数据同步治理方法及系统


[0001]本专利技术涉及互联网+监管领域,具体地说是一种基于互联网监管的多数据源动态数据同步治理方法及系统。

技术介绍

[0002]当前,新一代信息技术正在快速改变着社会的生产和生活方式,数据已经成为组织和企业的核心资产,数字经济正在驱动新一轮的全球变革,企业的数字化转型已成为大数据时代的一种趋势。
[0003]互联网、大数据、人工智能和实体经济深度融合,推动各行各业的融合创新。在融合创新的时代,充分利用数据的关联、交叉和融合实现大数据的价值最大化成为各行各业实施数字化转型的关键之所在。在此背景下,跨领域、跨行业、跨地域的数据走向跨域融合,组织数据、互联网数据、物联网数据、科研数据等多源数据走向融合,结构化数据、半结构化数据、非结构化数据等超媒体数据走向融合。以大规模、多源异构、跨领域、跨媒体、跨语言、动态演化为主要特征的多源异构超媒体数据融合已经成为垂直行业和生态型企业实施数字化转型战略亟待解决的关键问题。
[0004]传统的数据仓库系统中,在数据加载入库之前数据模型都是事先定义好的,它只能存放结构化的、已被处理的数据。
[0005]故如何帮助用户快速构建大数据处理分析流程以及实现低成本快速构建数据中心是目前急需解决的问题。

技术实现思路

[0006]本专利技术的技术任务是提供一种基于互联网监管的多数据源动态数据同步治理方法及系统,来解决如何帮助用户快速构建大数据处理分析流程以及实现低成本快速构建数据中心的问题。
[0007]本专利技术的技术任务是按以下方式实现的,一种基于互联网监管的多数据源动态数据同步治理方法,该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合,并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控,实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心;具体如下:
[0008]数据源管理:管理数据连接服务;
[0009]数据治理:数据流程设计、数据流程调试、数据流程监控以及数据流程运维,将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;
[0010]模板管理:流程迁移和复用,提供数据流模板的上传、删除和下载功能。
[0011]作为优选,数据源管理具体如下:
[0012]用户统一定义数据源连接,确保在设计数据处理流程时,能够直接引用数据源连接;
[0013]数据源连接采用连接池方式,防止占用大量数据源连接数;其中,数据源连接的类型包括如下:
[0014]①
、JDBC连接类型,如MySQL、Oracle、MSSQL、DB2等各种支持JDBC的数据库;
[0015]②
、FTP连接类型;
[0016]③
、SFTP连接类型;
[0017]④
、HDFS连接类型;
[0018]⑤
、HBase连接类型;
[0019]⑥
、Hive连接类型;
[0020]⑦
、ElasticSearch连接类型;
[0021]⑧
、Kafka连接类型;
[0022]⑨
、Excel及csv等其他连接类型。
[0023]作为优选,数据流程设计具体如下:
[0024]流程分组:提供增加、删除、修改分组、启动以及停止的流程设计功能,通过分组对数据流作业分层分类,降低数据处理流程的管理与运维难度;
[0025]流程树形展示:用树显示当前用户所创建的所有作业,作业名称用不同的颜色来区分作业运行状态:绿色表示作业运行正常,红色表示作业运行中有提示告警信息,黑色表示作业没有运行;
[0026]可视化作业流程设计;
[0027]数据接入:提供多种数据接入处理器,用于采集各种多源异构数据,提供广泛的数据源适配、高性能的数据采集和灵活的调度模式,满足各种数据采集需求;
[0028]数据加载:数据加载提供多种数据加载处理器,用于将数据导入各种数据存储服务;
[0029]数据清洗:数据加载提供多种数据清洗处理器,用于对采集的数据进行校验和清洗;
[0030]数据转换:数据加载提供了多种数据转换处理器,用于对采集的数据进行转换;
[0031]自定义处理器:通过java代码编写实现特定功能的处理器,该处理器加载到流程作业,实现更复杂的功能,比如数据拆分,流数据是否在数据表中等。
[0032]更优地,可视化作业流程设计具体如下:
[0033]每个数据流设计管理一个独立的画布,定义一个或多个流程节点,组成一个或多个数据流程;
[0034]在画布的工具栏提供丰富的数据处理类型,通过拖拉拽方式定义流程节点并连接各流程节点;
[0035]配置流程节点调度规则,配置流程节点属性,配置启动、停止流程或节点,配置调试和监控流程运行状态;
[0036]提供流程节点对齐、高亮展示的辅助功能;
[0037]流程定义、启停、调试、监控、运维的操作通过一个界面完成可视化方式的流程设计。
[0038]更优地,数据接入支持的数据源包括如下:
[0039]①
、通过JDBC方式采集数据,如MySQL、Oracle、DB2、各种支持JDBC的数据库;
[0040]②
、通过Oracle日志采集Oracle数据,能够采集数据库INSERT、UPDATE 及DELETE的所有数据操作;
[0041]③
、通过MySQL日志采集MySQL数据,能够采集数据库INSERT、UPDATE 及DELETE的所有数据操作;
[0042]④
、采集FTP/SFTP文件数据;
[0043]⑤
、采集HDFS文件数据;
[0044]⑥
、采集HBase数据;
[0045]⑦
、采集Hive数据;
[0046]⑧
、消费Kafka数据。
[0047]更优地,数据存储服务包括如下:
[0048]①
、数据导入各种支持JDBC的数据库,如MySQL、Oracle、DB2等;
[0049]②
、数据导入FTP/SFTP;
[0050]③
、数据导入HDFS;
[0051]④
、数据导入HBase;
[0052]⑤
、数据导入Hive;
[0053]⑥
、数据导入ElasticSearch;
[0054]⑦
、数据导入Kafka。
[0055]更优地,数据清洗类型包括如下:
[0056]①
、空值校验与非空校验;
[0057]②
、前缀校验与后缀校验;
[0058]③
、数据长度校验;
[0059]④
、数值范围校验;
[0060]⑤...

【技术保护点】

【技术特征摘要】
1.一种基于互联网监管的多数据源动态数据同步治理方法,其特征在于,该方法是通过对各种结构化数据、半结构化数据以及非结构化数据的数据走向进行融合,并提供一站式的数据开发环境、可视化流程设计、丰富的数据类型以及智能化的任务监控,实现用户快速构建大数据处理分析流程以及低成本快速构建数据中心;具体如下:数据源管理:管理数据连接服务;数据治理:数据流程设计、数据流程调试、数据流程监控以及数据流程运维,将每个数据处理流程定义为一个数据流作业,通过数据流作业管理数据处理流程;模板管理:流程迁移和复用,提供数据流模板的上传、删除和下载功能。2.根据权利要求1所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,数据源管理具体如下:用户统一定义数据源连接;数据源连接采用连接池方式;其中,数据源连接的类型包括如下:

、JDBC连接类型;

、FTP连接类型;

、SFTP连接类型;

、HDFS连接类型;

、HBase连接类型;

、Hive连接类型;

、ElasticSearch连接类型;

、Kafka连接类型;

、Excel及csv连接类型。3.根据权利要求1所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,数据流程设计具体如下:流程分组:提供增加、删除、修改分组、启动以及停止的流程设计功能,通过分组对数据流作业分层分类,降低数据处理流程的管理与运维难度;流程树形展示:用树显示当前用户所创建的所有作业,作业名称用不同的颜色来区分作业运行状态:绿色表示作业运行正常,红色表示作业运行中有提示告警信息,黑色表示作业没有运行;可视化作业流程设计;数据接入:提供多种数据接入处理器,用于采集各种多源异构数据,提供广泛的数据源适配、高性能的数据采集和灵活的调度模式,满足各种数据采集需求;数据加载:数据加载提供多种数据加载处理器,用于将数据导入各种数据存储服务;数据清洗:数据加载提供多种数据清洗处理器,用于对采集的数据进行校验和清洗;数据转换:数据加载提供了多种数据转换处理器,用于对采集的数据进行转换;自定义处理器:通过java代码编写实现特定功能的处理器,该处理器加载到流程作业。4.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,可视化作业流程设计具体如下:每个数据流设计管理一个独立的画布,定义一个或多个流程节点,组成一个或多个数据流程;
在画布的工具栏提供丰富的数据处理类型,通过拖拉拽方式定义流程节点并连接各流程节点;配置流程节点调度规则,配置流程节点属性,配置启动、停止流程或节点,配置调试和监控流程运行状态;提供流程节点对齐、高亮展示的辅助功能;流程定义、启停、调试、监控、运维的操作通过一个界面完成可视化方式的流程设计。5.根据权利要求3所述的基于互联网监管的多数据源动态数据同步治理方法,其特征在于,数据接入支持的数据源包括如下:

、通过JDBC方式采集数据;

、通过Oracle日志采集Oracle数据,能够采集数据库INSERT、UPDATE及DELETE的所有数据操作;

、通过MySQL日志采集MySQL数据,能够采集数据库INSERT、UPDATE及DELETE的所有数据操作;
...

【专利技术属性】
技术研发人员:侯居永栾丽丽张雷陈兆亮
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1