基于大数据的银行风险分析库平台、搭建方法及可读介质技术

技术编号:25991512 阅读:25 留言:0更新日期:2020-10-20 19:00
本发明专利技术涉及金融风控技术领域,具体涉及一种基于大数据的银行风险分析库平台、搭建方法及可读介质,本发明专利技术以大数据平台为依托,通过引入ETL工具、元数据管理和数据管控技术,对底层数据进行建模,从而快速建立强大稳定的数据分析系统,提高数据获取的便利性和时效性,提升数据质量,从而满足数据建模和分析的需要,防范欺诈风险和信用风险,实现数据价值在业务应用中转变为生产力,构建数据价值利用的有效闭环,真正实现从数据支撑到数据运用的转变。本发明专利技术引入大数据技术,支持实时数据加工和计算,要比采用传统数据库的方式加工的时间要少50%以上,提高了数据质量,屏蔽了新系统上线带来得应用层的改动。

【技术实现步骤摘要】
基于大数据的银行风险分析库平台、搭建方法及可读介质
本专利技术涉及金融风控
,具体涉及一种基于大数据的银行风险分析库平台、搭建方法及可读介质。
技术介绍
随着互联网业务的快速发展和大数据时代的来领,传统银行对数据的采集、存储、应用、分析、管控、扩容均提出了新的要求。同时,银行内部也已经积累了大量的数据,数据种类日益丰富、数据规模不断扩大。虽然数据仓库系统在商业银行已发展十余年,但由于单节点处理能力较弱,以Scale-up纵向扩容方法提升硬件能力的方式成本高昂,性能提升有限,已经很难在指定的时间窗口中完成数据统计分析工作,也无法继续接入其它的业务系统数据,满足不了风控实时数据查询和分析得需要。因此,各家银行纷纷开始引入大数据技术,整合行里的数据资源、采集外部数据、基于大数据建立风险分析库平台,满足实时分析与决策等需求。目前风险分析库平台的搭建普遍有两种方式,一种是由源系统或数据仓库定期卸数,由科技部门定期提供全量数据,数据存储完全与源系统表一致,采用传统数据库技术构建的数据分析平台。另外一种是引入开源的大数据技术搭建得大数据平台,在其之上开放沙箱环境,作为风险分析库,满足业务人员使用。方案一存在的问题是数据获取的时效性、处理效率不足,对接源系统众多,表结构复杂,数据质量不高,难以满足实时风险分析和复杂关联分析的需要。方案二存在得问题是以技术视角推动平台建设,搭建应用时缺乏长远考虑,数据管控、数据挖掘和建模分析能力不足,搭建得“先进”平台运转不起来。
技术实现思路
针对现有技术的不足,本专利技术公开了一种基于大数据的银行风险分析库平台、搭建方法及可读介质,目的是提供了一种风险分析库平台的搭建方法,以大数据平台为依托,通过引入ETL工具、元数据管理和数据管控技术,对底层数据进行建模,从而快速建立强大稳定的数据分析系统,提高数据获取的便利性和时效性,提升数据质量,从而满足数据建模和分析的需要,防范欺诈风险和信用风险,实现数据价值在业务应用中转变为生产力,构建数据价值利用的有效闭环,真正实现从数据支撑到数据运用的转变。本专利技术通过以下技术方案予以实现:第一方面,本专利技术公开一种基于大数据的银行风险分析库平台搭建方法,所述方法包括以下步骤:S1梳理源系统数据库表结构,基于已有数据进行数据应用方案设计;S2基于应用需求进行衍生层设计,并基于衍生层应用需求建立标准层,实现从源系统到衍生层得衔接;S3梳理关系映射表和衍生层加工逻辑;S4通过元数据管理模块生成数据表创建sql、数据映射sql和指标加工sql;S5通过元数据分类和建模、血缘关系和影响分析生成数据核验规则sql,对必要字段进行规则校验,进行数据清洗;S6通过开源软件StreamSets,调用元数据管理模块生成得各种sql,通过SQL解析器获取执行计划,按照定义得ETL流程,完成数据抽取、转换、加载和计算的全过程。S7将结果数据分发至应用系统进行数据应用。更进一步的,所述S1中,所述梳理源系统数据库表结构,明确可采集得数据范围、采集频率和采集方式,所述数据应用方案设计包括数据查询、报表、关联分析和数据挖掘、模型验证与优化和风险预警。更进一步的,所述S3中,梳理关系映射表是通过建立数据映射关系表,连接表、字段和字段值的关系;梳理衍生层加工逻辑是通过标准层的数据库表加工衍生层得逻辑梳理,包括指标加工逻辑、分类关系、关联节点和预测数据。更进一步的,所述S4中,将所有的数据实体以及数据实体加工处理过程中的逻辑规则和数据映射关系上传至元数据管理模块,从而生成数据表创建sql、数据映射sql和指标加工sql。更进一步的,所述S5中,进行数据清洗时,将不符合规则的数据过滤到分析库管理系统中,并给出提示,然后由人工干预并在前端进行数据修正后将数据寸回分析库。更进一步的,所述数据应用支持将结果数据分发至应用系统并支持数据应用。第二方面,本专利技术公开一种基于大数据的银行风险分析库平台,所述平台用于支撑并执行第一方面所述的基于大数据的银行风险分析库平台搭建方法,其特征在于,包括文件存储区、临时数据区、贴源数据区、主题数据区、应用数据区和归档数据区。更进一步的,源系统到文件存储区时,执行批量数据同步,由源系统定时卸载新增或时点数据到文件服务器上的文件存储区;文件存储区到临时数据区时,执行文件到达事件监控,触发ETL工作流,通过ETL程序定时抓取文件服务器上的数据文件,进行文件质量核验并解析加载到临时数据区;临时数据区到贴源数据区时,通过ETL工具按照贴源数据模型整合数据,存储在贴源数据区;源系统到贴源数据区时,执行实时数据同步,由ETL工具通过数据库数据交换组件获取增量数据,执行标准化处理和贴源整合,存储在贴源数据区;贴源数据区到主题数据区时,按照主题数据模型整合数据并生成汇总,存储在主题数据区;主题数据区到应用数据区时,按照应用数据加工规则,调取sql、java或python代码执行数据加工计算,存储再应用数据区;数据归档时,按照不同区域数据得特点,执行不同的归档策略,方便进行历史数据查询和业务回溯。更进一步的,所述平台数据获取包括实时和批量,所述实时方式为ETL工具通过数据库数据交换组件获取增量数据,执行标准化处理和贴源整合,存储在贴源数据区;所述批量方式为源系统定时卸载新增或时点数据到文件服务器上的文件存储区,通过ETL程序定时抓取文件服务器上的数据文件,存储在临时数据区;按照贴源数据模型整合数据存储在贴源数据区。第三方面,本专利技术公开一种可读介质,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行第一方面所述的基于大数据的银行风险分析库平台搭建方法。本专利技术的有益效果为:本专利技术引入大数据技术,支持实时数据加工和计算,要比采用传统数据库的方式加工的时间要少50%以上。本平台支持在行里现有的大数据平台直接搭建应用,也支持轻量级的独立部署,所有的元数据、描述信息、血缘关系、加工逻辑sql、ETL调度任务都支持页面化的方式进行配置和查看。新增需求和问题修复时,通过配置即可完成,极大得降低了由于项目协助和编码开发所带来的地风险。同时,各个源系统的差异化数据都可以支持实时和批量得方式获取,通过ETL和数据核验加载到标准层中,提高了数据质量,上层应用人员只需要关注标准层的元数据,无需关注源系统得差异,屏蔽了新系统上线带来得应用层的改动。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是一种基于大数据的银行风险分析库平台搭建方法原理步骤图;图2是本专利技术实施例平台搭建方法原理图;图3是一种基于本文档来自技高网...

【技术保护点】
1.一种基于大数据的银行风险分析库平台搭建方法,其特征在于,所述方法包括以下步骤:/nS1梳理源系统数据库表结构,基于已有数据进行数据应用方案设计;/nS2基于应用需求进行衍生层设计,并基于衍生层应用需求建立标准层,实现从源系统到衍生层得衔接;/nS3梳理关系映射表和衍生层加工逻辑;/nS4通过元数据管理模块生成数据表创建sql、数据映射sql和指标加工sql;/nS5通过元数据分类和建模、血缘关系和影响分析生成数据核验规则sql,对必要字段进行规则校验,进行数据清洗;/nS6通过开源软件StreamSets,调用元数据管理模块生成得各种sql,通过SQL解析器获取执行计划,按照定义得ETL流程,完成数据抽取、转换、加载和计算的全过程。/nS7将结果数据分发至应用系统进行数据应用。/n

【技术特征摘要】
1.一种基于大数据的银行风险分析库平台搭建方法,其特征在于,所述方法包括以下步骤:
S1梳理源系统数据库表结构,基于已有数据进行数据应用方案设计;
S2基于应用需求进行衍生层设计,并基于衍生层应用需求建立标准层,实现从源系统到衍生层得衔接;
S3梳理关系映射表和衍生层加工逻辑;
S4通过元数据管理模块生成数据表创建sql、数据映射sql和指标加工sql;
S5通过元数据分类和建模、血缘关系和影响分析生成数据核验规则sql,对必要字段进行规则校验,进行数据清洗;
S6通过开源软件StreamSets,调用元数据管理模块生成得各种sql,通过SQL解析器获取执行计划,按照定义得ETL流程,完成数据抽取、转换、加载和计算的全过程。
S7将结果数据分发至应用系统进行数据应用。


2.根据权利要求1所述的基于大数据的银行风险分析库平台搭建方法,其特征在于,所述S1中,所述梳理源系统数据库表结构,明确可采集得数据范围、采集频率和采集方式,所述数据应用方案设计包括数据查询、报表、关联分析和数据挖掘、模型验证与优化和风险预警。


3.根据权利要求1所述的基于大数据的银行风险分析库平台搭建方法,其特征在于,所述S3中,梳理关系映射表是通过建立数据映射关系表,连接表、字段和字段值的关系;
梳理衍生层加工逻辑是通过标准层的数据库表加工衍生层得逻辑梳理,包括指标加工逻辑、分类关系、关联节点和预测数据。


4.根据权利要求1所述的基于大数据的银行风险分析库平台搭建方法,其特征在于,所述S4中,将所有的数据实体以及数据实体加工处理过程中的逻辑规则和数据映射关系上传至元数据管理模块,从而生成数据表创建sql、数据映射sql和指标加工sql。


5.根据权利要求1所述的基于大数据的银行风险分析库平台搭建方法,其特征在于,所述S5中,进行数据清洗时,将不符合规则的数据过滤到分析库管理系统中,并给出提示,然后由人工干预并在前端进行数据修正后将数据寸回分析库。


6.根据权利要求1所述的基于大数据的银行风险分...

【专利技术属性】
技术研发人员:王玉海曾杰张志宏陈绍佳
申请(专利权)人:睿智合创北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1