本申请公开了一种数据提取方法、装置及电子设备,可应用于大数据领域或金融领域。解析数据提取脚本,得到数据提取字段和数据提取规则,获取字段与字段流转操作过程信息的对应关系,从对应关系中,查询得到数据提取字段对应的字段流转操作过程信息,并对数据提取脚本中的数据提取字段进行数据流转操作处理,得到目标脚本,运行目标脚本,以在数据湖中提取出数据提取字段对应的字段提取结果,并按照数据提取规则对字段提取结果进行数据处理操作。即通过本发明专利技术,能够自动从数据湖中提取历史业务数据,并且在提取过程中,会将数据提取脚本中的不规范的数据提取字段进行数据流转操作处理,得到规范化的数据提取字段,保证数据提取的准确性。确性。确性。
【技术实现步骤摘要】
一种数据提取方法、装置及电子设备
[0001]本专利技术涉及数据提取领域,更具体的说,涉及一种数据提取方法、装置及电子设备。
技术介绍
[0002]在进行产品运行效果的评估时,需要获取较多的历史业务数据,并基于历史业务数据进行效果评估。目前,业务系统仅能够保存较短时间内的业务数据。因此,在获取进行效果评估时的历史业务数据时,需要根据数据提取需求从存储历史业务数据的数据湖中提取。
[0003]目前,在从数据湖中提取历史业务数据时,是人工解析数据提取需求,查询并提取相应的历史业务数据,此种数据提取方式,数据提取准确度较低。
技术实现思路
[0004]有鉴于此,本专利技术提供一种数据提取方法、装置及电子设备,以解决现有的数据提取方式的数据提取准确度较低的问题。
[0005]为解决上述技术问题,本专利技术采用了如下技术方案:
[0006]一种数据提取方法,包括:
[0007]获取数据提取脚本;
[0008]对所述数据提取脚本进行解析,得到所述数据提取脚本中的数据提取字段和数据提取规则;
[0009]获取预先生成的字段与字段流转操作过程信息的对应关系,所述字段流转操作过程信息为字段存储至数据湖中的数据流转操作过程信息;
[0010]从所述对应关系中,查询得到所述数据提取字段对应的字段流转操作过程信息;
[0011]按照所述字段流转操作过程信息,对所述数据提取脚本中的数据提取字段进行数据流转操作处理,得到目标脚本;
[0012]运行所述目标脚本,以在所述数据湖中提取出所述数据提取字段对应的字段提取结果,并按照所述数据提取规则对所述字段提取结果进行数据处理操作。
[0013]可选地,所述对应关系的生成过程包括:
[0014]获取可视化界面中的字段;
[0015]确定所述字段存储至数据湖的数据流转操作过程信息,所述数据流转操作过程信息包括多个字段流转操作步骤,所述字段流转操作步骤包括数据流转过程的数据存储位置和数据流转操作;
[0016]生成字段与字段流转操作过程信息的对应关系。
[0017]可选地,确定所述字段存储至数据湖的数据流转操作过程信息,包括:
[0018]对业务系统的框架图、接口文档和数据库设计文档进行解析,解析出所述字段存储至数据湖的数据流转操作过程信息。
[0019]可选地,确定所述字段存储至数据湖的数据流转操作过程信息,包括:
[0020]获取输入的所述字段存储至数据湖的数据流转操作过程信息。
[0021]可选地,按照所述字段流转操作过程信息,对所述数据提取脚本中的数据提取字段进行数据流转操作处理,得到目标脚本,包括:
[0022]按照所述字段流转操作过程信息中的字段流转操作步骤的执行顺序,依次执行每一字段流转操作步骤,以对所述数据提取脚本中的数据提取字段进行字段流转操作,得到数据提取字段对应的流转字段;
[0023]将所述数据提取脚本中的数据提取字段替换为所述流转字段,即可得到目标脚本。
[0024]一种数据提取装置,包括:
[0025]脚本获取模块,用于获取数据提取脚本;
[0026]脚本解析模块,用于对所述数据提取脚本进行解析,得到所述数据提取脚本中的数据提取字段和数据提取规则;
[0027]关系获取模块,用于获取预先生成的字段与字段流转操作过程信息的对应关系,所述字段流转操作过程信息为字段存储至数据湖中的数据流转操作过程信息;
[0028]信息查询模块,用于从所述对应关系中,查询得到所述数据提取字段对应的字段流转操作过程信息;
[0029]脚本处理模块,用于按照所述字段流转操作过程信息,对所述数据提取脚本中的数据提取字段进行数据流转操作处理,得到目标脚本;
[0030]脚本运行模块,用于运行所述目标脚本,以在所述数据湖中提取出所述数据提取字段对应的字段提取结果,并按照所述数据提取规则对所述字段提取结果进行数据处理操作。
[0031]可选地,还包括关系生成模块,所述关系生成模块包括:
[0032]字段获取子模块,用于获取可视化界面中的字段;
[0033]信息确定子模块,用于确定所述字段存储至数据湖的数据流转操作过程信息,所述数据流转操作过程信息包括多个字段流转操作步骤,所述字段流转操作步骤包括数据流转过程的数据存储位置和数据流转操作;
[0034]关系生成子模块,用于生成字段与字段流转操作过程信息的对应关系。
[0035]可选地,所述信息确定子模块具体用于:
[0036]对业务系统的框架图、接口文档和数据库设计文档进行解析,解析出所述字段存储至数据湖的数据流转操作过程信息。
[0037]可选地,所述信息确定子模块具体用于:
[0038]获取输入的所述字段存储至数据湖的数据流转操作过程信息。
[0039]一种电子设备,包括:存储器和处理器;
[0040]其中,所述存储器用于存储程序;
[0041]处理器调用程序并用于执行上述的数据提取方法。
[0042]相较于现有技术,本专利技术具有以下有益效果:
[0043]本专利技术提供了一种数据提取方法、装置及电子设备,获取数据提取脚本,对所述数据提取脚本进行解析,得到所述数据提取脚本中的数据提取字段和数据提取规则,获取预
先生成的字段与字段流转操作过程信息的对应关系,所述字段流转操作过程信息为字段存储至数据湖中的数据流转操作过程信息,从所述对应关系中,查询得到所述数据提取字段对应的字段流转操作过程信息,按照所述字段流转操作过程信息,对所述数据提取脚本中的数据提取字段进行数据流转操作处理,得到目标脚本,运行所述目标脚本,以在所述数据湖中提取出所述数据提取字段对应的字段提取结果,并按照所述数据提取规则对所述字段提取结果进行数据处理操作。即通过本专利技术,能够自动从数据湖中提取历史业务数据,并且在提取过程中,会将数据提取脚本中的不规范的数据提取字段进行数据流转操作处理,得到规范化的数据提取字段,保证数据提取的准确性。
附图说明
[0044]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0045]图1为本专利技术实施例提供的一种数据提取方法的方法流程图;
[0046]图2为本专利技术实施例提供的另一种数据提取方法的方法流程图;
[0047]图3为本专利技术实施例提供的再一种数据提取方法的方法流程图;
[0048]图4为本专利技术实施例提供的一种多表关联的场景示意图;
[0049]图5为本专利技术实施例提供的一种数据提取装置的结构示意图。
具体实施方式
[0050]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据提取方法,其特征在于,包括:获取数据提取脚本;对所述数据提取脚本进行解析,得到所述数据提取脚本中的数据提取字段和数据提取规则;获取预先生成的字段与字段流转操作过程信息的对应关系,所述字段流转操作过程信息为字段存储至数据湖中的数据流转操作过程信息;从所述对应关系中,查询得到所述数据提取字段对应的字段流转操作过程信息;按照所述字段流转操作过程信息,对所述数据提取脚本中的数据提取字段进行数据流转操作处理,得到目标脚本;运行所述目标脚本,以在所述数据湖中提取出所述数据提取字段对应的字段提取结果,并按照所述数据提取规则对所述字段提取结果进行数据处理操作。2.根据权利要求1所述的数据提取方法,其特征在于,所述对应关系的生成过程包括:获取可视化界面中的字段;确定所述字段存储至数据湖的数据流转操作过程信息,所述数据流转操作过程信息包括多个字段流转操作步骤,所述字段流转操作步骤包括数据流转过程的数据存储位置和数据流转操作;生成字段与字段流转操作过程信息的对应关系。3.根据权利要求2所述的数据提取方法,其特征在于,确定所述字段存储至数据湖的数据流转操作过程信息,包括:对业务系统的框架图、接口文档和数据库设计文档进行解析,解析出所述字段存储至数据湖的数据流转操作过程信息。4.根据权利要求2所述的数据提取方法,其特征在于,确定所述字段存储至数据湖的数据流转操作过程信息,包括:获取输入的所述字段存储至数据湖的数据流转操作过程信息。5.根据权利要求1所述的数据提取方法,其特征在于,按照所述字段流转操作过程信息,对所述数据提取脚本中的数据提取字段进行数据流转操作处理,得到目标脚本,包括:按照所述字段流转操作过程信息中的字段流转操作步骤的执行顺序,依次执行每一字段流转操作步骤,以对所述数据提取脚本中的数据提取字段进行字段流转操作,得到数据提取字段对应的流转字段;将所述数据提取脚本中的数据提取字段替换...
【专利技术属性】
技术研发人员:宋雨,李敬文,杨晓明,黄康,程璐,赵辉,陈欢,柏莹,简苡霖,程轼博,王舒倩,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。