本发明专利技术公开了一种特征宽表构建方法、装置、终端设备及计算机可读存储介质,该方法包括:获取源数据,根据预设的特征计算算子,对所述源数据进行特征开发,得到多个特征表格;将所述多个特征表格进行特征合并,得到特征宽表。本发明专利技术基于算子实现特征宽表的便捷高效构建,以提升特征开发效率。以提升特征开发效率。以提升特征开发效率。
【技术实现步骤摘要】
特征宽表构建方法、装置、终端设备及介质
[0001]本专利技术涉及数据处理
,尤其涉及一种特征宽表构建方法、装置、终端设备及计算机可读存储介质。
技术介绍
[0002]应用大数据平台普遍通过开发复杂的结构化查询语言(sql)实现数据特征计算,比如最近6个月的资金变化率、环比、同比、累计比等,其中,各sql程序独立执行并将得到的执行结果存储为临时表,以进一步将多张临时表拼接成一个大宽表。
[0003]但是,上述方式至少存在以下问题:
[0004](1)sql脚本开发过程复杂,尤其是对于复合特征,需要进行多步加工,使得sql处理逻辑复杂,容易出错;
[0005](2)序列特征处理困难。sql处理单一的统计性指标的能力尚可,但是无法处于序列性指标,比如,最近n次相邻去重列表、连续子序列出现次数等;
[0006](3)多表拼接性能低下。特征宽表数据往往是来源多张表,sql脚本多表拼接性能慢,需要额外优化代码性能。
[0007](4)无底层共用的加工逻辑,使得开发一个特征宽表往往需要开发好多个脚本去处理不同的数据,导致需要维护的脚本多而繁杂,后期维护成本高。
[0008]总的来说,现有的sql特征开发方式,操作复杂且无法适用于各类特征开发场景,导致特征开发效率低下且成本较高。
技术实现思路
[0009]本专利技术的主要目的在于提供一种特征宽表构建方法、装置、终端设备及计算机可读存储介质,旨在基于算子实现特征宽表的便捷高效构建,以实现高效率且低成本的特征开发。
[0010]为实现上述目的,本专利技术提供一种特征宽表构建方法,所述方法包括以下步骤:
[0011]获取源数据,根据预设的特征计算算子,对所述源数据进行特征开发,得到多个特征表格;
[0012]将所述多个特征表格进行特征合并,得到特征宽表。
[0013]可选地,在所述获取源数据,根据预设的特征计算算子,对所述源数据进行特征开发,得到多个特征表格的步骤之前,还包括:
[0014]获取用户基于预设的图形化配置界面触发的算子配置指令;
[0015]根据所述算子配置指令,配置所述特征计算算子,其中,所述特征计算算子包括单一性指标、复合型指标、交叉型指标、比率型指标、变化型指标中的至少一个。
[0016]可选地,所述根据所述算子配置指令,配置所述特征计算算子的步骤,包括:
[0017]基于所述算子配置指令,获取由用户通过所述图形化配置界面确定的第一配置参数,其中,所述第一配置参数包括:统计主体、第一统计时间窗口和第一计算类型以及第一
特征字段名;
[0018]在所述第一统计时间窗口内,根据所述第一计算类型,针对所述统计主体的统计内容进行计算得到第一计算结果;
[0019]基于所述第一特征字段名,将所述统计主体和所述第一计算结果进行保存,以配置所述单一性指标。
[0020]可选地,所述第一配置参数还包括第二计算类型和第二特征字段名,在所述根据所述第一计算类型,针对所述统计主体的统计内容进行计算得到第一计算结果的步骤之后,还包括:
[0021]根据所述第二计算类型,对所述第一计算结果进行计算得到第二计算结果;
[0022]根据所述第二特征字段名,将所述统计主体和所述第二计算结果进行保存,以配置所述复合性指标。
[0023]可选地,所述第一配置参数还包括:第三计算类型、第三特征字段名以及交叉定位条件,在所述根据所述第一计算类型,针对所述统计主体的统计内容进行计算得到第一计算结果的步骤之后,还包括:
[0024]确定所述第一计算结果在所述交叉定位条件下对应的交叉主体;
[0025]根据所述第三计算类型,针对所述交叉主体的统计内容进行计算得到第三计算结果;
[0026]根据所述第三特征字段名,将所述统计主体和所述第三计算结果进行保存,以配置所述交叉性指标。
[0027]可选地,所述根据所述算子配置指令,配置所述特征计算算子的步骤,包括:
[0028]基于所述算子配置指令,获取由用户确定的第二配置参数,其中,所述第二配置参数包括:分子配置参数、分母配置参数和第四特征字段名;
[0029]分别根据所述分子配置参数和所述分母配置参数获取对应的第四计算结果和第五计算结果;
[0030]根据所述第四特征字段名,将所述第四计算结果和所述第五计算结果的比值进行保存,以配置所述比率型指标。
[0031]可选地,所述根据所述算子配置指令,配置所述特征计算算子的步骤,包括:
[0032]基于所述算子配置指令,获取由用户确定的第三配置参数,其中,所述第三配置参数包括:一度配置参数、二度配置参数以及第五特征字段名;
[0033]根据所述一度配置参数,对所述统计主体的统计内容进行计算得到第六计算结果;
[0034]根据所述二度配置参数,获取所述第六计算结果在预设时间范围内的变化趋势;
[0035]根据所述第五特征字段名,将所述变化趋势对应的变化指标值进行存储,以配置所述变化型指标。
[0036]可选地,所述将所述多个特征表格进行拼接,得到特征宽表的步骤,包括:
[0037]根据预设数据合并算子,通过二叉树合并方式,将所述多个特征表格进行拼接得到特征宽表,并将所述特征宽表存储至预设数据仓库。
[0038]可选地,所述根据预设的特征计算算子,对所述源数据进行特征开发,得到多个特征表格的步骤,包括:
[0039]根据所述单一性指标、所述复合型指标、所述交叉型指标、所述比率型指标和所述变化型指标中的至少一个,对所述源数据进行特征开发,得到多个特征表格。
[0040]为实现上述目的,本专利技术还提供一种特征宽表构建装置,所述特征宽表构建装置包括:
[0041]特征开发模块,用于获取源数据,根据预设的特征计算算子,对所述源数据进行特征开发,得到多个特征表格;
[0042]特征合并模块,用于将所述多个特征表格进行特征合并,得到特征宽表。
[0043]为实现上述目的,本专利技术还提供一种终端设备,所述终端设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的特征宽表构建程序,所述特征宽表构建程序被所述处理器执行时实现如上所述的特征宽表构建方法的步骤。
[0044]此外,为实现上述目的,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有特征宽表构建程序,所述特征宽表构建程序被处理器执行时实现如上所述的特征宽表构建方法的步骤。
[0045]为实现上述目的,本专利技术还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上所述的特征宽表构建方法的步骤。
[0046]本专利技术提供一种特征宽表构建方法、装置、终端设备、计算机可读存储介质以及计算机程序产品,通过获取源数据,根据预设的特征计算算子,对所述源数据进行特征开发,得到多个特征表格;将所述多个特征表格进行特征合本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种特征宽表构建方法,其特征在于,所述特征宽表构建方法包括:获取源数据,根据预设的特征计算算子,对所述源数据进行特征开发,得到多个特征表格;将所述多个特征表格进行特征合并,得到特征宽表。2.如权利要求1所述的特征宽表构建方法,其特征在于,在所述获取源数据,根据预设的特征计算算子,对所述源数据进行特征开发,得到多个特征表格的步骤之前,还包括:获取用户基于预设的图形化配置界面触发的算子配置指令;根据所述算子配置指令,配置所述特征计算算子,其中,所述特征计算算子包括单一性指标、复合型指标、交叉型指标、比率型指标、变化型指标中的至少一个。3.如权利要求2所述的特征宽表构建方法,其特征在于,所述根据所述算子配置指令,配置所述特征计算算子的步骤,包括:基于所述算子配置指令,获取由用户通过所述图形化配置界面确定的第一配置参数,其中,所述第一配置参数包括:统计主体、第一统计时间窗口和第一计算类型以及第一特征字段名;在所述第一统计时间窗口内,根据所述第一计算类型,针对所述统计主体的统计内容进行计算得到第一计算结果;基于所述第一特征字段名,将所述统计主体和所述第一计算结果进行保存,以配置所述单一性指标。4.如权利要求3所述的特征宽表构建方法,其特征在于,所述第一配置参数还包括第二计算类型和第二特征字段名,在所述根据所述第一计算类型,针对所述统计主体的统计内容进行计算得到第一计算结果的步骤之后,还包括:根据所述第二计算类型,对所述第一计算结果进行计算得到第二计算结果;根据所述第二特征字段名,将所述统计主体和所述第二计算结果进行保存,以配置所述复合性指标。5.如权利要求3所述的特征宽表构建方法,其特征在于,所述第一配置参数还包括:第三计算类型、第三特征字段名以及交叉定位条件,在所述根据所述第一计算类型,针对所述统计主体的统计内容进行计算得到第一计算结果的步骤之后,还包括:确定所述第一计算结果在所述交叉定位条件下对应的交叉主体;根据所述第三计算类型,针对所述交叉主体的统计内容进行计算得到第三计算结果;根据所述第三特征字段名,将所述统计主体和所述第三计算结果进行保存,以配置所述交叉性指标。6.如权利要求2所述的特征宽表构建方法,其特征在于,所述根据所述算子配置指令,配置所述特征计算算子的步骤,包括:基于所述算子配置...
【专利技术属性】
技术研发人员:秦敏,
申请(专利权)人:招商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。