特征宽表生成及业务处理模型的训练方法和装置制造方法及图纸

技术编号:30434906 阅读:15 留言:0更新日期:2021-10-24 17:33
本说明书实施例公开了一种特征宽表生成及业务处理模型的训练方法和装置。所述特征宽表生成方法包括:基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,业务数据库中存储有不同业务的业务基础数据,元数据用于描述业务基础数据的属性;基于特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与目标业务相关的不同特征字段的字段值;基于特征源表信息,确定所述多个特征源表之间的关联字段;基于所述多个特征源表之间的关联字段和目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;执行建表语句和拼接语句,以得到用于记录目标特征字段的字段值的特征宽表。值的特征宽表。值的特征宽表。

【技术实现步骤摘要】
特征宽表生成及业务处理模型的训练方法和装置


[0001]本文件涉及计算机
,尤其涉及一种特征宽表生成及业务处理模型的训练方法和装置。

技术介绍

[0002]在各类业务场景中,通常需要对海量业务数据进行各种处理,例如在机器学习建模场景中,需要将不同的特征数据拼接成维度更多的特征数据。
[0003]目前,传统拼接方案是通过人工从业务数据集中筛选出所需的特征数据,然后对筛选出的特征数据进行拼接,得到用于存储更多维度的特征数据的特征宽表。但是,由于业务数据集的规模较大,且不同业务数据之间的业务逻辑存在较大差异性,这种人工创建特征宽表的方式无法保证效率和准确性。
[0004]因此,目前亟需一种高效且准确生成特征宽表的解决方案。

技术实现思路

[0005]本说明书实施例目的是提供一种特征宽表生成及业务处理模型的训练方法和装置,能够提高特征宽表的生成效率和准确性,并且能够基于生成的特征宽表进一步训练出业务处理模型。
[0006]为了实现上述目的,本说明书实施例采用下述技术方案:
[0007]第一方面,提供一种特征宽表生成方法,包括:
[0008]基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
[0009]基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
[0010]基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
[0011]基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
[0012]执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
[0013]第二方面,提供一种业务处理模型的训练方法,包括:
[0014]获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
[0015]查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
[0016]基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务
处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
[0017]第三方面,提供一种特征宽表生成装置,包括:
[0018]第一确定单元,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
[0019]建表语句构造单元,基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
[0020]第二确定单元,基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
[0021]拼接语句构造单元,基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
[0022]宽表生成单元,执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
[0023]第四方面,提供一种业务处理模型的训练装置,包括:
[0024]宽表获取单元,获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
[0025]查询单元,查询所述特征宽表,以得到与所述目标业务匹配的训练样本;
[0026]训练单元,基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。
[0027]第五方面,提供一种电子设备,包括:
[0028]处理器;以及
[0029]被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
[0030]基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
[0031]基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
[0032]基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
[0033]基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
[0034]执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
[0035]第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
[0036]基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含
的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
[0037]基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
[0038]基于所述特征源表信息,确定所述多个特征源表之间的关联字段;
[0039]基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;
[0040]执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。
[0041]第七方面,提供一种电子设备,包括:
[0042]处理器;以及
[0043]被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
[0044]获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;
[0045]查询所述特征宽表,以得到与所述目标业务匹配的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征宽表生成方法,包括:基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;基于所述特征源表信息,确定所述多个特征源表之间的关联字段;基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。2.如权利要求1所述的方法,所述基于所述特征源表信息,构造用于创建多个特征源表的建表语句,包括:基于所述特征源表信息指示的单个特征源表包含的特征字段及特征字段的属性信息以及预定的建表语句模板,构造用于创建所述单个特征源表的建表语句,所述属性信息包括字段类型及字段注释。3.如权利要求1所述的方法,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息,包括:从所述业务数据库的元数据中,筛选与所述目标业务相关的元数据;按照所属的业务维度对筛选出的元数据进行分组,以得到不同业务维度对应的元数据;将单个业务维度对应的元数据,确定为所述单个业务维度对应的特征源表包含的特征字段;基于不同业务维度对应的特征源表包含的特征字段及特征字段的属性信息,确定与目标业务匹配的特征源表信息。4.如权利要求1所述的方法,所述基于所述特征源表信息,确定所述多个特征源表之间的关联字段,包括:基于所述特征源表信息指示的单个特征源表包含的特征字段,确定单个特征源表的主键;如果第一特征源表包含与第二特征源表的主键相同的字段,则将所述第二特征源表的主键确定为所述第一特征源表与所述第二特征源表之间的关联字段,其中,所述第一特征源表和所述第二特征源表为所述多个特征源表中不同的特征源表。5.如权利要求1所述的方法,所述基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句,包括:基于所述目标特征字段,确定单个特征源表中待拼接的特征字段;基于所述待拼接的特征字段、所述目标特征字段以及预定的拼接语句模板,构造所述拼接语句。6.如权利要求1至5中任一项所述的方法,所述建表语句和所述拼接语句通过以下任一种语言构造:Python、Mars和SQL。
7.一种业务处理模型的训练方法,包括:获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;查询所述特征宽表,以得到与所述目标业务匹配的训练样本;基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。8.一种特征宽表生成装置,包括:第一确定单元,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;建表语句构造单元,基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;第二确定单元,基于所述特征源表信息,确定所述多个特征源表之间的关联字段;拼接语句构造单元,基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;宽表生成单元,执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字...

【专利技术属性】
技术研发人员:胡丁相钟娙雩方彦明
申请(专利权)人:浙江网商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1