【技术实现步骤摘要】
特征宽表生成及业务处理模型的训练方法和装置
[0001]本文件涉及计算机
,尤其涉及一种特征宽表生成及业务处理模型的训练方法和装置。
技术介绍
[0002]在各类业务场景中,通常需要对海量业务数据进行各种处理,例如在机器学习建模场景中,需要将不同的特征数据拼接成维度更多的特征数据。
[0003]目前,传统拼接方案是通过人工从业务数据集中筛选出所需的特征数据,然后对筛选出的特征数据进行拼接,得到用于存储更多维度的特征数据的特征宽表。但是,由于业务数据集的规模较大,且不同业务数据之间的业务逻辑存在较大差异性,这种人工创建特征宽表的方式无法保证效率和准确性。
[0004]因此,目前亟需一种高效且准确生成特征宽表的解决方案。
技术实现思路
[0005]本说明书实施例目的是提供一种特征宽表生成及业务处理模型的训练方法和装置,能够提高特征宽表的生成效率和准确性,并且能够基于生成的特征宽表进一步训练出业务处理模型。
[0006]为了实现上述目的,本说明书实施例采用下述技术方案:
[0007]第一方面,提供一种特征宽表生成方法,包括:
[0008]基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;
[0009]基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;
...
【技术保护点】
【技术特征摘要】
1.一种特征宽表生成方法,包括:基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;基于所述特征源表信息,确定所述多个特征源表之间的关联字段;基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字段值的特征宽表。2.如权利要求1所述的方法,所述基于所述特征源表信息,构造用于创建多个特征源表的建表语句,包括:基于所述特征源表信息指示的单个特征源表包含的特征字段及特征字段的属性信息以及预定的建表语句模板,构造用于创建所述单个特征源表的建表语句,所述属性信息包括字段类型及字段注释。3.如权利要求1所述的方法,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息,包括:从所述业务数据库的元数据中,筛选与所述目标业务相关的元数据;按照所属的业务维度对筛选出的元数据进行分组,以得到不同业务维度对应的元数据;将单个业务维度对应的元数据,确定为所述单个业务维度对应的特征源表包含的特征字段;基于不同业务维度对应的特征源表包含的特征字段及特征字段的属性信息,确定与目标业务匹配的特征源表信息。4.如权利要求1所述的方法,所述基于所述特征源表信息,确定所述多个特征源表之间的关联字段,包括:基于所述特征源表信息指示的单个特征源表包含的特征字段,确定单个特征源表的主键;如果第一特征源表包含与第二特征源表的主键相同的字段,则将所述第二特征源表的主键确定为所述第一特征源表与所述第二特征源表之间的关联字段,其中,所述第一特征源表和所述第二特征源表为所述多个特征源表中不同的特征源表。5.如权利要求1所述的方法,所述基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句,包括:基于所述目标特征字段,确定单个特征源表中待拼接的特征字段;基于所述待拼接的特征字段、所述目标特征字段以及预定的拼接语句模板,构造所述拼接语句。6.如权利要求1至5中任一项所述的方法,所述建表语句和所述拼接语句通过以下任一种语言构造:Python、Mars和SQL。
7.一种业务处理模型的训练方法,包括:获取与待处理的目标业务对应的特征宽表,所述特征宽表是通过执行用于创建多个特征源表的建表语句和用于对所述多个特征源表进行拼接的拼接语句得到的,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值,所述特征宽表用于记录与所述目标业务匹配的训练样本包含的目标特征字段的字段值;查询所述特征宽表,以得到与所述目标业务匹配的训练样本;基于所述训练样本和所述训练样本对应的标签,训练与所述目标业务对应的业务处理模型,其中,所述标签为所述训练样本在所述目标业务对应的业务处理结果。8.一种特征宽表生成装置,包括:第一确定单元,基于业务数据库的元数据,确定与目标业务匹配的特征源表信息及训练样本包含的目标特征字段,所述业务数据库中存储有不同业务的业务基础数据,所述元数据用于描述所述业务基础数据的属性;建表语句构造单元,基于所述特征源表信息,构造用于创建多个特征源表的建表语句,所述多个特征源表用于记录与所述目标业务相关的不同特征字段的字段值;第二确定单元,基于所述特征源表信息,确定所述多个特征源表之间的关联字段;拼接语句构造单元,基于所述多个特征源表之间的关联字段和所述目标特征字段,构造用于对所述多个特征源表进行拼接的拼接语句;宽表生成单元,执行所述建表语句和所述拼接语句,以得到用于记录所述目标特征字段的字...
【专利技术属性】
技术研发人员:胡丁相,钟娙雩,方彦明,
申请(专利权)人:浙江网商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。