预测模型训练方法以及装置制造方法及图纸

技术编号:37861477 阅读:11 留言:0更新日期:2023-06-15 20:51
本说明书实施例提供预测模型训练方法以及装置,预测模型训练方法包括:从样本异构图中确定第一样本、第二样本以及第二样本对应的样本标签,其中,样本异构图包括至少两个不同类型的节点、和至少两个不同类型的边,第一样本和第二样本为目标异构图中的节点;对第一样本的样本特征进行聚合处理,得到第一聚合样本,以及对第二样本的样本特征进行聚合处理,得到第二聚合样本;根据第一样本、与第一样本关联的第一关联样本以及第一关联样本相对于第一样本的相关度,对第一样本的样本特征进行增强处理,获得增强样本;根据第二聚合样本以及第二样本对应的样本标签、第一聚合样本和增强样本,对预测模型进行训练,直至获得满足训练停止条件的预测模型。练停止条件的预测模型。练停止条件的预测模型。

【技术实现步骤摘要】
预测模型训练方法以及装置


[0001]本说明书实施例涉及模型训练
,特别涉及预测模型训练方法。

技术介绍

[0002]图数据结构是一种抽象程度高,表达能力强的数据结构,图数据结构包括节点和节点之间的边,节点可用于表示现实世界的实体,而实体之间的关系则通过节点之间的边来体现。随着机器学习技术的发展,通常使用图神经网络对图数据结构进行学习,以实现对实体的行为预测。
[0003]然而,在对图数据结构进行学习时,通常会存在只有少量数据样本是有标签的,而大量数据样本都是没有标签的数据,在根据少量有标签的数据样本训练模型时,由于数据样本较少可能导致训练出来的模型预测准确率较差。通常情况下会依赖人工经验对没有标签的数据样本打标,会导致花费较高的人工成本,效率较差,因此,亟需一种有效的技术方案解决上述问题。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种预测模型训练方法。本说明书一个或者多个实施例同时涉及一种预测模型训练装置,一种预测方法,一种预测装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种预测模型训练方法,包括:
[0006]从样本异构图中确定第一样本、第二样本以及所述第二样本对应的样本标签,其中,所述样本异构图包括至少两个不同类型的节点、和至少两个不同类型的边,所述第一样本和所述第二样本为所述目标异构图中的节点;
[0007]对所述第一样本的样本特征进行聚合处理,得到第一聚合样本,以及对所述第二样本的样本特征进行聚合处理,得到第二聚合样本;
[0008]根据所述第一样本、与所述第一样本关联的第一关联样本以及所述第一关联样本相对于所述第一样本的相关度,对所述第一样本的样本特征进行增强处理,获得增强样本;
[0009]根据所述第二聚合样本以及所述第二样本对应的样本标签、所述第一聚合样本和所述增强样本,对预测模型进行训练,直至获得满足训练停止条件的所述预测模型。
[0010]根据本说明书实施例的第二方面,提供了一种预测模型训练装置,包括:
[0011]确定模块,被配置为从样本异构图中确定第一样本、第二样本以及所述第二样本对应的样本标签,其中,所述样本异构图包括至少两个不同类型的节点、和至少两个不同类型的边,所述第一样本和所述第二样本为所述目标异构图中的节点;
[0012]聚合模块,被配置为对所述第一样本的样本特征进行聚合处理,得到第一聚合样本,以及对所述第二样本的样本特征进行聚合处理,得到第二聚合样本;
[0013]增强模块,被配置为根据所述第一样本、与所述第一样本关联的第一关联样本以及所述第一关联样本相对于所述第一样本的相关度,对所述第一样本的样本特征进行增强
处理,获得增强样本;
[0014]训练模块,被配置为根据所述第二聚合样本以及所述第二样本对应的样本标签、所述第一聚合样本和所述增强样本,对预测模型进行训练,直至获得满足训练停止条件的所述预测模型。
[0015]根据本说明书实施例的第三方面,提供了一种预测方法,包括:
[0016]确定用户的属性信息,以及所述用户之间的行为关系信息;
[0017]根据所述属性信息和所述行为关系信息,构建目标异构图;
[0018]将所述目标异构图输入本说明书实施例提供的预测模型,获得所述用户对应的预测结果。
[0019]根据本说明书实施例的第四方面,提供了一种预测装置,包括:
[0020]确定模块,被配置为确定用户的属性信息,以及所述用户之间的行为关系信息;
[0021]构建模块,被配置为根据所述属性信息和所述行为关系信息,构建目标异构图;
[0022]输入模块,被配置为将所述目标异构图输入本说明书实施例提供的预测模型,获得所述用户对应的预测结果。
[0023]根据本说明书实施例的第五方面,提供了一种计算设备,包括:
[0024]存储器和处理器;
[0025]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述预测模型训练方法或预测方法的步骤。
[0026]根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述预测模型训练方法或预测方法的步骤。
[0027]根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述预测模型训练方法或预测方法的步骤。
[0028]本说明书实施例提供了一种预测模型训练方法,从样本异构图中确定第一样本、第二样本以及所述第二样本对应的样本标签,其中,所述样本异构图包括至少两个不同类型的节点、和至少两个不同类型的边,所述第一样本和所述第二样本为所述目标异构图中的节点;对所述第一样本的样本特征进行聚合处理,得到第一聚合样本,以及对所述第二样本的样本特征进行聚合处理,得到第二聚合样本;根据所述第一样本、与所述第一样本关联的第一关联样本以及所述第一关联样本相对于所述第一样本的相关度,对所述第一样本的样本特征进行增强处理,获得增强样本;根据所述第二聚合样本以及所述第二样本对应的样本标签、所述第一聚合样本和所述增强样本,对预测模型进行训练,直至获得满足训练停止条件的所述预测模型。
[0029]上述方法通过对没有样本标签的第一样本分别进行聚合处理和增强处理,在增强处理的过程中根据所述第一样本、与第一样本关联的第一关联样本以及所述第一关联样本相对于所述第一样本的相关度,对所述第一样本进行增强处理,获得增强样本,实现了对没有样本标签的第一样本的数据增强,并结合具有样本标签的第二样本,对第二样本进行聚合处理得到第二聚合样本,利用没有样本标签的第一聚合样本和增强样本、以及具有样本标签的第二聚合样本和样本标签,结合对预测模型进行训练,增加了模型训练的数据样本,弥补了在仅通过具有标签的数据样本训练预测模型时的数据样本较少的问题,进而使后续
训练完成的预测模型准确度更高,通过对没有标签的第一样本进行增强处理得到增强样本作为模型训练的数据样本,也替代了通过人工经验对没有标签的数据样本进行打标的过程,减少人工成本,避免人工资源浪费,进而提高了预测模型的训练效率。
附图说明
[0030]图1是本说明书一个实施例提供的一种预测模型训练方法的具体应用场景示意图;
[0031]图2是本说明书一个实施例提供的一种预测模型训练方法的流程图;
[0032]图3是本说明书一个实施例提供的一种节点聚合的示意图;
[0033]图4是本说明书一个实施例提供的基于三元组的信息贡献度计算的示意图;
[0034]图5是本说明书一个实施例提供的节点的特征相似贡献度计算的示意图;
[0035]图6是本说明书一个实施例提供的基于三角结构增加边的示意图;
[0036]图7是本说明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测模型训练方法,包括:从样本异构图中确定第一样本、第二样本以及所述第二样本对应的样本标签,其中,所述样本异构图包括至少两个不同类型的节点、和至少两个不同类型的边,所述第一样本和所述第二样本为所述目标异构图中的节点;对所述第一样本的样本特征进行聚合处理,得到第一聚合样本,以及对所述第二样本的样本特征进行聚合处理,得到第二聚合样本;根据所述第一样本、与所述第一样本关联的第一关联样本以及所述第一关联样本相对于所述第一样本的相关度,对所述第一样本的样本特征进行增强处理,获得增强样本;根据所述第二聚合样本以及所述第二样本对应的样本标签、所述第一聚合样本和所述增强样本,对预测模型进行训练,直至获得满足训练停止条件的所述预测模型。2.根据权利要求1所述的方法,所述第一关联样本与所述第一样本直接关联;相应的,所述根据所述第一样本、与所述第一样本关联的第一关联样本以及所述第一关联样本相对于所述第一样本的相关度,对所述第一样本的样本特征进行增强处理,获得增强样本,包括:确定与所述第一样本直接关联的第一关联样本相对于所述第一样本的相关度;在所述第一关联样本相对于所述第一样本的相关度大于相关度阈值的情况下,对所述第一样本的样本特征和所述第一关联样本的样本特征进行交换,获得增强样本。3.根据权利要求2所述的方法,所述确定与所述第一样本直接关联的第一关联样本相对于所述第一样本的相关度,包括:根据所述第一样本、与所述第一样本直接关联的第一关联样本以及所述第一样本和所述第一关联样本之间的关联关系,计算所述第一关联样本相对于所述第一样本的特征权重;根据所述第一样本的向量特征和所述第一关联样本的向量特征,计算所述第一样本和所述第一关联样本的特征相似度;根据所述特征权重和所述特征相似度,确定第一关联样本相对于第一样本的相关度。4.根据权利要求2所述的方法,所述第一关联样本为至少两个;相应的,所述根据所述第一样本、与所述第一样本关联的第一关联样本以及所述第一关联样本相对于所述第一样本的相关度,对所述第一样本的样本特征进行增强处理,获得增强样本,包括:确定每个第一关联样本相对于所述第一样本的相关度;对所述每个第一关联样本相对于所述第一样本的相关度进行比较,根据比较结果确定目标关联样本;对所述第一样本的样本特征和所述目标关联样本的样本特征进行交换,获得增强样本。5.根据权利要求1所述的方法,所述第一关联样本与所述第一样本间接关联;相应的,所述根据所述第一样本、与所述第一样本关联的第一关联样本以及所述第一关联样本相对于所述第一样本的相关度,对所述第一样本的样本特征进行增强处理,获得增强样本,包括:确定与所述第一样本间接关联的第一关联样本相对于所述第一样本的相关度;
在所述第一关联样本相对于所述第一样本的相关度大于相关度阈值的情况下,在所述第一样本和所述第一关联样本之间添加直接关联关系,根据添加结果对所述第一样本的样本特征进行聚合处理,得到增强样本。6.根据权利要求5所述的方法,所述确定与所述第一样本间接关联的第一关联样本相对于所述第一样本的相关度,包括:根据所述第一样本、与所述第一样本间接关联的第一关联样本,确定与所述第一样本和所述第一关联样本共同关联的共同关联样本;对所述共同关联样本进行加权...

【专利技术属性】
技术研发人员:陈颖强思维元凌峰佟家弼张珺李鹏宇李少帅刘小雷郭乃诚高源
申请(专利权)人:浙江网商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1