基于有向无环图的多标签联邦学习方法、控制器和介质技术

技术编号:28980634 阅读:13 留言:0更新日期:2021-06-23 09:27
本发明专利技术涉及一种基于有向无环图的多标签联邦学习方法、控制器和介质,所述方法包括步骤C1、获取n个数据持有方中每一数据持有方对应的训练数据集;步骤C2、基于所述n个数据持有方的用户标签生成标签有向无环图;步骤C3、以{X

【技术实现步骤摘要】
基于有向无环图的多标签联邦学习方法、控制器和介质
本专利技术涉及计算机
,尤其涉及一种基于有向无环图的多标签联邦学习方法、控制器和介质。
技术介绍
纵向联邦学习指的是多个数据持有方的数据集中的用户重叠较多而用户特征重叠较少的情况下的联邦学习。纵向联邦学习的任务就是在保持数据本地化的情况下,共同训练出一个机器学习模型。多标签学习解决的是一个样本对应多个标签的机器学习的技术问题,例如:一张图片中可能即包含狗,也包含猫。相对的,传统的单标签学习解决的则是一个样本仅对应一个标签的机器学习的技术问题,例如:判断一张图片是猫的照片还是狗的照片。传统的基于单标签的纵向联邦学习,已多有研究和应用。在多标签场景下,例如:在银行数据持有方与电商数据持有方的联邦学习场景中,电商数据持有方要预测用户是否会购买某件商品的标签,同时银行数据持有方要预测用户是否会如期还款的标签。按照现有技术的方案,可以将这个问题转化为两个独立的传统的单标签联邦学习问题:一个联邦学习模型用来预测用户是否会购买某件商品的标签;另一个联邦学习模型用来预测用户是否会如期还款的标签,两个模型互不相干。但是这样处理实际上忽略了两个标签的相互关系(如:“是否会如期还款”这个标签可能能够帮助判断“用户是否会购买某件商品”这个标签),导致模型精度较低。由此可知,如何在模型训练过程中挖掘出多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度成为亟待解决的技术问题。
技术实现思路
本专利技术目的在于,提供一种基于有向无环图的多标签联邦学习方法、控制器和介质,基于多标签之间的相互关系进行联邦学习,提高了模型精度。根据本专利技术第一方面,提供了一种基于有向无环图的多标签联邦学习方法,包括:步骤C1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,...,n,yik∈R,k=1,2,...,ni;步骤C2、基于所述n个数据持有方的用户标签生成标签有向无环图,其中,t(j)表示所述标签有向无环图第j号节点对应的数据持有方序号,j=1,2,...n,设置用户获取第t(j)个用户标签在所述标签有向无环图中所有下层依赖标签集合的函数G(Yt(j));步骤C3、以{X1,X2,...,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);步骤C4、待测用户的特征为{x1,x2,...,xn},xi表示待测用户在第i个数据持有方数据持有方对应的待测用户特征数据,基于{x1,x2,...,xn}、标签有向无环图和Mt(j)生成所述待测用户所有标签{yt(1),yt(2),...,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。根据本专利技术第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本专利技术第一方面所述的方法。根据本专利技术第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本专利技术第一方面所述的方法。本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本专利技术提供的一种基于有向无环图的多标签联邦学习方法、控制器和介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:本专利技术通过构建基于标签有向无环图的联邦学习模型,将每一无依赖节点所对应的标签数据加入到下一轮被其依赖的子模型对应的输入数据中,使得在模型训练过程中能够学习到多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度,且基于标签有向无环图使得标签预测过程可以部分并行执行,不仅提高了模型训练和模型计算的执行速度,还基于标签有向无环图中一个标签被多个标签共同依赖的结构,进一步提高了模型精度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。附图说明图1为本专利技术实施例提供的基于n个数据持有方的用户标签生成标签依赖关系树示意图;图2为本专利技术实施例提供的基于n个数据持有方的用户标签生成标签有向无环图示意图。具体实施方式为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种基于树形结构的多标签联邦学习方法、控制器和介质的具体实施方式及其功效,详细说明如后。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一、本实施例提供了一种基于树形结构的多标签联邦学习方法,包括:步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,可以理解的是,每一数据持有方各自的训练数据集是存储在各自本地,模型训练过程中,每一数据持有方各自的训练数据集也始终存储在各自本地,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,...,n,yik∈R,k=1,2,...,ni;其中,可以理解的是,n个数据持有方的样本用户是重叠的,指的是n个数据持有方的样本用户是相同的,且样本用户是横向对齐的。n个数据持有方的数据属性数量可能相同也可能不同,同一数据持有方的每一样本用户的数据属性数量是相同的。步骤S2、基于所述n个数据持有方的用户标签生成标签依赖关系树,其中,t(j)表示第j号树节点对应的数据持有方序号,j=1,2,...n,设置用户获取第t(j)个用户标签在所述标签依赖关系树中所有下层依赖标签集合的函数G(Yt(j));其中,可以随机初始化n个数据持有方的用户标签生成标签依赖关系树,也可根据每一用户标签的目标精确度来分组,目标精确度越高,标签分组越靠前。作为一种实施例,若t(1)=5,则表示第5个数据持有方的标签对应标签依赖关系树中的第5号树节点。如图1所示本文档来自技高网...

【技术保护点】
1.一种基于有向无环图的多标签联邦学习方法,其特征在于,包括:/n步骤C1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(X

【技术特征摘要】
1.一种基于有向无环图的多标签联邦学习方法,其特征在于,包括:
步骤C1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,...,n,yik∈R,k=1,2,...,ni;
步骤C2、基于所述n个数据持有方的用户标签生成标签有向无环图,其中,t(j)表示所述标签有向无环图第j号节点对应的数据持有方序号,j=1,2,...n,设置用户获取第t(j)个用户标签在所述标签有向无环图中所有下层依赖标签集合的函数G(Yt(j));
步骤c3、以{X1,X2,...,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);
步骤C4、待测用户的特征为{x1,x2,...,xn},xi表示待测用户在第i个数据持有方数据持有方对应的待测用户特征数据,基于{x1,x2,...,xn}、标签有向无环图和Mt(j)生成所述待测用户所有标签{yt(1),yt(2),...,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。


2.根据权利要求1所述的方法,其特征在于,
优选的,所述步骤C1包括:
步骤C11、获取Z个客户端中每一客户端的数据,采用预设的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,作为每一客户端对应的用户数据,所述用户数据包括用户特征数据和用户标签数据;
步骤C12、获取第z客户端数据中用户标签的类别数量Wz,并判断Wz是否大于等于2,若是,则构建Wz个第z客户端对应的数据持有方,并以所述第z客户端对应的用户数据中的每一类用户标签数据作为一个数据持有方对应的用户标签数据集,以所述第z客户端对应的用户特征数据作为每一数据持有方对应的用户特征数据集,构建Wz个训练数据集,为每一数据持有方划分一个对应的训练数据集,否则,执行步骤C13,z=1,2,…Z;
步骤C13、构建一个第x客户端对应的数据持有方,并以第z客户端对应的用户标签数据作为用户标签数据集,以第z客户端对应的用户特征数据作为用户特征数据集,构建该数据持有方对应的训练数据集;
步骤C14、将基于所述Z个客户端数据生成的所有数据持有方的训练数据集,确定为所述n个数据持有方的训练数据集。


3.根据权利要求1所述的方法,其特征在于,
优选的,步骤C2包括:
步骤C21、获取所述n个用户标签中每一用户标签的目标精确度,将n个用户标签划分为T组用户标签,其中,每组用户标签包括一个或多个用户标签,且第t-1组标签中目标精确度的最小值大于第t组标签中目标精确度的最大值,t=2,3,…T;
步骤C22、将第一组用户标签中的用户标签设置为所述标签有向无环图的无被依赖节点,将第t组标签中用户标签对应设置为第t层节点,每一用户标签对应一个节点,每一第t层节点随机连接一个或多个第t-1层节点,生成所述标签有向无环图。


4.根据权利要求1所述的方法,其特征在于,
优选的,每一预测子模型Mt(j)包括分散存在所述n个数据持有方上的本地预测子模型表示预测子模型Mt(j)在第i数据持有方上的本地预测子模型,所述步骤C3包括:
步骤C31、基于所述G(Yt(j))和标签有向无环图获取第t(j)个用户标签在所述标签有向无环图中所有下层依赖标签集合,作为第t(j)依赖标签集合,判断所述第t(j)依赖标签集合是否为空,若是,执行步骤C32,否则,执行步骤C33;
步骤C32、将Xi作为的输入数据,预测Yt(j)作为Mt(j)的输出数据,进行纵向联邦...

【专利技术属性】
技术研发人员:蔡文渊张坤坤高明钱卫宁徐林昊顾海林袁国玮
申请(专利权)人:上海嗨普智能信息科技股份有限公司华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1