基于链式的多标签联邦学习方法、控制器和介质技术

技术编号:28980632 阅读:17 留言:0更新日期:2021-06-23 09:27
本发明专利技术涉及一种基于链式的多标签联邦学习方法、控制器和介质,所述方法包括步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集;步骤S2、基于所述n个数据持有方的用户标签生成标签排序;步骤S3、以{X

【技术实现步骤摘要】
基于链式的多标签联邦学习方法、控制器和介质
本专利技术涉及计算机
,尤其涉及一种基于链式的多标签联邦学习方法、控制器和介质。
技术介绍
纵向联邦学习指的是多个数据持有方的数据集中的用户重叠较多而用户特征重叠较少的情况下的联邦学习。纵向联邦学习的任务就是在保持数据本地化的情况下,共同训练出一个机器学习模型。多标签学习解决的是一个样本对应多个标签的机器学习的技术问题,例如:一张图片中可能即包含狗,也包含猫。相对的,传统的单标签学习解决的则是一个样本仅对应一个标签的机器学习的技术问题,例如:判断一张图片是猫的照片还是狗的照片。传统的基于单标签的纵向联邦学习,已多有研究和应用。在多标签场景下,例如:在银行数据持有方与电商数据持有方的联邦学习场景中,电商数据持有方要预测用户是否会购买某件商品的标签,同时银行数据持有方要预测用户是否会如期还款的标签。按照现有技术的方案,可以将这个问题转化为两个独立的传统的单标签联邦学习问题:一个联邦学习模型用来预测用户是否会购买某件商品的标签;另一个联邦学习模型用来预测用户是否会如期还款的标签,两个模型互不相干。但是这样处理实际上忽略了两个标签的相互关系(如:“是否会如期还款”这个标签可能能够帮助判断“用户是否会购买某件商品”这个标签),导致模型精度较低。由此可知,如何在模型训练过程中挖掘出多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度成为亟待解决的技术问题。
技术实现思路
本专利技术目的在于,提供一种基于链式的多标签联邦学习方法、控制器和介质,基于多标签之间的相互关系进行联邦学习,提高了模型精度。根据本专利技术一方面,提供了一种基于链式的多标签联邦学习方法,包括:步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,…,n,yik∈R,k=1,2,…,ni;步骤S2、基于所述n个数据持有方的用户标签生成标签排序:t(1)<t(2)<t(3)…<t(n),其中,t(j)表示排在第j位的标签对应的数据持有方序号,j=1,2,…n;步骤S3、以{X1,X2,…,Xn}∪{Yt(m)|m<j,m=1,2,…n}作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);步骤S4、待测用户的特征为{x1,x2,…,xn},xi表示待测用户在第i个数据持有方对应的待测用户特征数据,令j从1开始取值,将{x1,x2,…,xn}∪{yt(m)|m<j,m=1,2,…n}作为Mt(j)输入,按照t(1)<t(2)<t(3)…<t(n)的顺序依次执行各个预测子模型Mt(j)的预测任务,生成所述待测用户所有标签{yt(1),yt(2),…,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。根据本专利技术第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本专利技术第一方面所述的方法。根据本专利技术第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本专利技术第一方面所述的方法。本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本专利技术提供的一种基于链式的多标签联邦学习方法、控制器和介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:本专利技术通过构建链式联邦学习模型,将当前标签的前序标签也作为特征数据加入到输入数据中,使得在模型训练过程中能够学习到多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。附图说明图1为本专利技术实施例提供的基于链式的多标签联邦学习方法中,各个预测标签结果产生的顺序示意图。具体实施方式为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种基于链式的多标签联邦学习方法、控制器和介质的具体实施方式及其功效,详细说明如后。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。本专利技术实施例提供了一种基于链式的多标签联邦学习方法,包括:步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,可以理解的是,每一数据持有方各自的训练数据集是存储在各自本地,模型训练过程中,每一数据持有方各自的训练数据集也始终存储在各自本地,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,…,n,yik∈R,k=1,2,…,ni;其中,可以理解的是,n个数据持有方的样本用户是重叠的,指的是n个数据持有方的样本用户是相同的,且样本用户是横向对齐的。n个数据持有方的数据属性数量可能相同也可能不同,同一数据持有方的每一样本用户的数据属性数量是相同的。步骤S2、基于所述n个数据持有方的用户标签生成标签排序:t(1)<t(2)<t(3)…<t(n),其中,t(j)表示排在第j位的标签对应的数据持有方序号,j=1,2,…n;其中,可以随机初始化n个数据持有方的用户标签生成标签排序,也可根据每一用户标签的目标精确度来排序,目标精确度越高,标签排序越靠后。作为一种实施例,若t(1)=5,则表示第5个数据持有方的标签排在标签排序的第一位。步骤S3、以{X1,X2,…,Xn}∪{Yt(m)|m<j,m=1,2,…n}作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);需要说明的是,联邦学习过程中,各个子模型Mt(j)是分散存储在各个数据持本文档来自技高网...

【技术保护点】
1.一种基于链式的多标签联邦学习方法,其特征在于,包括:/n步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(X

【技术特征摘要】
1.一种基于链式的多标签联邦学习方法,其特征在于,包括:
步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,…,n,yik∈R,k=1,2,…,ni;
步骤S2、基于所述n个数据持有方的用户标签生成标签排序:t(1)<t(2)<t(3)…<t(n),其中,t(j)表示排在第j位的标签对应的数据持有方序号,j=1,2,…n;
步骤S3、以{X1,X2,…,Xn}∪{Yt(m)|m<j,m=1,2,…n}作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);
步骤S4、待测用户的特征为{x1,x2,…,xn},xi表示待测用户在第i个数据持有方对应的待测用户特征数据,令j从1开始取值,将{x1,x2,…,xn}∪{yt(m)|m<j,m=1,2,…n}作为Mt(j)输入,按照t(1)<t(2)<t(3)…<t(n)的顺序依次执行各个预测子模型Mt(j)的预测任务,生成所述待测用户所有标签{yt(1),yt(2),…,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。


2.根据权利要求1所述的方法,其特征在于,
优选的,所述步骤S1包括:
步骤S11、获取Z个客户端中每一客户端的数据,采用预设的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,作为每一客户端对应的用户数据,所述用户数据包括用户特征数据和用户标签数据;
步骤S12、获取第z客户端数据中用户标签的类别数量Wz,并判断Wz是否大于等于2,若是,则构建Wz个第z客户端对应的数据持有方,并以所述第z客户端对应的用户数据中的每一类用户标签数据作为一个数据持有方对应的用户标签数据集,以所述第z客户端对应的用户特征数据作为每一数据持有方对应的用户特征数据集,构建Wz个训练数据集,为每一数据持有方划分一个对应的训练数据集,否则,执行步骤S13,z=1,2,…Z;
步骤S13、构建一个第x客户端对应的数据持有方,并以第z客户端对应的用户标签数据作为用户标签数据集,以第z客户端对应的用户特征数据作为用户特征数据集,构建该数据持有方对应的训练数据集训;
步骤S14、将基于所述Z个客户端数据生成的所有数据持有方的训练数据集,确定为所述n个数据持有方的训练数据集。


3.根据权利要求1所述的方法,其特征在于,
优选的,步骤S2包括:
步骤S21、获取所述n个用户标签中每一用户标签的目标精确度;
步骤S22、根据目标精确度从小到大的顺序对应生成所述n个用户标签对应的标签排序:t(1)<t(2)<t(3)…<t(n)。


4.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:蔡文渊张坤坤高明钱卫宁徐林昊顾海林杜蓓
申请(专利权)人:上海嗨普智能信息科技股份有限公司华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1