【技术实现步骤摘要】
基于链式的多标签联邦学习方法、控制器和介质
本专利技术涉及计算机
,尤其涉及一种基于链式的多标签联邦学习方法、控制器和介质。
技术介绍
纵向联邦学习指的是多个数据持有方的数据集中的用户重叠较多而用户特征重叠较少的情况下的联邦学习。纵向联邦学习的任务就是在保持数据本地化的情况下,共同训练出一个机器学习模型。多标签学习解决的是一个样本对应多个标签的机器学习的技术问题,例如:一张图片中可能即包含狗,也包含猫。相对的,传统的单标签学习解决的则是一个样本仅对应一个标签的机器学习的技术问题,例如:判断一张图片是猫的照片还是狗的照片。传统的基于单标签的纵向联邦学习,已多有研究和应用。在多标签场景下,例如:在银行数据持有方与电商数据持有方的联邦学习场景中,电商数据持有方要预测用户是否会购买某件商品的标签,同时银行数据持有方要预测用户是否会如期还款的标签。按照现有技术的方案,可以将这个问题转化为两个独立的传统的单标签联邦学习问题:一个联邦学习模型用来预测用户是否会购买某件商品的标签;另一个联邦学习模型用来预测用户是否会如期还款的标签,两个模型互不相干。但是这样处理实际上忽略了两个标签的相互关系(如:“是否会如期还款”这个标签可能能够帮助判断“用户是否会购买某件商品”这个标签),导致模型精度较低。由此可知,如何在模型训练过程中挖掘出多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度成为亟待解决的技术问题。
技术实现思路
本专利技术目的在于,提供一种基于链式的多标签联邦学习方法、控制 ...
【技术保护点】
1.一种基于链式的多标签联邦学习方法,其特征在于,包括:/n步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(X
【技术特征摘要】
1.一种基于链式的多标签联邦学习方法,其特征在于,包括:
步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,…,n,yik∈R,k=1,2,…,ni;
步骤S2、基于所述n个数据持有方的用户标签生成标签排序:t(1)<t(2)<t(3)…<t(n),其中,t(j)表示排在第j位的标签对应的数据持有方序号,j=1,2,…n;
步骤S3、以{X1,X2,…,Xn}∪{Yt(m)|m<j,m=1,2,…n}作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);
步骤S4、待测用户的特征为{x1,x2,…,xn},xi表示待测用户在第i个数据持有方对应的待测用户特征数据,令j从1开始取值,将{x1,x2,…,xn}∪{yt(m)|m<j,m=1,2,…n}作为Mt(j)输入,按照t(1)<t(2)<t(3)…<t(n)的顺序依次执行各个预测子模型Mt(j)的预测任务,生成所述待测用户所有标签{yt(1),yt(2),…,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。
2.根据权利要求1所述的方法,其特征在于,
优选的,所述步骤S1包括:
步骤S11、获取Z个客户端中每一客户端的数据,采用预设的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,作为每一客户端对应的用户数据,所述用户数据包括用户特征数据和用户标签数据;
步骤S12、获取第z客户端数据中用户标签的类别数量Wz,并判断Wz是否大于等于2,若是,则构建Wz个第z客户端对应的数据持有方,并以所述第z客户端对应的用户数据中的每一类用户标签数据作为一个数据持有方对应的用户标签数据集,以所述第z客户端对应的用户特征数据作为每一数据持有方对应的用户特征数据集,构建Wz个训练数据集,为每一数据持有方划分一个对应的训练数据集,否则,执行步骤S13,z=1,2,…Z;
步骤S13、构建一个第x客户端对应的数据持有方,并以第z客户端对应的用户标签数据作为用户标签数据集,以第z客户端对应的用户特征数据作为用户特征数据集,构建该数据持有方对应的训练数据集训;
步骤S14、将基于所述Z个客户端数据生成的所有数据持有方的训练数据集,确定为所述n个数据持有方的训练数据集。
3.根据权利要求1所述的方法,其特征在于,
优选的,步骤S2包括:
步骤S21、获取所述n个用户标签中每一用户标签的目标精确度;
步骤S22、根据目标精确度从小到大的顺序对应生成所述n个用户标签对应的标签排序:t(1)<t(2)<t(3)…<t(n)。
4.根据权利要求1所述的方...
【专利技术属性】
技术研发人员:蔡文渊,张坤坤,高明,钱卫宁,徐林昊,顾海林,杜蓓,
申请(专利权)人:上海嗨普智能信息科技股份有限公司,华东师范大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。