【技术实现步骤摘要】
基于有向无环图的多标签联邦学习方法、控制器和介质
本专利技术涉及计算机
,尤其涉及一种基于有向无环图的多标签联邦学习方法、控制器和介质。
技术介绍
纵向联邦学习指的是多个数据持有方的数据集中的用户重叠较多而用户特征重叠较少的情况下的联邦学习。纵向联邦学习的任务就是在保持数据本地化的情况下,共同训练出一个机器学习模型。多标签学习解决的是一个样本对应多个标签的机器学习的技术问题,例如:一张图片中可能即包含狗,也包含猫。相对的,传统的单标签学习解决的则是一个样本仅对应一个标签的机器学习的技术问题,例如:判断一张图片是猫的照片还是狗的照片。传统的基于单标签的纵向联邦学习,已多有研究和应用。在多标签场景下,例如:在银行数据持有方与电商数据持有方的联邦学习场景中,电商数据持有方要预测用户是否会购买某件商品的标签,同时银行数据持有方要预测用户是否会如期还款的标签。按照现有技术的方案,可以将这个问题转化为两个独立的传统的单标签联邦学习问题:一个联邦学习模型用来预测用户是否会购买某件商品的标签;另一个联邦学习模型用来预测用户是否会如期还款的标签,两个模型互不相干。但是这样处理实际上忽略了两个标签的相互关系(如:“是否会如期还款”这个标签可能能够帮助判断“用户是否会购买某件商品”这个标签),导致模型精度较低。由此可知,如何在模型训练过程中挖掘出多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度成为亟待解决的技术问题。
技术实现思路
本专利技术目的在于,提供一种基于有向无环图的多标签 ...
【技术保护点】
1.一种基于有向无环图的多标签联邦学习方法,其特征在于,包括:/n步骤C1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(X
【技术特征摘要】
1.一种基于有向无环图的多标签联邦学习方法,其特征在于,包括:
步骤C1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,...,n,yik∈R,k=1,2,...,ni;
步骤C2、基于所述n个数据持有方的用户标签生成标签有向无环图,其中,t(j)表示所述标签有向无环图第j号节点对应的数据持有方序号,j=1,2,...n,设置用户获取第t(j)个用户标签在所述标签有向无环图中所有下层依赖标签集合的函数G(Yt(j));
步骤c3、以{X1,X2,...,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);
步骤C4、待测用户的特征为{x1,x2,...,xn},xi表示待测用户在第i个数据持有方数据持有方对应的待测用户特征数据,基于{x1,x2,...,xn}、标签有向无环图和Mt(j)生成所述待测用户所有标签{yt(1),yt(2),...,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。
2.根据权利要求1所述的方法,其特征在于,
优选的,所述步骤C1包括:
步骤C11、获取Z个客户端中每一客户端的数据,采用预设的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,作为每一客户端对应的用户数据,所述用户数据包括用户特征数据和用户标签数据;
步骤C12、获取第z客户端数据中用户标签的类别数量Wz,并判断Wz是否大于等于2,若是,则构建Wz个第z客户端对应的数据持有方,并以所述第z客户端对应的用户数据中的每一类用户标签数据作为一个数据持有方对应的用户标签数据集,以所述第z客户端对应的用户特征数据作为每一数据持有方对应的用户特征数据集,构建Wz个训练数据集,为每一数据持有方划分一个对应的训练数据集,否则,执行步骤C13,z=1,2,…Z;
步骤C13、构建一个第x客户端对应的数据持有方,并以第z客户端对应的用户标签数据作为用户标签数据集,以第z客户端对应的用户特征数据作为用户特征数据集,构建该数据持有方对应的训练数据集;
步骤C14、将基于所述Z个客户端数据生成的所有数据持有方的训练数据集,确定为所述n个数据持有方的训练数据集。
3.根据权利要求1所述的方法,其特征在于,
优选的,步骤C2包括:
步骤C21、获取所述n个用户标签中每一用户标签的目标精确度,将n个用户标签划分为T组用户标签,其中,每组用户标签包括一个或多个用户标签,且第t-1组标签中目标精确度的最小值大于第t组标签中目标精确度的最大值,t=2,3,…T;
步骤C22、将第一组用户标签中的用户标签设置为所述标签有向无环图的无被依赖节点,将第t组标签中用户标签对应设置为第t层节点,每一用户标签对应一个节点,每一第t层节点随机连接一个或多个第t-1层节点,生成所述标签有向无环图。
4.根据权利要求1所述的方法,其特征在于,
优选的,每一预测子模型Mt(j)包括分散存在所述n个数据持有方上的本地预测子模型表示预测子模型Mt(j)在第i数据持有方上的本地预测子模型,所述步骤C3包括:
步骤C31、基于所述G(Yt(j))和标签有向无环图获取第t(j)个用户标签在所述标签有向无环图中所有下层依赖标签集合,作为第t(j)依赖标签集合,判断所述第t(j)依赖标签集合是否为空,若是,执行步骤C32,否则,执行步骤C33;
步骤C32、将Xi作为的输入数据,预测Yt(j)作为Mt(j)的输出数据,进行纵向联邦...
【专利技术属性】
技术研发人员:蔡文渊,张坤坤,高明,钱卫宁,徐林昊,顾海林,袁国玮,
申请(专利权)人:上海嗨普智能信息科技股份有限公司,华东师范大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。