当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于EMD距离融合多源异构数据的联邦学习方法技术

技术编号:29331854 阅读:71 留言:0更新日期:2021-07-20 17:49
本发明专利技术公开了一种基于EMD距离融合多源异构数据的联邦学习方法,其中,联邦模型进行训练包括:各参与方对己方本地数据X

【技术实现步骤摘要】
一种基于EMD距离融合多源异构数据的联邦学习方法
本专利技术涉及计算机科学与技术中人工智能
,具体涉及一种基于EMD距离融合多源异构数据的联邦学习方法。
技术介绍
数据是人工智能的三个要素之一。然而,由于商业竞争、法律法规限制、数据来源和形式不同等因素,互联网中海量的数据往往都以数据孤岛的形式存在。联邦学习(FederatedLearning)是一种加密的分布式机器学习,是能够打通数据壁垒、保护数据隐私的新兴技术。谷歌公司在论文“Communication-EfficientLearningofDeepNetworksfromDecentralizedData”(McmahanHB,MooreE,RamageD,etal.Communication-EfficientLearningofDeepNetworksfromDecentralizedData[A/OL].arXiv.org,2016)首次提出了联邦学习的概念,并联合了成百上千的安卓手机,对其手机输入法GBoard进行优化,大大提升了用户体验。联邦学习可以联合多个数据源的数据,减少决策中的片面性和不确定性,从而得到比仅仅使用单一来源的数据更加全面、更加客观、更加准确的决策。联邦学习是一种分布式的机器学习,使得数据可以在不出本地的前提下协同进行机器学习模型的训练和迭代,克服了数据流通不便的障碍,把不同来源的数据联合利用的同时能够保护数据隐私。因此,联邦学习是发挥大数据价值的一个新思路。多源数据融合的概念起源于上世纪七十年代军事系统的多传感器数据融合技术。随后,WaltzE等人的著作《MultisensorDataFusion》使得多源数据融合正式成为一个技术概念,我国也有《数据融合理论与应用》等理论著作。目前来说多源数据融合包括了数据来源不同(如不同的传感器、不同的用户等)、数据种类不同(如图片数据及对应的文字描述等)以及数据分布不同(各部分数据并非严格服从相同的统计学分布)等多种复杂情况。单一来源的数据往往不够全面,具有偏向性,单一种类的数据很难完整表达出现实情况。而多源异构数据融合可以有效地利用数据之间的互补性,减少决策过程中的感知误差,提高决策的科学性和准确性。多源异构数据融合分为数据级、特征级、决策级三个层面。针对联邦学习中多源异构数据的情况,目前主要有两种解决思路,一种是改变模型结构,以适应多源异构数据的复杂情况;另一种主要在于处理数据,在联邦模型训练前先对数据进行一定的处理以提高数据的可用性。然而,第一种解决思路是通过修改现有人工智能模型结构,可以在一定程度上适应联邦学习数据多源异构的复杂情况,但对于现有模型的修改难度大、周期长,修改后的模型还要经过验证与证明在多源异构数据上会收敛,且这种修改往往针对现存异构数据的情况,难以适应多源异构数据变化大的需求;第二种解决思路多源异构数据由于自身分布不同等原因,即使经过处理也很难使得现有模型达到其在标准数据集如CIFAR-10、MNIST等的效果。综上,行业内急需研发一种不用修改联邦学习中现有模型,给多源异构数据的质量评估提供参考标准,提升联邦模型效果的联邦学习方法。
技术实现思路
本专利技术的目的是为了克服以上现有技术存在的不足,提供了一种不用修改联邦学习中现有模型且能提升联邦模型效果的基于EMD距离融合多源异构数据的联邦学习方法。本专利技术的目的通过以下的技术方案实现:一种基于EMD距离融合多源异构数据的联邦学习方法,包括:基于EMD距离融合多源异构数据对联邦模型进行训练,联邦系统各参与方把训练好的联邦模型部署到自己的计算机系统中,用于具体的业务处理中;其中,基于EMD距离融合多源异构数据对联邦模型进行训练包括:S1,联邦学习系统的各参与方按照预设规则对己方本地数据Xi进行数据预处理并分块;S2,确定中心服务器,中心服务器选取要训练的联邦模型并初始化模型参数,将联邦模型及其参数发送至各参与方;S3,参与方利用接收到的模型及其参数,结合本地数据对模型进行训练,得到优化后的联邦整体模型;S4,各参与方计算各方数据块相对于整体模型的EMD距离,并上传回中心服务器,中心服务器对各方数据块的EMD距离从小到大排序,去掉EMD距离超过K的数据块,发送剩下的数据块编号给对应的参与方,并进入下一轮联邦迭代;K>0;S5,对进入下一轮迭代的参与方的数据进行随机打乱顺序、重新划分数据块,重复执行步骤S3-S4,直到结果收敛,完成联邦模型的训练。优选地,预设规则包括:统一的数据单位和维度、统一的数据体系和度量坐标。优选地,步骤S3包括:参与方将每一轮己方模型的参数更新,并以块为单位将更新后的模型参数上传到中心服务器,中心服务器利用联邦平均算法FedAvg算出该轮迭代的整体模型参数,得到优化后的联邦整体模型。优选地,确定中心服务器包括:除去各参与方的第三方服务器作为中心服务器或者各轮迭代中随机选取的参与方作为中心服务器。优选地,步骤S1中的分块包括:各参与方以参与方中的最小数据量作为参考划分数据块,每一数据块大小相同。本专利技术相对于现有技术具有如下优点:本专利技术设计的方法给联邦学习融合多源异构数据提供了一个新的度量指标,可以定量地测量多源异构数据的质量,在模型逐步优化的过程中去掉不够优质的数据,提高了联邦模型最后的效果。本专利技术节省了现有方法中数据收集的消耗,使得训练数据集易于扩展和调整,进一步发掘了大数据的潜在价值,依靠联邦学习可以很好地保护数据隐私。因此,本专利技术设计的方法在保护数据隐私的前提下能更加全面、科学地使用数据,给数据隐私保护和数据价值发掘提供了一个思路和案例。具体地:1、本专利技术能给联邦学习融合多源异构数据进行训练提供一个定量的度量;2、本专利技术设计的方法提高了现有联邦学习方法在多源异构数据上的效果;3、本专利技术设计的方法使得模型决策更加全面、客观,克服了现有方法中由于数据的偏向性导致的模型偏向性问题;4、本专利技术设计的方法能对数据隐私进行保护,保证了数据安全;5、本专利技术设计的方法可以适用于大规模分布式训练的应用场景之下;6、本专利技术设计的方法使得训练的数据集更加容易扩展,在不增加模型复杂度的前提下提高了数据利用价值。附图说明构成本申请的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的基于EMD距离融合多源异构数据的联邦学习方法的流程示意图。图2为本专利技术的联邦学习系统的结构图。具体实施方式下面结合附图和实施例对本专利技术作进一步说明。参见图1-2、一种基于EMD距离融合多源异构数据的联邦学习方法,其特征在于,包括:基于EMD距离融合多源异构数据对联邦模型进行训练,联邦系统各参与方把训练好的联邦模型部署到自己的计算机系统中,用于具体的业务处理中;其中,基于EMD距离融合多源异构数据对联邦模型进行训练包括:在联本文档来自技高网
...

【技术保护点】
1.一种基于EMD距离融合多源异构数据的联邦学习方法,其特征在于,包括:基于EMD距离融合多源异构数据对联邦模型进行训练,联邦系统各参与方把训练好的联邦模型部署到自己的计算机系统中,用于具体的业务处理中;其中,基于EMD距离融合多源异构数据对联邦模型进行训练包括:/nS1,联邦学习系统的各参与方按照预设规则对己方本地数据X

【技术特征摘要】
1.一种基于EMD距离融合多源异构数据的联邦学习方法,其特征在于,包括:基于EMD距离融合多源异构数据对联邦模型进行训练,联邦系统各参与方把训练好的联邦模型部署到自己的计算机系统中,用于具体的业务处理中;其中,基于EMD距离融合多源异构数据对联邦模型进行训练包括:
S1,联邦学习系统的各参与方按照预设规则对己方本地数据Xi进行数据预处理并分块;
S2,确定中心服务器,中心服务器选取要训练的联邦模型并初始化模型参数,将联邦模型及其参数发送至各参与方;
S3,参与方利用接收到的模型及其参数,结合本地数据对模型进行训练,得到优化后的联邦整体模型;
S4,各参与方计算各方数据块Xik相对于整体模型的EMD距离,并上传回中心服务器,中心服务器对各方数据块的EMD距离从小到大排序,去掉EMD距离超过K的数据块,发送剩下的数据块编号给对应的参与方,并进入下一轮联邦迭代;K>0;
S5,对进入下一轮迭代的参与方的数据进行随机打乱顺序、重新划分数据块,重复执行步骤S3-S4,...

【专利技术属性】
技术研发人员:顾钊铨李鉴明仇晶田志宏方滨兴丛悦韩伟红王乐唐可可李树栋李默涵
申请(专利权)人:广州大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1