基于联邦学习进行数据分析的方法及系统技术方案

技术编号:29095133 阅读:23 留言:0更新日期:2021-06-30 10:04
本发明专利技术提供了一种基于联邦学习进行数据分析的方法和系统,该方法采用了基于联邦学习建立的本地任务模型,其中,本地任务模型通过以下方法建立:基于训练样本数据构建面向指定特征的数据子图;利用数据子图训练本地任务模型;提取本地任务模型的模型参数上传至服务器以更新服务器模型参数,并利用更新后的服务器模型优化本地任务模型;重复上述步直至服务器模型收敛,基于收敛后的服务器模型优化本地任务模型。通过本发明专利技术的方法,能够在保护用户隐私的前提下,挖掘不同用户数据之间特异性特征与深度关联,利用图数据结构信息优化本地模型,实现对本地数据的精确分析和判断。实现对本地数据的精确分析和判断。实现对本地数据的精确分析和判断。

【技术实现步骤摘要】
基于联邦学习进行数据分析的方法及系统


[0001]本专利技术涉及计算机数据挖掘领域,尤其涉及基于联邦学习进行数据分析的方法及系统。

技术介绍

[0002]在人工智能时代,机器学习依赖于大量的优质数据。然而受行业规范、数据安全标准和用户隐私担忧的约束,不同企业之间缺乏有效的信息互通与协作,彼此数据封闭孤立,以“信息孤岛”的形式存在。甚至即使是在同一个企业的不同部门之间,实现数据集中整合也面临着重重阻力。以医疗保健体系为例,各医疗机构拥有的用户数据相互隔离,单一医疗机构获得的用户数据量有限,难以训练得到优质的机器学习模型,因此无法采用传统集中式方法训练机器学习模型,导致大量数据无法被充分利用和准确分析。
[0003]联邦学习可以使得各参与方的自有数据不出本地,即在不违反数据隐私法规情况下,最大化发掘数据的价值,实现安全多方联合建模、多方共同获益。然而,现有的联邦学习在学习过程中数据隐私保护级别不高,建立的本地任务模型的性能非常有限。
[0004]因此,亟需一种更加安全、准确的进行数据分析的方法和系统。

技术实现思路

[0005]因此,本专利技术实施例的目的在于克服上述现有技术的缺陷,提供一种基于联邦学习训练服务器模型的方法,包括:获取多个本地任务模型的模型参数;通过同态加密和差分扰动的方法将所述多个本地任务模型的模型参数进行安全聚合;以及利用聚合后的模型参数更新当前的服务器模型。
[0006]本专利技术另一方面提供一种基于联邦学习建立本地任务模型的方法,包括:基于训练样本数据构建面向指定特征的数据子图;利用所述数据子图训练本地任务模型;提取所述本地任务模型的模型参数上传至服务器以更新服务器模型参数,并利用根据上述方法获得的更新后的服务器模型优化所述本地任务模型;重复上述步骤直至所述服务器模型收敛,基于收敛后的所述服务器模型优化所述本地任务模型。
[0007]在一个实施例中,所述基于所述训练样本数据构建面向指定特征的数据子图包括:依据所述指定特征,以所述训练样本数据中相关用户的用户属性信息作为结点,以所述相关用户之间的关联关系作为边,构建面向所述指定特征的数据子图。
[0008]在一个实施例中,上述方法包括:基于所述数据子图,计算面向指定特征的特征描述以训练本地任务模型,所述特征描述包括用户属性信息、关联关系的统计特征以及图层面特征,所述本地任务模型为卷积神经网络模型。
[0009]在一个实施例中,上述方法包括:将所述数据子图输入本地任务模型进行训练,所述本地任务模型为图神经网络模型。
[0010]在一个实施例中,上述方法还包括:依据所述预定的任务需求,利用本地训练样本数据对优化后的所述本地任务模型进行微调。
[0011]本专利技术另一方面提供一种基于联邦学习进行数据分析的方法,包括:获取待分析的数据;以及利用根据上述任一方法获得的本地任务模型分析所述数据。
[0012]在一个实施例中,上述方法还包括:对所述待分析的数据进行本地化差分隐私保护。
[0013]本专利技术另一方面提供一种基于联邦学习进行数据分析的系统,包括:接口模块,用于获取待分析的数据;以及分析模块,用于利用根据上述方法获得的本地任务模型分析所述数据。
[0014]本专利技术另一方面提供一种存储介质,其中存储有计算机程序,在所述计算机程序被处理器执行时,能够用于实现上述任一项所述的方法。
[0015]本专利技术另一方面提供一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,在所述计算机程序被处理器执行时,能够用于实现上述任一项所述的方法。
[0016]本专利技术实施例的技术方案可以包括以下有益效果:
[0017]通过联邦学习、图学习和隐私保护技术(差分隐私、同态加密等)在保护用户隐私的前提下,挖掘不同用户数据之间特异性特征与深度关联,利用图数据结构信息优化本地模型,使不同参与方在不共享数据的基础上实现联邦建模和协作更新,从技术上打破数据孤岛壁垒,满足数据安全法规要求和终端用户个性化需求,达成多参与方机器学习模型的联合优化和共同获益,并实现对本地数据的精确分析和判断。
[0018]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0020]图1示出了本专利技术一个实施例的一种基于联邦学习进行数据分析的方法的示意图。
[0021]图2示出了本专利技术一个实施例的一种基于联邦学习进行数据分析的方法的流程图。
[0022]图3示出了本专利技术一个实施例的基于联邦学习建立本地任务模型的方法的示意图。
[0023]图4示出了本专利技术一个实施例的基于联邦学习建立本地任务模型的方法的流程图。
[0024]图5示出了本专利技术一个实施例的构建面向指定特征的数据子图的示意图。
[0025]图6示出了本专利技术一个实施了的基于联邦学习训练服务器模型的方法的流程图。
[0026]图7示出了本专利技术一个实施例的一种基于联邦学习识别用户数据的系统的结构示意图。
具体实施方式
[0027]为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本专利技术进一步详细说明。应当理解,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本专利技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本专利技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本专利技术的各方面。
[0029]附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0030]附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0031]联邦学习(Federated Leaming)是一种分布式机器学习技术或机器学习框架,其目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,以提升AI模型的性能。联邦学习包括两个关键部分:服务器模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习训练服务器模型的方法,包括:步骤1

1)获取多个本地任务模型的模型参数;步骤1

2)通过同态加密和差分扰动的方法将所述多个本地任务模型的模型参数进行安全聚合;以及步骤1

3)利用聚合后的模型参数更新当前的服务器模型。2.一种基于联邦学习建立本地任务模型的方法,包括:步骤2

1)基于训练样本数据构建面向指定特征的数据子图;步骤2

2)利用所述数据子图训练本地任务模型;步骤2

3)提取所述本地任务模型的模型参数上传至服务器以更新服务器模型参数,并通过权利要求1所述的方法获得更新后的服务器模型以优化所述本地任务模型;步骤2

4)重复步骤2

2)

步骤2

3),直至所述服务器模型收敛,基于收敛后的所述服务器模型优化所述本地任务模型。3.根据权利要求2所述的方法,其中,所述基于所述训练样本数据构建面向指定特征的数据子图包括:依据所述指定特征,以所述训练样本数据中相关用户的用户属性信息作为结点,以所述相关用户之间的关联关系作为边,构建面向所述指定特征的数据子图。4.根据权利要求2所述的方法,其中,所述步骤2

2)包括:基于所述数...

【专利技术属性】
技术研发人员:蒋鑫龙陈前陈益强张腾王永斌张忠平肖益珊
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1