System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于自步学习与个性化联邦学习的多中心数据处理方法技术_技高网

基于自步学习与个性化联邦学习的多中心数据处理方法技术

技术编号:42853965 阅读:20 留言:0更新日期:2024-09-27 17:20
本发明专利技术公开了一种基于自步学习与个性化联邦学习的多中心数据处理方法,属于医疗数据处理技术领域。所述方法包括:基于全局自步学习策略训练全局联邦模型:基于训练样本损失值和样本选择阈值对客户端训练样本进行排序和选择,动态调整样本选择阈值以使得全局联邦模型在不同训练阶段选择不同的客户端训练样本;构建针对各中心的个性化模型:将训练好的全局联邦模型拆分为特征提取器部分与决策器部分,并对参数进行解耦,将解耦后的特征提取器参数设置为共享参数,决策器参数设置为客户端私有参数。本发明专利技术解决了患者隐私保护问题,联邦模型的个性化适配问题,以及避免了数据异质导致的全局模型的泛化能力受限和难以收敛到全局最优模型的问题。

【技术实现步骤摘要】

本专利技术属于医疗数据处理,特别涉及基于自步学习与个性化联邦学习的多中心数据处理方法


技术介绍

1、随着医疗检测技术和信息技术的飞速发展,疾病的检查和分析手段经历了巨大的变革,为人工智能辅助医生决策并优化治疗方案带来了新的机遇。在重症监护领域,对病人的持续监控产生了海量的生命体征数据,可以为机器学习提供有力的数据支撑。

2、传统的机器学习研究通常是在一个大型数据库中进行的,然而由于医疗数据包含大量的患者信息,为了保护患者隐私,这些数据不允许在多家医疗中心之间传递与共享。这导致医疗机构只能将数据保留在本地,从而形成了数据孤岛,大量的数据难以得到有效利用。

3、联邦学习是一种分布式机器学习方法,能够在多个客户端(医疗中心)之间协作训练模型,而无需共享患者的敏感数据,因此被广泛应用于医疗领域。但由于数据异质的原因,统一的全局联邦模型不能满足客户端的个性化要求,在特定的客户端上表现不佳。

4、个性化联邦学习可以在训练全局联邦模型的前提下,结合客户端的本地数据进行个性化训练,从而解决数据异质对联邦学习的影响。主流的个性化联邦学习可以分为以下两类:1)全局联邦模型个性化:通过联邦学习建立一个强大的全局联邦模型,并在客户端使用本地数据来个性化这个模型;2)直接学习个性化模型:在联邦学习过程中通过修改模型聚合的方法直接为客户端训练一个个性化模型。

5、但是,全局联邦模型个性化方法的有效性在很大程度上依赖于全局联邦模型的性能,如果全局联邦模型在不同数据环境中表现不佳,即使通过本地数据进行调整,也难以显著提升模型效果。此外,多中心情境下的医疗数据通常呈现非独立同分布的特点,以联邦平均算法 fedavg 为代表的联邦聚合方法难以收敛到全局最优模型。而直接学习个性化模型的方法在很大程度上依赖于数据的统计异质性程度。这意味着这些方法通常只在特定类型的异质性情况下表现良好。例如,fedper 在标签分布异质的情况下表现出色,而 lg-fedavg 在特征分布异质的情况下效果较好。在真实场景下,由于隐私问题,多个医疗机构的数据异质性往往难以评估,这使得选择合适的直接学习个性化联邦学习方法变得具有挑战性。


技术实现思路

1、解决上述技术问题,本专利技术提供了基于自步学习与个性化联邦学习的多中心数据处理方法,通过设计个性化预测模型以及基于自步学习策略进行模型训练,有效缓解了异构数据对模型训练的负面影响。

2、为实现上述目的,本专利技术采用的技术方案如下:

3、一种基于自步学习与个性化联邦学习的多中心数据处理方法,所述方法包括如下步骤:

4、步骤1、基于全局自步学习策略训练全局联邦模型:基于训练样本损失值和样本选择阈值对客户端训练样本进行排序和选择,动态调整样本选择阈值以使得全局联邦模型在不同训练阶段选择不同的客户端训练样本;

5、步骤2、构建针对各中心的个性化模型:将训练好的全局联邦模型拆分为特征提取器部分与决策器部分,并对特征提取器部分与决策器部分的参数进行解耦,将解耦后的特征提取器参数设置为共享参数,决策器参数设置为客户端私有参数。

6、进一步的,所述步骤1包括:

7、步骤1.1、服务器与客户端建立连接,确定全局联邦学习参与方,初始化全局联邦模型;

8、步骤1.2、服务器向客户端发送初始化后的全局联邦模型;

9、步骤1.3、客户端接受始化后的全局联邦模型,对本地训练样本数据计算单个样本损失值;

10、步骤1.4、根据当前训练轮数t,总训练轮数t,客户端本地数据集所有训练样本的最大损失值与平均损失值计算样本选择阈值;

11、,

12、其中,表示当前训练轮数为t时客户端本地数据集所有训练样本的平均损失值,表示当前训练轮数为t时客户端本地数据集所有训练样本的最大损失值;

13、步骤1.5、选择单个样本损失值不大于样本选择阈值的本地训练样本集合组成新的数据集进行训练;步骤1.6、将基于新的数据集训练完的客户端本地模型上传服务器,服务器对所有本地模型进行聚合得到新的全局联邦模型;

14、步骤1.7、重复步骤1.2到步骤1.6直至满足设定的总训练轮数 t,得到最终全局联邦模型。

15、进一步的,所述步骤2包括:

16、步骤2.1、客户端接受最终全局联邦模型;

17、步骤2.2、将最终全局联邦模型拆分为包括双层门控循环单元的特征提取器,以及由多层感知机组成的决策器部分,并将特征提取器部分和决策器部分的参数进行解耦;

18、步骤2.3、将解耦后的特征提取器参数设置为共享参数,在本地自适应阶段所有客户端保持一致;

19、步骤2.4、将解耦后的决策器参数设置为个性化参数,在本地自适应阶段使用本地数据集进行微调,获得个性化模型。

20、本专利技术的有益效果在于:

21、本专利技术采用全局模型个性化的方法,通过全局联邦学习加本地自适应的技术手段,不仅保护了患者隐私信息,还为每一个医疗中心定制了一个个性化的模型;通过自步学习的策略,根据样本损失值从低到高的顺序,在全局联邦学习过程中逐步增加样本,有效解决了数据异质导致的全局模型的泛化能力受限和难以收敛到全局最优模型的问题。

本文档来自技高网...

【技术保护点】

1.一种基于自步学习与个性化联邦学习的多中心数据处理方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的基于自步学习与个性化联邦学习的多中心数据处理方法,其特征在于,所述步骤1包括:

3.根据权利要求1所述的基于自步学习与个性化联邦学习的多中心数据处理方法,其特征在于,所述步骤2包括:

【技术特征摘要】

1.一种基于自步学习与个性化联邦学习的多中心数据处理方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的基于自步学习与个性化联邦学习的多...

【专利技术属性】
技术研发人员:杨雪冰万端畅朱运琪张文生
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1