面向Non-IID图数据的多任务图分类模型构建方法及系统技术方案

技术编号：40645184 阅读：8 留言：0更新日期：2024-03-13 21:25

本发明专利技术涉及人工智能技术领域，揭露了面向Non‑IID图数据的多任务图分类模型构建方法，包括：客户端获取本地图数据，并对本地图数据配置混合图神经网络模型；利用混合图神经网络模型对所述本地图数据的分类预测，得到本地图数据的图预测结果，并提取当前混合图神经网络模型的融合层参数，并将融合层参数上传至中央服务器；中央服务器接收混合图神经网络模型中融合层参数，并利用聚合函数将所述融合层参数进行聚合，得到聚合融合层参数，中央服务器将聚合融合层参数分发至所述客户端。本发明专利技术还提出一种面向Non‑IID图数据的多任务图分类模型构建系统。本发明专利技术可以提高面向Non‑IID图数据的多任务图分类模型构建的准确率以及泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及面向non-iid图数据的多任务图分类模型构建方法及系统。

技术介绍

1、联邦图学习(federated graph learning,fgl)是将联邦学习(federatedlearning,fl)框架应用到图数据上的一种新兴技术，可以在保护客户端图数据隐私的前提下进行协作学习。联邦图学习面临的一个重要挑战是客户端本地图数据的非独立同分布(non-independently and identically distributed，non-iid)问题，不同客户端往往拥有不同的本地图数据可能具有异质数据(如不同的特征空间和连接规则)。尤其当客户端的数据来自不同的域时，这些差异很有可能导致联邦学习系统不稳定的训练和严重的性能下降。现有的non-iid数据场景下的fgl，主要考虑多个拥有异构数据的本地客户端、一个中央服务器之间的协作场景，各个客户端端本地拥有规模不同、分布异构的图数据集。各客户端使用其本地图数据集，训练本地的图神经网络(graph neural network，gnn)模型，学习增强的特征表达，然后在中央客户端从手机到的所有客户端收集本地模型参数，加权聚合生成全局模型，帮助本地客户端训练本地gnn模型。此种方法客户端在处理某一领域图数据集中具有较高的准确率。

2、目前，现有绝大部分fgl的研究工作关注基于特征的方案，主要思路是将各种技术手段应用于本地客户端的模型训练过程或中央服务器的全局模型聚合过程，以缓解non-iid图数据带来的问题。例如在本地模型使用聚类算法将节点划分

3、上述工作都侧重于从特征表达层面进行优化，而没有考虑到图结构本身的变化。然而，仅从特征表达层面进行优化是不够的，因为图结构自身的变化也会对模型产生重要影响。当前有少量尝试更直接地建模图结构信息，以获得更本质的改进。这类方法不再仅仅隐式地编码结构到特征表示中，而是试图在数据预处理阶段，直接提取节点的结构嵌入(structure embedding)，以更清晰地表示节点在图拓扑结构中的位置信息。这样可以获得依赖图连接关系的结构化节点表示，并与基于节点属性的异构特征表示隔离。

4、现有技术在面向non-iid图数据分布场景下联邦图学习的研究和应用还非常有限，相关工作基本集中在图特征进行增强或其他处理操作，即使有少量工作开始考虑图结构信息，也仅是简单地采用如fedavg等传统加权聚合模型参数的方式，例如：

5、(1)现有大多数技术过于依赖节点的特征表达，没有考虑图结构变化的影响。当前的大多联邦图学习方法中本地客户端仅使用传统的gnn层学习节点特征表示，提取节点嵌入，然后直接在此基础上进行下游任务。然而，这种过度依赖节点特征的建模方式忽略了不同客户端图之间的结构分布差异对模型的影响，无法捕捉结构异质性中的共性知识。

6、(2)直接基于gnn层的模型参数的简单聚合方式无法处理不同客户端的结构差异。当前联邦图学习中的参数聚合策略大多简单采用类似fedavg的均值融合，或人为设置预设权重。这种直接基于参数空间的聚合并没有建模不同客户端子图之间在结构分布等方面的差异，将导致在语义上不匹配的集成图表示。

7、(3)现有框架没有考虑从多角度对图结构进行抽象与提取。当前技术仅将图结构信息作为补充的节点特征输入，而没有在模型训练过程中对图结构进行处理。简单提取节点局部或全局结构信息的方式，没有实现对图的逐步抽象与约简。在面对non-iid图分布的时候,这将降低模型对图结构表示的稳定性和泛化性。

8、现有的研究基于图中节点特征方式本身忽略了图存在的丰富且重要的结构信息，而图结构特征提取的方式，都是基于经验主义的提取，需要对所有客户端现有图数据有整体分析，才能选取相对有效的图结构特征指标，因此，上述方法在图结构特征的获取上存在精确度较低，而且在模型表达能力、泛化能力上都较为不足。

9、此外，当前研究表示，在ptc_mr(生物小分子)图结构数据、enzymes(蛋白质)图结构数据、imdb-binary(社交网络)图结构数据和超像素网络图结构数据中，这四类图结构数据的统计参数分析了跨域图结构数据之间的共性，发现其结构相比具有相同数量节点和边的随机图。在图分类时，这些图属性可以成为影响分类结果的关键图模式，例如，蛋白质和超像素网络图结构数据集，虽然它们来自完全不同的领域，但都是由空间结构形成的，它们在度分布、最短路径长度和聚类系数上具有非常接近的值；对于蛋白质，其三级结构对其生物活性是必需的，并且紧密结合的基团是将酶分类为不同催化水平的重要信号，对于超像素网络，邻居信息对于描述图像中的对象必不可少。所以，存在这样的情况，即两个跨域图结构数据集包含某些重要的图形模式，这些图形模式对应于不同的特定于数据集的含义和任务，但可以在数据集之间共享。因此，综合解决上述跨域图结构数据集的非共性问题和图结构特征的获取上存在精确度较低的问题，可以实现客户端本地模型表达能力和泛化能力。

技术实现思路

1、本专利技术提供一种面向non-iid图数据的多任务图分类模型构建方法及系统，可以提高面向non-iid图数据的多任务图分类模型构建的准确率以及泛化能力。

2、为实现上述目的，本专利技术提供的一种面向non-iid图数据的多任务图分类模型构建方法，包括：

3、客户端获取本地图数据，并对所述本地图数据配置混合图神经网络模型，所述本地图数据包括生物小分子图结构数据、蛋白质图结构数据、社交网络图结构数据以及超像素网络图结构数据四者中至少一者；

4、利用所述混合图神经网络模型对所述本地图数据的分类预测，得到本地图数据的图预测结果，并提取当前混合图神经网络模型的融合层参数，并将所述融合层参数上传至中央服务器；

5、中央服务器接收所述混合图神经网络模型中融合层参数，并利用预设的聚合函数将所述融合层参数进行聚合，得到聚合融合层参数，所述中央服务器将所述聚合融合层参数分发至所述客户端。

6、可选地，所述在所述对所述本地图数据配置混合图神经网络模型之前，还包括：

7、获取客户端的数量，并获取每个客户端的本地图数据集；

8、根据所述本地图数据集中的节点将所述本地图数据集转化为节点特征；

9、将所有节点的节点特征进行汇总，得到多维度节点特征矩阵。

10、可选地，所述对所述本地图数据配置混合图神经网络模型，包括：

11、对每个所述客户端构建图神经网络模型，其中，所述图神经网络模型包括一层预处理层，三层图编码层、两层混合自注意力图粗化模块以及一层读出层。

12、可选地，所述对每个所述客户端构建图神经网络模型，包括：

13、预处理层：定义图编码层的隐藏维度，并将所有客户端设置为相同的隐藏维度，其中，所述预处理层包括一层神经网络线性层，所述预处理层将所述客本文档来自技高网...

【技术保护点】

1.一种面向Non-IID图数据的多任务图分类模型构建方法，其特征在于，所述方法包括：

2.如权利要求1所述的面向Non-IID图数据的多任务图分类模型构建方法，其特征在于，所述在所述对所述本地图数据配置混合图神经网络模型之前，还包括：

3.如权利要求1或2所述的面向Non-IID图数据的多任务图分类模型构建方法，其特征在于，所述对所述本地图数据配置混合图神经网络模型，包括：

4.如权利要求3所述的面向Non-IID图数据的多任务图分类模型构建方法，其特征在于，所述对每个所述客户端构建图神经网络模型，包括：

5.如权利要求4所述的面向Non-IID图数据的多任务图分类模型构建方法，其特征在于，所述采用混合自注意力打分模块对所述节点特征进行打分，得到多个打分结果，包括：

6.如权利要求4所述的面向Non-IID图数据的多任务图分类模型构建方法，其特征在于，所述根据动态自适应的融合模块对所述多个打分结果进行加权组合，得到最终融合分数，包括：

7.如权利要求4所述的面向Non-IID图数据的多任务图分类模型构建方法

8.一种基于如权利要求1至7中任意一项所述的面向Non-IID图数据的多任务图分类模型构建方法的系统，其特征在于，包括客户端和中央服务器；所述中央服务器和所述客户端通信，并基于权利要求1至7中任意一项所述的面向Non-IID图数据的多任务图分类模型构建方法构建多任务图分类模型。

9.如权利要求8所述的面向Non-IID图数据的多任务图分类模型构建方法的系统，其特征在于，所述中央服务器接收所述客户端混合图神经网络模型的融合层参数，并通过预设的聚合函数将所述融合层参数进行聚合，得到融合层参数。

10.如权利要求9所述的面向Non-IID图数据的多任务图分类模型构建方法的系统，其特征在于，所述中央服务器将所述聚合融合层参数分发至所述客户端后，所述客户端保存所述融合层参数至本地模型。

...

【技术特征摘要】

1.一种面向non-iid图数据的多任务图分类模型构建方法，其特征在于，所述方法包括：

2.如权利要求1所述的面向non-iid图数据的多任务图分类模型构建方法，其特征在于，所述在所述对所述本地图数据配置混合图神经网络模型之前，还包括：

3.如权利要求1或2所述的面向non-iid图数据的多任务图分类模型构建方法，其特征在于，所述对所述本地图数据配置混合图神经网络模型，包括：

4.如权利要求3所述的面向non-iid图数据的多任务图分类模型构建方法，其特征在于，所述对每个所述客户端构建图神经网络模型，包括：

5.如权利要求4所述的面向non-iid图数据的多任务图分类模型构建方法，其特征在于，所述采用混合自注意力打分模块对所述节点特征进行打分，得到多个打分结果，包括：

6.如权利要求4所述的面向non-iid图数据的多任务图分类模型构建方法，其特征在于，所述根据动态自适应的融合模块对所述多个打分结果进行加权组合，得到最终融合分数，包括：

【专利技术属性】
技术研发人员：胡春强，张程曦，张今革，邓绍江，夏晓峰，蔡斌，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人