一种联邦学习系统中的大语言模型训练数据恢复方法技术方案

技术编号：41355933 阅读：15 留言：0更新日期：2024-05-20 10:07

本发明专利技术公开了一种联邦学习系统中的大语言模型训练数据恢复方法，属于联邦学习技术领域。本发明专利技术首先截获客户端向服务器上传的梯度，以及截获服务器向客户端下发的全局大语言模型，从而基于全局大语言模型和梯度恢复出客户端的私有训练数据。在恢复处理时，本发明专利技术通过直接操作令牌级别的信息，减少了复杂度，并保证了整个恢复过程中重建的文本始终保持语法的正确性；同时通过使用辅助大语言模型，不仅优化了重建文本的语法结构，还保障了重建过程中的每一步都生成合乎语法规则的句子，从而显著提升数据恢复的恢复质量；本发明专利技术还利用辅助的大语言模型维持句子的语法正确性，以避免在巨大嵌入空间内进行无目的搜索，实现高效和准确的文本数据恢复。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及联邦学习，尤其涉及一种联邦学习系统中的大语言模型（large language model，llm）训练数据恢复方法。

技术介绍

1、在当前大数据和云计算的背景下，联邦学习（federated learning, fl）作为一种新兴的分布式机器学习方法，已经逐渐走进公众视野。它的核心优势在于能够在保护数据隐私的前提下，对分散在不同设备上的数据进行协同训练。在联邦学习的标准过程中，各客户端（如智能手机、医疗设备或任何能进行计算的终端）下载服务器上的全局模型，使用其本地数据（私有训练数据）进行模型训练，并将更新的梯度上传回服务器。随后，服务器综合这些梯度来更新全局模型。尽管这一过程可以有效地利用分布式数据并且数据保留在本地，但在梯度上传的环节，数据安全面临着潜在的被恢复风险。非授权用户可能会通过分析梯度信息来恢复训练数据。基于对这些被恢复的训练数据的分析，可以揭露联邦学习当中的隐私问题，揭露训练数据潜在的安全风险，进而可以通过进一步的隐私保护策略调整各客户端的私有训练数据被恢复的程度，从而为联邦学习系统提供更加强大的隐私保护。

2、现有的文献和技术通常集中在图像数据的联邦学习系统上，其中恢复者尝试从梯度中恢复出原始的图像数据。然而，这些方法往往不适用于文本数据，因为文本的离散性和高维特征空间要求更为精细和优化的恢复技术。大型语言模型在联邦学习场景中往往选择使用微调的方式进行训练、梯度值包含训练数据的先验信息较少。随着大型语言模型在自然语言处理领域的广泛应用，如bert（bidirectional encod

3、在以文本分类为任务的联邦学习系统中，恢复者的主要目标是利用客户端上传的梯度信息以及全局大语言模型重建客户端的私有训练数据。现有的从梯度恢复出原始数据的方案主要有以下几种方案：

4、方案一：dlg（deep leakage from gradient）方案。

5、在dlg方案中，恢复者通过一种优化的方法来重建客户端的私有文本数据。具体而言，恢复者首先随机初始化一组虚假数据，其中，和分别代表样本的虚假嵌入及其虚假标签。虚假嵌入输入到被恢复模型会得到一个虚假的模型输出，虚假的模型输出与虚假标签进行损失函数求损失值（loss）并进行反向传播得到虚假梯度。为了逼近真实数据的梯度，恢复者接下来采用拟牛顿法（l-bfgs）优化器优化虚假嵌入使其输入被恢复模型产生的虚假梯度与真实的梯度之间的欧式距离变小。当虚假梯度与真实梯度之间的欧式距离比预设的欧几里得阈值小，虚假数据可以被认为是被重建数据。dlg方案中的优化目标可以形式化地表示如下：

6、

7、其中，表示重建数据，即恢复数据，分别代表样本的重建嵌入和重建标签，表示虚假数据所对应的梯度数据，表示真实数据所对应的梯度数据，分别表示样本的嵌入（真实嵌入）和标签（真实标签），即为客户端的私有训练数据。当虚假嵌入被重建后，可以通过查找嵌入矩阵当中与虚假嵌入匹配的条目，然后逆映射为相应的令牌，最后得到重建数据，即重建的令牌序列。

8、方案一的缺点：该方案的重建执行要求对梯度匹配过程进行数据搜索，该过程的复杂度与数据的批量大小（batch size）、批处理中最长句子长度、以及被恢复模型嵌入层的特征长度的乘积成正比。恢复的复杂度随着批处理大小、批处理当中最大的句子长度以及嵌入层的特征长度随之膨胀，这显著增加了在广阔的搜索域内找到目标嵌入的难度。即该方案的实用性仅限于小批量且短小的文本数据。此外，由于方案一在每次迭代中都须将虚假嵌入输入至被恢复模型以计算梯度，并与实际梯度进行匹配，这导致了该方案在优化效率上存在显著不足。具体来说，每次迭代的执行都涉及到高计算成本的步骤，这在实际操作中引致了过长的处理时间，从而影响了该方法的应用实效性。

9、方案二：tag（gradient attack on transformer-based language models）方案。

10、该方案是dlg方案的一种改进，被称为tag方案。在tag方案中，恢复者无法直接访问本地训练中的私有训练数据，其中，分别表示样本的嵌入和样本标签。但可以获取本地设备共享的梯度（即真实梯度）以及当前全局大语言模型w。在此基础上，tag方案首先随机初始化一组虚假数据包括样本的虚假嵌入以及虚假标签，虚假嵌入输入被恢复模型通过与虚假标签求损失值，然后再反向传播得到一个虚假梯度。通过定义一个可微分的距离函数，目标是最小化虚假梯度与真实梯度之间的差异，从而优化虚假嵌入以逼近真实的嵌入。

11、tag方案使用了与dlg方案不同的距离函数，它结合了l2范数（欧几里得距离）和l1范数（曼哈顿距离），并引入了一个系数参数来测量梯度之间的差异。这是为了克服在正态权重初始化下使用欧几里得距离可能导致的问题，因为大多数梯度聚集在零附近，而只有一小部分梯度具有大值。tag的优化目标可以具体定义为以下形式：

12、

13、其中，表示重建数据，即恢复数据，分别代表样本的重建嵌入和重建标签，表示虚假数据所对应的梯度数据，表示真实数据所对应的梯度数据，分别表示样本的嵌入（真实嵌入）和标签（真实标签）。

14、方案二的缺点：方案二尽管在优化的目标函数上进行了创新，但仍然继承了方案一的一些核心局限性。具体来说，它与方案一一样优化的虚假嵌入具有较大的搜索空间，容易导致搜索失败。其次，盲目地搜索可能导致搜索出的句子并不合乎语法，只是一些令牌的组合。与dlg相比，tag方案在权重初始化不同的情况下可能会产生显著不同的梯度，这使得优化过程复杂化，找到符合优化目标的虚假数据变得更加困难。

15、方案三：lamp（extracting text from gradients with language modelpriors）。

16、lamp的恢复方法，该方法结合了连续优化和离散优化来重构文本数据。恢复过程首先通过梯度下降方法进行连续优化，然后利用语言模型指导搜索以更自然地重建文本。在连续优化部分，假设恢复者已知客户端令牌序列的真实标签。该方法主要关注二元分类，批量大小足以尝试所有可能的标签组合。此外，先前的研究表明，对于基本网络架构，标签可以轻松恢复，未来可以适应变换器模型。重建候选是通过从高斯分布中采样嵌入来初始化的，选择具有最小重建损失的样本。

17、重建损失是恢复的关键组成部分，用于衡量重建梯度与真实梯度的接近程度。可以使用l2范数和l1范数损失的组合，或者使用在图像领域提出的余弦重建损失。lamp方法还可以使用其他类型的损失函数，其有效性取决于数据集。在优化过程中本文档来自技高网...

【技术保护点】

1.一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，包括下列步骤：

2.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤2具体包括：

3.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤4中，筛选评分的计算公式为：

4.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤3中，恢复端的采用的辅助的大语言模型为GPT2.0。

5.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤6中执行两两部分单词互换时，采用词性相同的令牌进行单词互换。

6.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤7中，对令牌替换对象的令牌进行随机替换时，替换前与替换后的令牌的词性一致。

7.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，筛选比例的值设置为0.9，交换比例设置为0.1。

【技术特征摘要】

1.一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，包括下列步骤：

2.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤2具体包括：

3.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤4中，筛选评分的计算公式为：

4.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤3中，恢复端的采用的辅助的大语言模型为gpt2.0。

【专利技术属性】
技术研发人员：杨浩淼，向坤兰，丁子康，薛冬昀，黄大彬，陈沫，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人