基于自然语言提示的LLM语言用户隐私信息保护方法技术

技术编号：39292045 阅读：52 留言：0更新日期：2023-11-07 10:59

本发明专利技术公开了一种基于自然语言提示的LLM模型用户隐私信息保护方法，构建以p

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言提示的LLM语言用户隐私信息保护方法

[0001]本专利技术涉及数据隐私保护
，特别是涉及基于提示的LLM模型用户隐私信息保护方法。

技术介绍

[0002]与本专利技术相关的现有技术如下：
[0003](一)语言模型数据隐私保护：
[0004]近年来，自然语言模型的能力取得了显著提升，并在几个现实世界场景中实现了大规模部署。在特定于领域的用户数据上训练这些模型可以进一步提高其实用性。模型所需的数据量，以及自然语言固有的稀疏性(通常指所有数据都是唯一的)，会导致针对模型及其训练数据的一系列隐私攻击现象的出现。语言模型对训练样本具有很高的记忆能力，这些“记忆”会导致模型反转攻击，攻击者通过查询任何数据记录上的预训练语言模型，重建部分训练样本，从而获取用户的隐私数据。如何有效保护用户数据的隐私成为了当下语言大模型的热门研究点之一。
[0005]现有隐私保护的研究多关注于”防止有个人损害的信息被泄露”，但是仅依赖“一个模型在各种攻击下能够达到防止信息泄露”就判定模型可以全面保护隐私是不充分的。随着攻击手段的不断改进，对于模型的防御能力通常为有着较低的隐私泄露风险。因此为了实现更好地隐私保护，需要对隐私的定义有更为深入的了解。不同于直接不记录隐私信息，人们通过对当前对话以及社会文化情境来决定保持数据隐私。然而这样的判断需要当前对话之外的额外信息，缺乏对于情境的理解将导致无法做出正确判断。因此在决定将数据用于模型训练时，必须考虑用户共享数据的范围。基于Nissenbaum的语境完整性理论...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言提示的LLM模型用户隐私信息保护方法，其特征在于，包括以下步骤：步骤1、构建以p
‑
tuning软模板为核心的自然语言提示模型，通过p
‑
tuning软模板实现自然语言提示连续地址的自动生成；步骤2、进行自然语言提示的预训练和学习，具体过程描述如下：自然语言提示模型的预训练过程：输入自然语言文本信息，提取文本中的关键字信息，通过wordNet网络模型对关键字信息进行同义替换来实现遮蔽，对于遮蔽后的关键字信息，使用自然语言提示模型重建文本信息，通过执行一次以上的预训练过程，对自然语言提示模型参数进行初始化；自然语言提示模型的学习过程：提示学习预先准备待训练的离散的自然语言任务指令，向预训练语言模型输入自然语言任务；步骤3、对于输入句子中的关键信息，结合输入信息和输出信息生成合成数据实现数据增强，在对自然语言提示模型进行微调后，生成提示词P，从提示词P中提取关键字和标签，馈送到预训练语言模型中生成新的合成训练数据。2.根据权利要求1所述的一种基于自然语言提示的LLM模型用户隐私信息保护方法，其特征在于，所述p
‑
tuning软模板包括：在自然语言理解任务中，自然语言提示(prompts)[P0],
…
,[P
i
]、[P
i+1
],
…
,[P
m
]经过编码处理，将模板T中第i个自然语言提示P
i
视...

【专利技术属性】
技术研发人员：李雨晨，宫晓利，张金，李浩然，邹先予，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人