基于安全切面的角色扮演攻击防御方法及装置制造方法及图纸

技术编号：43035434 阅读：4 留言：0更新日期：2024-10-18 17:38

本说明书实施例公开了一种基于安全切面的角色扮演攻击防御方法及装置，该方法通过预先对大模型进行微调，使得大模型能够在识别出户的提问请求中存在角色扮演内容时自动触发服务端的安全切面程序，利用该安全切面程序来检测角色扮演内容是否为恶意角色扮演攻击，并基于检测结果执行相应的防御策略，从而实现对角色扮演攻击的防御。该方法基于切面技术实现，不需要修改服务的基础架构，具有更好的便捷性。该方法不依赖基于先验知识的检测规则，可以抵御各种针对请求的攻击绕过。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种基于安全切面的角色扮演攻击防御方法及装置。

技术介绍

1、在大语言模型中，角色扮演攻击是指在输入提示中要求模型扮演一个虚构的角色，并为该角色设定了一系列的行为规则，这可能导致隐私泄露。

2、针对角色扮演攻击，目前常见的防御方案是分析用户的请求内容，拦截命中专家规则的角色扮演攻击请求。但是基于先验知识的拦截策略，十分容易被攻击者绕过。并且过滤请求内容，需要改造服务的基础架构，工作量大。

技术实现思路

1、本说明书的一个或多个实施例提供了一种基于安全切面的角色扮演攻击防御方法及装置，能够以极低的成本解决由于角色扮演攻击而导致的敏感信息泄露问题。

2、第一方面，提供了一种大模型的监督式微调方法，包括：

3、获取训练样本，所述训练样本包括用户与大模型的问答上下文；所述问答上下文的提问请求中包含角色扮演内容，所述问答上下文的答复中包含安全切面程序调用指令；所述安全切面程序调用指令用于调用预先部署在所述大模型的服务端的安全切面程序，所述安全切面程序用于检测所述角色扮演内容，并根据检测结果执行防御策略；

4、利用所述训练样本对所述大模型进行微调，以使所述大模型在识别出用户的提问请求中存在所述角色扮演内容时，通过所述服务端调用所述安全切面程序。

5、作为第一方面所述方法的一种可选实施方式，获取训练样本，具体包括：

6、获取所述大模型与用户的历史交互数据；

7、针对所述历史交互数据

8、作为第一方面所述方法的一种可选实施方式，利用所述训练样本对所述大模型进行微调，具体包括：

9、将所述训练样本输入所述大模型，得到所述大模型针对所述训练样本中的提问请求的答复；

10、根据所述大模型针对所述训练样本中的提问请求的答复和所述训练样本中的答复，构建损失函数，来微调所述大模型的参数。

11、第二方面，提供了一种基于安全切面的角色扮演攻击防御方法，应用于大模型的服务端，所述大模型预先上述的大模型的监督式微调方法进行微调，所述服务端部署有安全切面程序；所述方法包括：

12、响应于用户通过所述服务端向所述大模型发起的提问请求，所述大模型识别所述提问请求中是否存在角色扮演内容；

13、若所述提问请求中存在所述角色扮演内容，则所述大模型输出包含安全切面程序调用指令的答复；否则，所述大模型向用户返回针对所述提问请求的答复；

14、响应于所述安全切面程序调用指令，所述服务端调用所述安全切面程序拦截所述大模型的答复，并对所述角色扮演内容进行检测；

15、若检测到所述角色扮演内容为恶意角色扮演攻击，则所述安全切面程序执行角色扮演攻击防御策略；否则，所述安全切面程序放行所述大模型的答复。

16、作为第二方面所述方法的一种可选实施方式，所述方法还包括：

17、获取所述服务端的应用程序和所述应用程序的切点；

18、将所述安全切面程序注入所述切点处，以在执行所述应用程序至所述切点时，执行所述安全切面程序。

19、第三方面，提供了一种大模型的监督式微调装置，包括：

20、第一数据获取模块，配置为获取训练样本，所述训练样本包括用户与大模型的问答上下文；所述问答上下文的提问请求中包含角色扮演内容，所述问答上下文的答复中包含安全切面程序调用指令；所述安全切面程序调用指令用于调用预先部署在所述大模型的服务端的安全切面程序，所述安全切面程序用于检测所述角色扮演内容，并根据检测结果执行防御策略；

21、微调模块，配置为利用所述训练样本对所述大模型进行微调，以使所述大模型在识别出用户的提问请求中存在所述角色扮演内容时，通过所述服务端调用所述安全切面程序。

22、作为第三方面所述装置的一种可选实施方式，所述第一数据获取模块具体配置为：

23、获取所述大模型与用户的历史交互数据；

24、针对所述历史交互数据中的每个问答上下文，若所述问答上下文的提问请求中包含所述角色扮演内容，则在所述问答上下文的答复中增加所述安全切面程序调用指令，将修改后的所述问答上下文作为所述训练样本。

25、作为第三方面所述装置的一种可选实施方式，所述微调模块具体配置为：

26、将所述训练样本输入所述大模型，得到所述大模型针对所述训练样本中的提问请求的答复；

27、根据所述大模型针对所述训练样本中的提问请求的答复和所述训练样本中的答复，构建损失函数，来微调所述大模型的参数。

28、第四方面，提供了一种基于安全切面的角色扮演攻击防御装置，应用于大模型的服务端，所述大模型预先利用上述的大模型的监督式微调方法进行微调，所述服务端部署有安全切面程序；所述装置包括：

29、第二数据获取模块，配置为获取用户通过所述服务端向所述大模型发起的提问请求；

30、第一识别模块，配置为利用所述大模型识别所述提问请求中是否存在角色扮演内容；

31、第二识别模块，配置为响应于所述大模型识别出所述提问请求存在所述角色扮演内容而输出的包含安全切面程序调用指令的答复，通过所述服务端调用所述安全切面程序来拦截所述大模型针对所述提问请求的答复，并对所述角色扮演内容进行检测；

32、第一响应模块，配置为响应于所述大模型识别出所述提问请求中不存在所述角色扮演内容，向用户返回所述大模型针对所述提问请求的答复；

33、第二响应模块，配置为响应于检测到所述角色扮演内容为恶意角色扮演攻击，调用所述安全切面程序执行角色扮演攻击防御策略；以及，响应于检测到所述角色扮演内容为非恶意角色扮演攻击，向用户返回所述大模型针对所述提问请求的答复。

34、作为第四方面所述装置的一种可选实施方式，所述装置还包括：

35、切面程序注入模块，配置为获取所述服务端的应用程序及所述应用程序的切点，并将所述安全切面程序注入所述切点处，以在执行所述应用程序至所述切点时，执行所述安全切面程序。

36、第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行上述的大模型的监督式微调方法，或者，执行上述的基于安全切面的角色扮演攻击防御方法。

37、第六方面，提供了一种电子设备，包括：

38、至少一个存储器，用于存储程序；

39、至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行上述的大模型的监督式微调方法，或者，执行上述的基于安全切面的角色扮演攻击防御方法。

40、本说明书实施例所述的基于安全切面的角色本文档来自技高网...

【技术保护点】

1.一种大模型的监督式微调方法，包括：

2.如权利要求1所述的方法，获取训练样本，具体包括：

3.如权利要求1所述的方法，利用所述训练样本对所述大模型进行微调，具体包括：

4.一种基于安全切面的角色扮演攻击防御方法，应用于大模型的服务端，所述大模型预先利用权利要求1至3任一项所述的方法进行微调，所述服务端部署有安全切面程序；所述方法包括：

5.如权利要求4所述的方法，所述方法还包括：

6.一种大模型的监督式微调装置，包括：

7.如权利要求6所述的装置，所述第一数据获取模块具体配置为：

8.如权利要求6所述的装置，所述微调模块具体配置为：

9.一种基于安全切面的角色扮演攻击防御装置，应用于大模型的服务端，所述大模型预先利用权利要求1至3任一项所述的方法进行微调，所述服务端部署有安全切面程序；所述装置包括：

10.如权利要求9所述的装置，所述装置还包括：

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在电子设备上运行时，使得所

12.一种电子设备，包括：

...

【技术特征摘要】

1.一种大模型的监督式微调方法，包括：

2.如权利要求1所述的方法，获取训练样本，具体包括：

3.如权利要求1所述的方法，利用所述训练样本对所述大模型进行微调，具体包括：

5.如权利要求4所述的方法，所述方法还包括：

6.一种大模型的监督式微调装置，包括：

7.如权利要求6所述的装置，所述第一数据获取模块具体配置为：<...

【专利技术属性】
技术研发人员：刘焱，翁海琴，
申请(专利权)人：蚂蚁科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人