System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 防御方法、装置、计算机设备和计算机可读存储介质制造方法及图纸_技高网

防御方法、装置、计算机设备和计算机可读存储介质制造方法及图纸

技术编号:45010397 阅读:2 留言:0更新日期:2025-04-18 16:56
本申请涉及一种防御方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取防御后缀文本,并基于越狱成功率最高的目标越狱攻击方式确定样本攻击文本集;根据样本攻击文本集和防御后缀文本对样本大语言模型进行攻防测试,得到测试结果,并基于测试结果在防御后缀文本中识别防御关键词;根据防御关键词强化防御后缀文本,得到各强化防御文本,并在各强化防御文本中确定目标强化防御文本;目标强化防御文本用于防御大语言模型应用过程中的越狱攻击。采用本方法能够提高防御方法的成功率。

【技术实现步骤摘要】

本申请涉及大语言模型,特别是涉及一种防御方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、随着大语言模型技术的快速发展,基于大模型的自然语言处理应用在多个领域中得到了广泛应用。然而,这些大语言模型在提供丰富功能的同时,大语言模型往往容易受到越狱攻击,导致大语言模型生成有害的内容,从而对用户安全和模型的公信力产生威胁。因此,需要通过防御方法来抵抗越狱攻击,从而保护大语言模型。

2、目前的防御方法,基于敏感词汇数据库判断用户输入的文本信息中是否包含敏感词。若用户的文本信息中包含敏感词,则中断后续流程,并显示用户重新输入的提示。

3、然而,目前的防御方法,基于单一的敏感词检测难以识别出复杂的越狱攻击的文本信息中的敏感词,即难以准确检测出复杂的越狱攻击,并进行防护。因此,目前的防御方法的成功率较低。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种防御方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种防御方法,包括:

3、获取防御后缀文本,并基于越狱成功率最高的目标越狱攻击方式确定样本攻击文本集;

4、根据所述样本攻击文本集和所述防御后缀文本对样本大语言模型进行攻防测试,得到测试结果,并基于所述测试结果在所述防御后缀文本中识别防御关键词;

5、根据所述防御关键词强化所述防御后缀文本,得到各强化防御文本,并在各所述强化防御文本中确定目标强化防御文本;所述目标强化防御文本用于防御大语言模型应用过程中的越狱攻击。

6、在其中一个实施例中,所述基于越狱成功率最高的目标越狱攻击方式确定样本攻击文本集之前,所述方法还包括:

7、获取初始样本攻击文本集和各越狱攻击方式,并基于所述初始样本攻击文本集和所述防御后缀文本,生成每一所述越狱攻击方式对应的越狱样本文本集;

8、根据所述越狱样本文本集攻击样本大语言模型,得到所述越狱攻击方式对应的第一总损失值;

9、基于各所述越狱攻击方式对应的第一总损失值,在各所述越狱攻击方式中确定越狱成功率最高的目标越狱攻击方式。

10、在其中一个实施例中,所述基于所述初始样本攻击文本集和所述防御后缀文本,生成每一所述越狱攻击方式对应的越狱样本文本集,包括:

11、拼接所述防御后缀文本和所述初始样本攻击文本集中的每一初始样本攻击文本,得到各初始拼接样本文本;

12、针对每一所述越狱攻击方式,根据各所述初始拼接样本文本,生成所述越狱攻击方式对应的各越狱样本文本;

13、基于各所述越狱样本文本构建所述越狱攻击方式对应的越狱样本文本集。

14、在其中一个实施例中,所述防御后缀文本中包含各防御词,所述根据所述样本攻击文本集和所述防御后缀文本对样本大语言模型进行攻防测试,得到测试结果,并基于所述测试结果在所述防御后缀文本中识别防御关键词,包括:

15、针对每一所述防御词,拼接所述防御词和所述样本攻击文本集中各样本攻击文本,得到各防御词输入文本;

16、基于各所述防御词输入文本攻击所述样本大语言模型,得到所述防御词的影响力值;

17、按照影响力值由大到小的顺序对各所述防御词进行排序,得到防御词序列,并预设的关键词数量在所述防御词序列中确定防御关键词。

18、在其中一个实施例中,所述根据所述防御关键词强化所述防御后缀文本,得到各强化防御文本,包括:

19、生成每一所述防御关键词对应的近义防御关键词;

20、基于各所述近义防御关键词替换所述防御后缀文本中的所述防御关键词,得到各强化防御文本。

21、在其中一个实施例中,所述在各所述强化防御文本中确定目标强化防御文本,包括:

22、针对每一所述强化防御文本,拼接所述强化防御文本和所述样本攻击文本集中的各样本攻击文本,得到各样本输入文本;

23、基于各所述样本输入文本攻击所述样本大语言模型,得到所述强化防御文本对应的第二总损失值;

24、根据各所述第二总损失值在各所述强化防御文本中确定目标强化防御文本。

25、在其中一个实施例中,所述根据所述防御关键词强化所述防御后缀文本,得到各强化防御文本,并在各所述强化防御文本中确定目标强化防御文本之后,所述方法还包括:

26、获取用户输入的文本信息,拼接所述目标强化防御文本和所述文本信息,得到目标文本信息;

27、将所述目标文本信息输入大语言模型中,通过所述大语言模型确定所述目标文本信息对应的文本输出结果;所述目标强化防御文本用于引导大语言模型输出正常的文本输出结果。

28、第二方面,本申请还提供了一种防御装置,包括:

29、确定模块,用于获取防御后缀文本,并基于越狱成功率最高的目标越狱攻击方式确定样本攻击文本集;

30、测试模块,用于根据所述样本攻击文本集和所述防御后缀文本对样本大语言模型进行攻防测试,得到测试结果,并基于所述测试结果在所述防御后缀文本中识别防御关键词;

31、强化模块,用于根据所述防御关键词强化所述防御后缀文本,得到各强化防御文本,并在各所述强化防御文本中确定目标强化防御文本;所述目标强化防御文本用于防御大语言模型应用过程中的越狱攻击。

32、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

33、获取防御后缀文本,并基于越狱成功率最高的目标越狱攻击方式确定样本攻击文本集;

34、根据所述样本攻击文本集和所述防御后缀文本对样本大语言模型进行攻防测试,得到测试结果,并基于所述测试结果在所述防御后缀文本中识别防御关键词;

35、根据所述防御关键词强化所述防御后缀文本,得到各强化防御文本,并在各所述强化防御文本中确定目标强化防御文本;所述目标强化防御文本用于防御大语言模型应用过程中的越狱攻击。

36、第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

37、获取防御后缀文本,并基于越狱成功率最高的目标越狱攻击方式确定样本攻击文本集;

38、根据所述样本攻击文本集和所述防御后缀文本对样本大语言模型进行攻防测试,得到测试结果,并基于所述测试结果在所述防御后缀文本中识别防御关键词;

39、根据所述防御关键词强化所述防御后缀文本,得到各强化防御文本,并在各所述强化防御文本中确定目标强化防御文本;所述目标强化防御文本用于防御大语言模型应用过程中的越狱攻击。

40、第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

41、获取防御后缀文本,并基于越狱成功率最高的目标越狱攻击本文档来自技高网...

【技术保护点】

1.一种防御方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于越狱成功率最高的目标越狱攻击方式确定样本攻击文本集之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述初始样本攻击文本集和所述防御后缀文本,生成每一所述越狱攻击方式对应的越狱样本文本集,包括:

4.根据权利要求1所述的方法,其特征在于,所述防御后缀文本中包含各防御词,所述根据所述样本攻击文本集和所述防御后缀文本对样本大语言模型进行攻防测试,得到测试结果,并基于所述测试结果在所述防御后缀文本中识别防御关键词,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述防御关键词强化所述防御后缀文本,得到各强化防御文本,包括:

6.根据权利要求1所述的方法,其特征在于,所述在各所述强化防御文本中确定目标强化防御文本,包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述防御关键词强化所述防御后缀文本,得到各强化防御文本,并在各所述强化防御文本中确定目标强化防御文本之后,所述方法还包括

8.一种防御装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种防御方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于越狱成功率最高的目标越狱攻击方式确定样本攻击文本集之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述初始样本攻击文本集和所述防御后缀文本,生成每一所述越狱攻击方式对应的越狱样本文本集,包括:

4.根据权利要求1所述的方法,其特征在于,所述防御后缀文本中包含各防御词,所述根据所述样本攻击文本集和所述防御后缀文本对样本大语言模型进行攻防测试,得到测试结果,并基于所述测试结果在所述防御后缀文本中识别防御关键词,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述防御关键词强化所述防御后缀文本,得到各强化防...

【专利技术属性】
技术研发人员:任宏丹徐馨兰杨哲超
申请(专利权)人:中国电信股份有限公司技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1