一种在模糊测试中生成提示模板的方法及装置制造方法及图纸

技术编号:39805566 阅读:8 留言:0更新日期:2023-12-22 02:39
本说明书实施例涉及一种在模糊测试中生成提示模板的方法及装置,所述方法包括:从当前迭代轮次的提示模板集合中确定种子提示模板,然后根据所述种子提示模板,生成至少一个目标提示模板

【技术实现步骤摘要】
一种在模糊测试中生成提示模板的方法及装置


[0001]本说明书一个或多个实施例涉及机器学习领域,尤其涉及一种在模糊测试中生成提示模板的方法及装置


技术介绍

[0002]近年来,大语言模型
(Large Language Models,LLMs)
广受欢迎,应用于包括日常对话

文章生成

代码生成等多个方面

尽管大语言模型已经取得了巨大的成功,但是其并不是完全安全可靠的,例如,在一些场景中,它可能会针对用户输入的问题给出违法的或者不符合人类价值观的有害信息

尽管目前大语言模型自带的安全措施可以减少生成有害信息的情况,但是,仍然有一些方法可以越过这些安全措施,进而引导大语言模型生成有害信息,这其中最为流行的一类方法被称为“越狱”(Jailbreak)。
[0003]目前,越狱通常基于人工专门设计的越狱提示文本
(prompt)
,通过利用模型训练数据或者模型架构中的漏洞或者偏差,引导大语言模型生成非预期的或者有害的输出文本

通过收集这些越狱提示文本并训练大语言模型拒绝遵从其中的指示,可以提高大语言模型的安全性

然而,现有的越狱提示都是人工设计的,难以对大语言模型进行大规模训练

因此,需要一种高效的批量生成越狱提示的方法,用来训练大语言模型拒绝输出相应的有害信息,以提高大语言模型的安全性


技术实现思路

[0004]本说明书一个或多个实施例描述了一种在模糊测试中生成提示模板的方法及装置,基于现有的少量越狱提示模板所构成的集合,从中选择合适的越狱提示模板,并基于该越狱提示模板生成多个新的越狱提示模板

然后根据新的越狱提示模板在大语言模型上的测试结果,使用优质越狱提示模板对越狱提示模板集合进行扩充

以此批量地自动生成越狱提示,用于进一步训练大语言模型以提高安全性

[0005]第一方面,提供了一种在模糊测试中生成提示模板的方法,包括:
[0006]从当前迭代轮次的提示模板集合中确定种子提示模板;
[0007]根据所述种子提示模板,生成至少一个目标提示模板;
[0008]获取第一问题,所述第一问题为被第一大语言模型拒绝回答的问题;
[0009]将所述第一问题填入任一目标提示模板中,得到目标提示文本;
[0010]将所述目标提示文本输入到所述第一大语言模型中,将所述第一大语言模型的输出文本输入到奖励模型中,得到对于所述目标提示模板的判定结果;
[0011]根据所述判定结果,使用目标提示模板更新所述提示模板集合;多轮迭代更新后的提示模板集合用于生成对大语言模型进行模糊测试的数据集

[0012]在一种可能的实施方式中,所述判定结果包括奖励分数;从当前迭代轮次的提示模板集合中确定种子提示模板,包括:
[0013]获取当前的搜索树,所述搜索树基于所述提示模板集合中的各个提示模板构建;
[0014]从搜索树的根节点开始向叶节点进行多轮搜索,在每轮搜索中,选择
UCT
分数最高的候选节点作为目标节点,将所述目标节点添加到搜索路径中,并将所述目标节点的子节点作为下一轮搜索的候选节点,所述
UCT
分数基于之前迭代轮次中节点在搜索树中的历史搜索次数以及历史平均奖励分数所确定;
[0015]将搜索路径中最后一个节点对应的提示模板作为种子提示模板

[0016]在一种可能的实施方式中,还包括:
[0017]在所述每轮搜索结束后,以预设的概率直接结束搜索,并输出所述搜索路径

[0018]在一种可能的实施方式中,在得到对于所述目标提示模板的判定结果之后,所述方法还包括:
[0019]基于预设的奖励惩罚系数与最小奖励分数,根据所述判定结果中的奖励分数确定第二奖励分数;
[0020]对于所述搜索路径中的各个节点,基于所述第二奖励分数更新其平均奖励分数,并更新其搜索次数

[0021]在一种可能的实施方式中,在生成至少一个目标提示模板之后,所述方法还包括:
[0022]将所述至少一个目标提示模板作为所述种子提示模板对应的节点的多个子节点,基于所述多个子节点更新所述搜索树

[0023]在一种可能的实施方式中,根据所述种子提示模板,生成至少一个目标提示模板,包括:
[0024]根据所述种子提示模板,生成风格相似的目标提示模板;和
/

[0025]根据所述种子提示模板以及提示模板集合中的随机模板的结合,得到目标提示模板;和
/

[0026]将所述种子提示模板进行扩写,得到目标提示模板;和
/

[0027]将所述种子提示模板进行缩写,得到目标提示模板;和
/

[0028]将所述种子提示模板进行改写,得到目标提示模板

[0029]在一种可能的实施方式中,根据所述种子提示模板,生成至少一个目标提示模板,包括:
[0030]至少将所述种子提示模板与预设的变换提示结合,输入到第二大语言模型中,得到至少一个目标提示模板;所述变换提示至少包括:生成提示

融合提示

扩写提示

缩写提示

改写提示

[0031]在一种可能的实施方式中,所述奖励模型为经过微调的第三大语言模型,所述微调基于第一训练集,所述第一训练集中包含第一大语言模型的输出文本及其对应的判定结果作为标签

[0032]在一种可能的实施方式中,所述判定结果包括,所述第一大语言模型对于所述目标提示文本是否接受的反馈结果;根据所述判定结果,使用目标提示模板更新所述提示模板集合,包括:
[0033]当所述反馈结果为接受时,将所述目标提示模板添加到所述提示模板集合中

[0034]第二方面,提供了一种在模糊测试中生成提示模板的装置,包括:
[0035]种子选择单元,配置为,从当前迭代轮次的提示模板集合中确定种子提示模板;
[0036]模板变换单元,配置为,根据所述种子提示模板,生成至少一个目标提示模板;
[0037]问题获取单元,配置为,获取第一问题,所述第一问题为被第一大语言模型拒绝回答的问题;
[0038]提示生成单元,配置为,将所述第一问题填入任一目标提示模板中,得到目标提示文本;
[0039]结果判定单元,配置为,将所述目标提示文本输入到所述第一大语言模型中,将所述第一大语言模型的输出文本输入到奖励模型中,得到对于所述目标提示模板的判定结果;
[0040]集合更新单元,配置为,根据所述判定结果,使用目标提示模板更新所述提示模板本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种在模糊测试中生成提示模板的方法,包括:从当前迭代轮次的提示模板集合中确定种子提示模板;根据所述种子提示模板,生成至少一个目标提示模板;获取第一问题,所述第一问题为被第一大语言模型拒绝回答的问题;将所述第一问题填入任一目标提示模板中,得到目标提示文本;将所述目标提示文本输入到所述第一大语言模型中,将所述第一大语言模型的输出文本输入到奖励模型中,得到对于所述目标提示模板的判定结果;根据所述判定结果,使用目标提示模板更新所述提示模板集合;多轮迭代更新后的提示模板集合用于生成对大语言模型进行模糊测试的数据集
。2.
根据权利要求1所述的方法,其中,所述判定结果包括奖励分数;从当前迭代轮次的提示模板集合中确定种子提示模板,包括:获取当前的搜索树,所述搜索树基于所述提示模板集合中的各个提示模板构建;从搜索树的根节点开始向叶节点进行多轮搜索,在每轮搜索中,选择
UCT
分数最高的候选节点作为目标节点,将所述目标节点添加到搜索路径中,并将所述目标节点的子节点作为下一轮搜索的候选节点,所述
UCT
分数基于之前迭代轮次中节点在搜索树中的历史搜索次数以及历史平均奖励分数所确定;将搜索路径中最后一个节点对应的提示模板作为种子提示模板
。3.
根据权利要求2所述的方法,还包括:在所述每轮搜索结束后,以预设的概率直接结束搜索,并输出所述搜索路径
。4.
根据权利要求2所述的方法,在得到对于所述目标提示模板的判定结果之后,所述方法还包括:基于预设的奖励惩罚系数与最小奖励分数,根据所述判定结果中的奖励分数确定第二奖励分数;对于所述搜索路径中的各个节点,基于所述第二奖励分数更新其平均奖励分数,并更新其搜索次数
。5.
根据权利要求2所述的方法,在生成至少一个目标提示模板之后,所述方法还包括:将所述至少一个目标提示模板作为所述种子提示模板对应的节点的多个子节点,基于所述多个子节点更新所述搜索树
。6.
根据权利要求1所述的方法,其中,根据所述种子提示模板,生成至少一个目标提示模板,包括:根据所述种子提示模板,生成风格相似的目标提示模板;和
/
或根据所述种子提示模板以及提示模板集合中的随机模板的结合,得到目标提示模板;和
/
或将所述种子提示模板进行扩写,得...

【专利技术属性】
技术研发人员:林性伟郁家豪
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1