一种在模糊测试中生成提示模板的方法及装置制造方法及图纸

技术编号：39805566 阅读：16 留言：0更新日期：2023-12-22 02:39

本说明书实施例涉及一种在模糊测试中生成提示模板的方法及装置，所述方法包括：从当前迭代轮次的提示模板集合中确定种子提示模板，然后根据所述种子提示模板，生成至少一个目标提示模板

全部详细技术资料下载

【技术实现步骤摘要】
一种在模糊测试中生成提示模板的方法及装置

[0001]本说明书一个或多个实施例涉及机器学习领域，尤其涉及一种在模糊测试中生成提示模板的方法及装置
。

技术介绍

[0002]近年来，大语言模型
(Large Language Models,LLMs)
广受欢迎，应用于包括日常对话
、
文章生成
、
代码生成等多个方面
。
尽管大语言模型已经取得了巨大的成功，但是其并不是完全安全可靠的，例如，在一些场景中，它可能会针对用户输入的问题给出违法的或者不符合人类价值观的有害信息
。
尽管目前大语言模型自带的安全措施可以减少生成有害信息的情况，但是，仍然有一些方法可以越过这些安全措施，进而引导大语言模型生成有害信息，这其中最为流行的一类方法被称为“越狱”(Jailbreak)。
[0003]目前，越狱通常基于人工专门设计的越狱提示文本
(prompt)
，通过利用模型训练数据或者模型架构中的漏洞或者偏差，引导大语言模型生成非预期的或者有害的输出文本
。
通过收集这些越狱提示文本并训练大语言模型拒绝遵从其中的指示，可以提高大语言模型的安全性
。
然而，现有的越狱提示都是人工设计的，难以对大语言模型进行大规模训练
。
因此，需要一种高效的批量生成越狱提示的方法，用来训练大语言模型拒绝输出相应的有害信息，以提高大语言模型的安全性
。

技术实现思路

[00...

【技术保护点】

【技术特征摘要】
1.
一种在模糊测试中生成提示模板的方法，包括：从当前迭代轮次的提示模板集合中确定种子提示模板；根据所述种子提示模板，生成至少一个目标提示模板；获取第一问题，所述第一问题为被第一大语言模型拒绝回答的问题；将所述第一问题填入任一目标提示模板中，得到目标提示文本；将所述目标提示文本输入到所述第一大语言模型中，将所述第一大语言模型的输出文本输入到奖励模型中，得到对于所述目标提示模板的判定结果；根据所述判定结果，使用目标提示模板更新所述提示模板集合；多轮迭代更新后的提示模板集合用于生成对大语言模型进行模糊测试的数据集
。2.
根据权利要求1所述的方法，其中，所述判定结果包括奖励分数；从当前迭代轮次的提示模板集合中确定种子提示模板，包括：获取当前的搜索树，所述搜索树基于所述提示模板集合中的各个提示模板构建；从搜索树的根节点开始向叶节点进行多轮搜索，在每轮搜索中，选择
UCT
分数最高的候选节点作为目标节点，将所述目标节点添加到搜索路径中，并将所述目标节点的子节点作为下一轮搜索的候选节点，所述
UCT
分数基于之前迭代轮次中节点在搜索树中的历史搜索次数以及历史平均奖励分数所确定；将搜索路径中最后一个节点对应的提示模板作为种子提示模板
。3.
根据权利要求2所述的方法，还包括：在所述每轮搜索结束后，以预设的概率直接结束搜索，并输出所述搜索路径
。4.
根据权利要求2所述的方法，在得到对于所述目标提示模板的判定结果之后，所述方法还包括：基于预设的奖励惩罚系数与最小奖励分数，根据所述判定结果中的奖励分数确定第二奖励分数；对于所述搜索路径中的各个节点，基于所述第二奖励分数更新其平均奖励分数，并更新其搜索次数
。5.
根据权利要求2所述的方法，在生成至少一个目标提示模板之后，所述方法还包括：将所述至少一个目标提示模板作为所述种子提示模板对应的节点的多个子节点，基于所述多个子节点更新所述搜索树
。6.
根据权利要求1所述的方法，其中，根据所述种子提示模板，生成至少一个目标提示模板，包括：根据所述种子提示模板，生成风格相似的目标提示模板；和
/
或根据所述种子提示模板以及提示模板集合中的随机模板的结合，得到目标提示模板；和
/
或将所述种子提示模板进行扩写，得...

【专利技术属性】
技术研发人员：林性伟，郁家豪，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人