一种大语言模型的提示词泄漏检测方法、装置、设备及介质制造方法及图纸

技术编号：44125941 阅读：13 留言：0更新日期：2025-01-24 22:45

本申请公开了一种大语言模型的提示词泄漏检测方法、装置、设备及介质，涉及人工智能技术领域，从用户提示词及系统提示词提取文本段落，并进行分割、筛选去重及编号，得到映射表；对大语言模型的输出结果分割，得到待检测句子和待检测字词；从第一映射表中确定特征字词，计算特征字词数量与待检测字词数量的第一比值，判断第一比值是否大于预设第一阈值；若不大于，将第二映射表和第三映射表与待检测句子比对，得到特征句子并统计数量，计算数量与特征字词总数的第二比值，判断第二比值是否大于预设第二阈值；若不大于，计算特征句子与待检测句子的相似度，若相似度不大于预设相似度阈值，判定未发生提示词泄漏，提高提示词泄漏检测性能和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，特别涉及一种大语言模型的提示词泄漏检测方法、装置、设备及介质。

技术介绍

1、现有技术除了使用在提示词中加入对抗性指令的方法外，还可以利用大模型对提示词内容中的用户行为进行安全检测，能够应对多种基于提示词注入的攻击，但不是专门针对提示词泄露问题的，且成本很高，性能损失很大，并且训练一个专用的大模型需要额外的成本，而且大模型对用户的输入进行分类和多角度安全检测需要很多时间，尤其是当用户的输入内容很长，检测可能比回答用户的提问更耗时。为了保证用户体验不显著降低，就需要成倍增加系统的计算资源。并且与使用对抗性提示词的方法一样，使用大模型检测的另一个缺点是存在被绕过的问题。自然语言的表达可以变得很隐晦曲折从而躲过检测，也可以直接攻击安全检测用的模型，让模型输出“检测通过”的错误结果。训练大模型使用的数据集是有限的，难以涵盖层出不穷的所有攻击样本。数据集变更后还要重新训练模型。就像杀毒软件的病毒特征库更新会晚于病毒本身的出现，大模型防范未知攻击的能力是不足的。

2、由上可见，如何准确地识别并判断是否发生提示词泄露情况，降低提示词泄漏检测的复杂性，提高提示词泄漏检测的性能和效率是本领域有待解决的问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种大语言模型的提示词泄漏检测方法、装置、设备及介质，能够准确地识别并判断是否发生提示词泄露情况，降低提示词泄漏检测的复杂性，提高提示词泄漏检测的性能和效率。其具体方案如下：

2、第一方面，本申请

3、获取用户输入的用户提示词，对所述用户提示词以及本地的系统提示词进行关键内容识别，以得到关键内容；

4、从所述用户提示词以及所述系统提示词中提取标记为禁止泄漏的文本段落，根据所述关键内容对所述文本段落进行分割、筛选去重以及编号，以得到字词文本-字词编号的第一映射表、字词编号-句子编号的第二映射表、句子编号-字词编号的第三映射表；

5、将所述用户提示词和所述系统提示词输入至预设的大语言模型，以得到输出结果，对所述输出结果进行分割，以得到待检测句子和待检测字词；

6、将所述第一映射表中与所述待检测字词一致的字词作为特征字词，计算所述特征字词的数量与所述待检测字词的数量之间的第一比值，并判断所述第一比值是否大于预设第一阈值；

7、若不大于，则将所述第二映射表和所述第三映射表与所述待检测句子进行比对，以得到与所述特征字词对应的特征句子，统计所述特征句子的数量，计算所述特征句子的数量与所述待检测句子中的所述特征字词的总数之间的第二比值，并判断所述第二比值是否大于预设第二阈值；

8、若不大于，则计算所述特征句子与所述待检测句子之间的相似度，若所述相似度不大于预设相似度阈值，则判定所述大语言模型的所述输出结果未发生提示词泄漏，以完成对未发生提示词泄漏的所述输出结果的检测。

9、可选的，所述对所述用户提示词以及本地的系统提示词进行关键内容识别，以得到关键内容，包括：

10、从本地调取预先编写并保存的系统提示词，并识别所述系统提示词中的特殊符号，将所述特殊符号标记的内容作为系统的关键内容；

11、对所述用户提示词进行关键内容识别，以得到用户的关键内容。

12、可选的，所述根据所述关键内容对所述文本段落进行分割、筛选去重以及编号，包括：

13、根据所述关键内容将所述文本段落分割为各句子；

14、将各所述句子分割为英文单词及汉字，并进行筛选去重，为筛选去重后的所述英文单词及汉字添加编号。

15、可选的，所述根据所述关键内容将所述文本段落分割为各句子；将各所述句子分割为英文单词及汉字，包括：

16、利用预设的符号分割字符串并根据所述关键内容将所述文本段落分割为各句子；

17、以预设的英文单词识别边界以及unicode字符集将各所述句子分割为英文单词及汉字。

18、可选的，所述计算所述特征句子与所述待检测句子之间的相似度，包括：

19、从所有的相似度计算算法中筛选出目标相似度计算算法；所述相似度计算算法包括damerau-levenshtein算法、欧氏距离算法、余弦相似度算法以及jacard相似度算法；

20、利用所述目标相似度计算算法计算所述特征句子与所述待检测句子之间的相似度。

21、可选的，所述的大语言模型的提示词泄漏检测方法，还包括：

22、若特征句子与待检测句子之间的相似度大于预设相似度阈值，则统计当前的所述特征句子中的所述特征字词的数量；

23、若当前的所述特征句子中的所述特征字词的数量大于预设阈值，则判定所述大语言模型的所述输出结果发生提示词泄漏，并禁止输出所述输出结果，以完成对发生提示词泄漏的所述输出结果的检测。

24、第二方面，本申请公开了一种大语言模型的提示词泄漏检测装置，包括：

25、关键内容识别模块，用于获取用户输入的用户提示词，对所述用户提示词以及本地的系统提示词进行关键内容识别，以得到关键内容；

26、映射表确定模块，用于从所述用户提示词以及所述系统提示词中提取标记为禁止泄漏的文本段落，根据所述关键内容对所述文本段落进行分割、筛选去重以及编号，以得到字词文本-字词编号的第一映射表、字词编号-句子编号的第二映射表、句子编号-字词编号的第三映射表；

27、输出结果分割模块，用于将所述用户提示词和所述系统提示词输入至预设的大语言模型，以得到输出结果，对所述输出结果进行分割，以得到待检测句子和待检测字词；

28、第一比值计算模块，用于将所述第一映射表中与所述待检测字词一致的字词作为特征字词，计算所述特征字词的数量与所述待检测字词的数量之间的第一比值，并判断所述第一比值是否大于预设第一阈值；

29、第二比值计算模块，用于若不大于，则将所述第二映射表和所述第三映射表与所述待检测句子进行比对，以得到与所述特征字词对应的特征句子，统计所述特征句子的数量，计算所述特征句子的数量与所述待检测句子中的所述特征字词的总数之间的第二比值，并判断所述第二比值是否大于预设第二阈值；

30、相似度计算模块，用于若不大于，则计算所述特征句子与所述待检测句子之间的相似度，若所述相似度不大于预设相似度阈值，则判定所述大语言模型的所述输出结果未发生提示词泄漏，以完成对未发生提示词泄漏的所述输出结果的检测。

31、可选的，所述关键内容识别模块，包括：

32、系统关键内容识别模块，用于从本地调取预先编写并保存的系统提示词，并识别所述系统提示词中的特殊符号，将所述特殊符号标记的内容作为系统的关键内容；

33、用户关键内容识别模块，用于对所述用户提示词进行关键内容识别，以得到用户的关键内容。

34、第三方面，本申请公开了一种电子设备，包括：

3本文档来自技高网...

【技术保护点】

1.一种大语言模型的提示词泄漏检测方法，其特征在于，包括：

2.根据权利要求1所述的大语言模型的提示词泄漏检测方法，其特征在于，所述对所述用户提示词以及本地的系统提示词进行关键内容识别，以得到关键内容，包括：

3.根据权利要求1所述的大语言模型的提示词泄漏检测方法，其特征在于，所述根据所述关键内容对所述文本段落进行分割、筛选去重以及编号，包括：

4.根据权利要求3所述的大语言模型的提示词泄漏检测方法，其特征在于，所述根据所述关键内容将所述文本段落分割为各句子；将各所述句子分割为英文单词及汉字，包括：

5.根据权利要求1所述的大语言模型的提示词泄漏检测方法，其特征在于，所述计算所述特征句子与所述待检测句子之间的相似度，包括：

6.根据权利要求1至5任一项所述的大语言模型的提示词泄漏检测方法，其特征在于，还包括：

7.一种大语言模型的提示词泄漏检测装置，其特征在于，包括：

8.根据权利要求7所述的大语言模型的提示词泄漏检测装置，其特征在于，所述关键内容识别模块，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的大语言模型的提示词泄漏检测方法。

...

【技术特征摘要】

1.一种大语言模型的提示词泄漏检测方法，其特征在于，包括：

3.根据权利要求1所述的大语言模型的提示词泄漏检测方法，其特征在于，所述根据所述关键内容对所述文本段落进行分割、筛选去重以及编号，包括：

5.根据权利要求1所述的大语言模型的提...

【专利技术属性】
技术研发人员：税雪飞，赵康，王欣，陈绪锋，
申请(专利权)人：杭州安恒信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人