System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及信息安全,具体而言,涉及一种大语言模型越狱攻击的风险防御方法及装置。
技术介绍
1、随着大语言模型(large language model,llm)引起的巨大变革,大模型已经在搜索、金融、办公、安全、教育、游戏、电商、社交媒体等领域迅速普及和应用。伴随着大语言模型广泛应用的同时,也衍生出一系列严重的安全风险,并已经引发了多起安全事件。部分用户利用有害提示覆盖大语言模型的原始指令实现的提示注入攻击,具有极高的危害性,最近也被owasp组织(owasp是一个开源的、非盈利的全球性安全组织,致力于应用软件的安全研究,owasp被视为web应用安全领域的权威参考。)列为大语言模型十大安全威胁之首。
2、越狱攻击(jailbreak attack)是一种典型的提示注入攻击方式。越狱攻击原本是计算机安全领域的术语,指的是突破系统安全限制,获取系统高级权限的行为。在大语言模型的语境下,越狱攻击指的是诱导模型泄露训练时的敏感信息、生成违反模型使用准则的内容、或者执行其他非预期的操作。
3、面对这种攻击,目前业界主要关注的是越狱攻击的攻击方式、原理、可能造成的危害等,而对于如何系统性的防御此类风险,缺少足够的研究。尽管,研究者们提出了一些方法来防止大语言模型的越狱攻击,但仍存在以下不足,一是在预处理和输入验证方面有局限性,为了安全而过度限制输入可能导致模型在正常使用时的性能下降;二是模型训练深度与更新时效性不足,模型训练所使用的数据无法及时防御最新的越狱攻击手段;模型在安全相关的训练深度未能充分学习到复杂的安全
4、因此,如何系统且高效的防御针对大语言模型的越狱攻击,是目前亟需解决的技术问题。
技术实现思路
1、本申请旨在至少解决现有技术或相关技术中存在的大语言模型存在被越狱攻击的风险的技术问题。
2、有鉴于此,本申请的第一方面提供了一种大语言模型越狱攻击的风险防御方法,包括如下步骤:
3、步骤s1,接收输入的文本信息,从文本信息中获取提示词中的关键词;
4、步骤s2,在大语言模型的输入侧,基于文本信息,建立动态恶意关键词库,并识别检测文本信息中的关键词,量化评估关键词的恶意或非恶意程度,在文本信息中包含恶意关键词的文本信息的情况下,进行提示预警;对文本信息中非恶意程度的权重比高于权重比阈值的关键词进行识别,检测得到意图信息,量化意图信息的潜在越狱攻击风险,并提示预警;对经过两次提示预警的内容进行扰动转化,生成文本信息对应的训练数据;
5、步骤s3,在大语言模型的模型侧,基于步骤s2传送过来的训练数据,训练学习模型运行反馈信息和模型内部状态信息,基于动态调整策略对大语言模型进行调整,动态调整策略包括设置增加模型网络层和/或增加神经元;通过奖励机制,使模型选择能够提升安全性的调整策略,从而持续优化自身,有效应对各种不同输入形式的越狱攻击;通过生成对抗网络模型生成与正常文本的相似度大于相似度阈值,且包括能够对大语言模型产生越狱行为的目标特征的对抗文本,目标特征包括恶意攻击诱导行为、歧义性语句和/或误导性逻辑关联;通过把攻击性对抗样本输入大语言模型进行对抗训练,以使大语言模型在训练学习过程中调整自身的参数设置、优化内部网络结构;经过动态检测和对抗检测后,输出模型训练后的预输出文本信息;
6、步骤s4,在大语言模型的输出侧,基于步骤s3传送过来的预输出文本信息和步骤s2的动态恶意关键词库,构建输出审核库,对预输出文本、提示词和交互历史进行综合检测审核,审核输出信息与用户输入的逻辑关系、追溯交互历史上下文,保证模型输出与输入文本的连贯性和一致性;对经过检测审核的预输出文本通过命名实体识别的方式,定位文本中的各类实体,识别出存在的问题实体,对问题实体进行替换脱敏处理,并通过输出风格调整,输出合规文本。
7、有鉴于此,本申请的第二方面提供了一种大语言模型越狱攻击的风险防御装置,包括输入侧风险防御模型,用于执行上述步骤s2;模型侧风险防御模型,用于执行上述步骤s3;以及输出侧风险防御模型,用于执行上述步骤s4。
8、有鉴于此,本申请的第三方面还提供了一种大语言模型的训练装置,上述风险防御装置中的风险防御模型,包括:接收模块,用于接收输入文本信息;其中,所述输入文本信息包括至少一个提示词,以及所述提示词对应的意图信息;生成模块,用于基于所述提示词和所述意图信息,生成所述输入文本信息对应的训练数据;训练模块,用于控制风险防御模型基于所述训练数据进行训练,得到更新后的风险防御模型;其中,所述风险防御模型用于防御对所述大语言模型的攻击行为;以及输出模块,根据所述更新后的风险防御模型,更新所述大语言模型。
9、根据上述方案,本申请解决了上面提到的技术问题,即,基于大模型全生命周期流程,从输入侧、模型侧、输出侧等维度,依据越狱攻击的攻击方式、攻击行为等特征,有针对性的构建了大模型系统的纵深防御体系,提升大模型系统的风险防御能力。
本文档来自技高网...【技术保护点】
1.一种大语言模型越狱攻击的风险防御方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的大语言模型越狱攻击的风险防御方法,其特征在于,输入的所述文本信息包括提示词文本信息、提示词上下文输入行为信息和/或提示词前后关联语义信息中可用于识别提取的意图信息;以及,所述文本信息还包括至少一个可用于得到关键词的提示词文本。
3.根据权利要求2所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤S2进一步包括如下步骤:
4.根据权利要求3所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述确定所述关键词的攻击性量化结果的步骤,包括:
5.根据权利要求3或4所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤S2进一步包括如下步骤:
6.根据权利要求5所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述分布信息包括:输入行为的输入频率、输入时间分布和/或输入的上下文切换。
7.根据权利要求5所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述结合用户行为模式分析与意图识别结果分析综合判断所
8.根据权利要求6或7所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤S2进一步包括如下步骤:
9.根据权利要求8所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述扰动转化处理包括以下任一或组合:关键词替换处理、词性替换处理、句式变换处理、随机字符插入处理。
10.根据权利要求1或9所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤S3进一步包括如下步骤:
11.根据权利要求10所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤S3进一步包括如下步骤:
12.根据权利要求11所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤S3进一步包括如下步骤:
13.根据权利要求12所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤S4进一步包括如下步骤:
14.根据权利要求13所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤S4进一步包括如下步骤:
15.根据权利要求14所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述对所述问题实体进行脱敏处理的步骤,具体包括:
16.一种大语言模型越狱攻击的风险防御装置,用于实现根据权利要求1至15中任一项所述的防御方法,其特征在于,包括:
17.根据权利要求16所述的大语言模型越狱攻击的风险防御装置,其特征在于,所述输入侧风险防御模型还包括:
18.根据权利要求17所述的大语言模型越狱攻击的风险防御装置,其特征在于,所述模型侧风险防御模型还包括:
19.根据权利要求18所述的大语言模型越狱攻击的风险防御装置,其特征在于,所述输出侧风险防御模型还包括:
20.一种大语言模型的训练装置,包括根据权利要求16至19中任一项所述的风险防御装置中的风险防御模型,其特征在于,包括:
...【技术特征摘要】
1.一种大语言模型越狱攻击的风险防御方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的大语言模型越狱攻击的风险防御方法,其特征在于,输入的所述文本信息包括提示词文本信息、提示词上下文输入行为信息和/或提示词前后关联语义信息中可用于识别提取的意图信息;以及,所述文本信息还包括至少一个可用于得到关键词的提示词文本。
3.根据权利要求2所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤s2进一步包括如下步骤:
4.根据权利要求3所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述确定所述关键词的攻击性量化结果的步骤,包括:
5.根据权利要求3或4所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤s2进一步包括如下步骤:
6.根据权利要求5所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述分布信息包括:输入行为的输入频率、输入时间分布和/或输入的上下文切换。
7.根据权利要求5所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述结合用户行为模式分析与意图识别结果分析综合判断所述第一输入行为的综合攻击判断得分的步骤,包括:
8.根据权利要求6或7所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述步骤s2进一步包括如下步骤:
9.根据权利要求8所述的大语言模型越狱攻击的风险防御方法,其特征在于,所述扰动转化处理包括以下任一或组合:关键词替换处理、词性替换处理、句式变换处理、随机字符插入处理。
【专利技术属性】
技术研发人员:张诚,但孝磊,贾铮,陶丽雯,范贵甫,邹世斌,王燕,杨帆,王晓炜,郭晓兵,胡曦翔,张芷若,付扬,竹思佳,张彦彦,刘晓丽,
申请(专利权)人:北京国家金融科技风险监控中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。