一种基于知识注入攻击的大语言模型法律领域鲁棒性评估方法技术

技术编号：44412675 阅读：7 留言：0更新日期：2025-02-25 10:27

本申请提出一种基于知识注入攻击的大语言模型法律领域鲁棒性评估方法，其中，方法包括：通过检索增强生成攻击和相似罪名攻击，对法律领域的大语言模型基于输入的法律条文所做的大前提判断进行干扰；通过词汇攻击、要件攻击和叙述攻击，对大语言模型基于输入的案件事实的叙述准确性进行干扰；通过先前行为攻击和专家意见攻击，对大语言模型的最终结论判断进行干扰，以评估其在法律推理中的抗干扰能力。本申请提出了以亚里士多德三段论为基础的逻辑攻击框架，对问题的语义逻辑、专业逻辑推理进行攻击，更广泛的涵盖了现实生活中经常出现的错误类型，能够真实评价领域大模型的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及法律领域中大语言模型的鲁棒性评估，尤其涉及一种基于知识注入攻击的大语言模型法律领域鲁棒性评估方法。

技术介绍

1、在自然语言处理(nlp)和人工智能(ai)技术的快速发展下，基于大语言模型(large language model,llm)的智能系统在多个领域得到了广泛应用。然而，现有的大语言模型主要应用于通用领域，并以英文数据集作为主要训练和测试语言，无法满足特定专业领域(如法律)对语言理解的高要求。大语言模型在法律领域的应用需要精确理解和推理法律概念、法律条文和案件事实，因此对其进行鲁棒性和抗干扰能力的评估尤为重要。然而，现有的评估技术在专业领域的应用中存在以下显著不足：

2、1、评估方法简单：现有技术中，通常针对输入样本或提示(prompt)进行攻击。该方法仅局限于对数据文本的字词级别扰动，评估手段单一，无法涵盖各种真实的错误场景，难以有效评估模型在复杂法律推理场景中的抗干扰能力。

3、2、缺乏中文支持：目前的通用攻击技术大多基于英文语料进行实验，适用的语言环境以英文为主。由于中英文在语法结构、词汇选择和表达方式上存在较大差异，现有方法难以直接适用于中文场景，缺乏对中文语言环境中大语言模型鲁棒性的有效评估手段。

4、3、缺乏法律专业性：现有的攻击方法多针对通用领域进行评估，缺乏对专业领域的重点词汇和概念的针对性攻击。尤其在法律领域，推理和判断需要基于特定的法律术语、逻辑结构和四要件等知识。因此，现有技术无法对大语言模型在法律专业领域的表现进行全面评估。

5、4、无法

技术实现思路

1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此，本申请的第一个目的在于提出一种基于知识注入攻击的大语言模型法律领域鲁棒性评估方法。

3、本申请的第二个目的在于提出一种基于知识注入攻击的大语言模型法律领域鲁棒性评估装置。

4、本申请的第三个目的在于提出一种电子设备。

5、本申请的第四个目的在于提出一种计算机可读存储介质。

6、本申请的第五个目的在于提出一种计算机程序产品。

7、为达上述目的，本申请第一方面实施例提出了一种基于知识注入攻击的大语言模型法律领域鲁棒性评估方法，包括：

8、通过检索增强生成攻击和相似罪名攻击，对法律领域的大语言模型基于输入的法律条文所做的大前提判断进行干扰；

9、通过词汇攻击、要件攻击和叙述攻击，对所述大语言模型基于输入的案件事实的叙述准确性进行干扰；

10、通过先前行为攻击和专家意见攻击，对所述大语言模型的最终结论判断进行干扰，以评估其在法律推理中的抗干扰能力。

11、可选的，还包括：

12、对法律领域知识数据集进行细粒度注释，以支持对所述大语言模型在大前提、小前提和结论三个层面的鲁棒性评估，其中，所述数据集包含用于法律推理的输入示例，包括案件事实、相关法律条文和问题提示，所述注释包括类似犯罪名称注释、定罪逻辑推理注释和领域同义词注释；

13、所述数据集的标注由法学专家团队领导并由法学专业人员执行，并在正式标注前进行试标注，并根据设计的中文标注指南进行，以确保标注的一致性和准确性，所述标注指南包括犯罪名称、四要件逻辑推理、领域同义词的使用及实际标注示例。

14、可选的，所述通过检索增强生成攻击和相似罪名攻击，对法律领域的大语言模型基于输入的法律条文所做的大前提判断进行干扰，包括：

15、在问题提示阶段引入与案件事实无关的错误相关法条，使所述大语言模型在检索法律条文时受到误导；

16、在问题描述中加入相似罪名的词汇干扰，通过判断是否犯有相似罪名或其他罪行的措辞对所述大语言模型的大前提判断产生干扰。

17、可选的，所述通过词汇攻击、要件攻击和叙述攻击，对所述大语言模型基于输入的案件事实的叙述准确性进行干扰，包括：

18、通过同义词替换攻击案件事实中的词汇，以扰乱所述大语言模型对案件事实的逻辑判断，包括将案件事实中的随机词替换为通用同义词、将案件事实中的四要件词汇替换为通用词、将案件事实中的四要件词汇替换为同义的法律要素词；

19、在案件事实后加入来自相似罪名的总结性法律要素或法条要素，以扰乱所述大语言模型对案件事实的逻辑判断；

20、在案件事实后加入情境性或无关叙述语句，以扰乱所述大语言模型对案件事实的逻辑判断。

21、可选的，所述通过先前行为攻击和专家意见攻击，对所述大语言模型的最终结论判断进行干扰，以评估其在法律推理中的抗干扰能力，包括：

22、在案件事实后插入施害者先前的犯罪行为描述，以评估所述大语言模型能否忽略与当前案件无关的先前行为；

23、在问题提示中加入特定身份的观点对罪名的判断，以验证所述大语言模型是否会被外部意见所干扰。

24、可选的，还包括：

25、在问题提示中插入与案件事实最相关的法律条文，以增强所述大语言模型在应对大前提攻击时的鲁棒性；

26、在问题提示中要求所述大语言模型按照刑法四要件逻辑逐步推理，以提高所述大语言模型的推理能力和抗干扰能力；

27、在问题提示中增加两个相似案件的分析实例，使所述大语言模型能够基于相似案例的推理逻辑进行准确判断。

28、为达上述目的，本申请第二方面实施例提出了一种基于知识注入攻击的大语言模型法律领域鲁棒性评估装置，包括：

29、大前提知识注入攻击模块，用于通过检索增强生成攻击和相似罪名攻击，对法律领域的大语言模型基于输入的法律条文所做的大前提判断进行干扰；

30、小前提知识注入攻击模块，用于通过词汇攻击、要件攻击和叙述攻击，对所述大语言模型基于输入的案件事实的叙述准确性进行干扰；

31、结论知识注入攻击模块，用于通过先前行为攻击和专家意见攻击，对所述大语言模型的最终结论判断进行干扰，以评估其在法律推理中的抗干扰能力。

32、为达上述目的，本申请第三方面实施例提出了一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

33、所述存储器存储计算机执行指令；

34、所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面中任一项所述的方法。

35、为达上述目的，本申请第四方面实施例提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面中任一项所述的方法。

36、为达上述目的，本申请第五方面实施例提出了一种计算机程序产品，该计算机程序被处理器执行时实现第一方面中任本文档来自技高网...

【技术保护点】

1.一种基于知识注入攻击的大语言模型法律领域鲁棒性评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，根据权利要求1所述的方法，其特征在于，所述通过检索增强生成攻击和相似罪名攻击，对法律领域的大语言模型基于输入的法律条文所做的大前提判断进行干扰，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过词汇攻击、要件攻击和叙述攻击，对所述大语言模型基于输入的案件事实的叙述准确性进行干扰，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过先前行为攻击和专家意见攻击，对所述大语言模型的最终结论判断进行干扰，以评估其在法律推理中的抗干扰能力，包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.一种基于知识注入攻击的大语言模型法律领域鲁棒性评估装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

9.一种计算机可读存储介质，其特征在于，所述计算

10.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法。

...

【技术特征摘要】

1.一种基于知识注入攻击的大语言模型法律领域鲁棒性评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，所述通过先前行为攻击和专家意见攻击，对所述大语言模型...

【专利技术属性】
技术研发人员：胡伊然，申卫星，刘云，刘黄海，陈卿静，王冲，程荣鑫，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人