一种敏感信息泄露监控并联动大模型分析的方法技术

技术编号：40981660 阅读：23 留言：0更新日期：2024-04-18 21:27

本发明专利技术涉及一种敏感信息泄露监控并联动大模型分析的方法。本方法包括：构造挖掘类审计规则并联动爬虫程序，获取通用信息泄露数据，利用标准大模型对通用信息泄露数据进行分析产出大模型研判数据，人工订正研判数据生成大模型微调训练数据集；基于大模型微调训练数据集对标准大模型进行敏感信息泄露微调训练，生成微调加强大模型；利用微调加强大模型对企业敏感信息监控规则联动爬虫程序产出的信息泄露告警数据进行研判，确认是否是敏感信息泄露，并进行威胁程度判定，然后输出泄露风险判定结果数据，人工对判定结果数据进行确认与处置，确认与处置后的数据自动治理到大模型微调训练数据集中，供大模型进行持续能力更新。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于企业信息泄露监控方法，尤其涉及一种敏感信息泄露监控并联动大模型分析的方法。

技术介绍

1、企业信息安全管理中，信息泄露问题是一个高风险问题。例如，企业员工由于安全意识不足，将企业内部的代码、配置文件等上传到github上，相关信息如果被黑客利用，从中挖掘到敏感信息如云平台ak信息、远程数据库连接信息等，则可能导致企业数据系统被直接攻击或利用。因此，需要具备检测与监控企业是否存在信息在互联网平台泄露的能力。

2、传统方案中，多以配置检测规则，然后构建爬虫平台基于检测规则调用各平台接口查询相关数据，例如，企业域名是demoxxx.com，将此配置为规则，当在外部平台例如github上扫描到包含该关键字的代码则会记录为一个告警，此方法的确可以有效识别代码泄露风险，但却存在误报较高的问题，关键字可能出现在非敏感文件或泄露文件中，大量的告警导致有效告警被淹没，只能人工逐条对告警进行审计分析，耗费的人力成本极大，因此，亟需一种可以提升检测结果有效率、降低人工成本的方法。

技术实现思路

1、为了克服现有互联网平台企业信息泄露监控方法误报率高、可靠性低、人工成本过高的缺陷，本专利技术提出了一种新的敏感信息泄露监控并联动大模型分析的方法。

2、本专利技术旨在解决如何识别企业敏感信息泄露的问题，并给出了较为可靠、低误报告警结果的方法。本专利技术方法的设计架构如下：通过维护挖掘类审计规则并联动爬虫程序，获取通用信息泄露数据，通过标准大模型辅助提示词工程，对信息泄露数

3、本专利技术的整体技术构思包括：构建一种通过宽泛的挖掘类审计规则联动爬虫与标准大模型来构造信息泄露研判数据的方法；以及一种使用信息泄露微调增强模型联动检测规则为上下文研判爬虫结果数据的方法；以及一种结合人工处置结果持续构建信息泄露告警研判训练数据的方法。

4、具体地，本专利技术提供了一种敏感信息泄露监控并联动大模型分析的方法，本方法包括：

5、s1.生成大模型微调训练数据集：构造挖掘类审计规则并联动爬虫程序，获取通用信息泄露数据，利用标准大模型对通用信息泄露数据进行分析产出大模型研判数据，人工订正大模型研判数据生成大模型微调训练数据集；

6、s2.生成微调加强大模型：基于大模型微调训练数据集对标准大模型进行敏感信息泄露微调训练，生成微调加强大模型；

7、s3.实施信息泄露告警分析：利用微调加强大模型对企业敏感信息监控规则联动爬虫程序产出的信息泄露告警数据进行研判，确认是否是敏感信息泄露，并进行威胁程度判定，然后输出泄露风险判定结果数据，人工对判定结果数据进行确认与处置，确认与处置后的数据自动治理到大模型微调训练数据集中，供大模型进行持续能力更新。

8、进一步地，本专利技术敏感信息泄露监控并联动大模型分析的方法步骤s1中所述的生成大模型微调训练数据集，包括：

9、s11.构建挖掘类审计规则；

10、s12.爬虫程序解析挖掘类审计规则并对规则中的关键字调用外部平台接口进行查询检测，识别是否有包含监控关键字的内容，如果找到则输出为通用信息泄露数据；

11、s13.利用标准大模型对通用信息泄露数据进行敏感信息泄露分析，产出大模型研判数据；

12、s14.当上步产出的大模型研判数据与研判目标不相符时，人工订正大模型研判数据，修改研判数据的内容或格式，并生成大模型微调训练数据集。

13、进一步地，本专利技术敏感信息泄露监控并联动大模型分析的方法步骤s11中所述的挖掘类审计规则包括通用的敏感信息策略和包含企业基础信息的宽泛规则。挖掘类审计规则设置较为宽泛的目的是保障结果数据中存在真实的敏感信息泄露以及非敏感信息泄露等各类复杂数据，模拟后续正式监控规则需要识别的数据场景。

14、进一步地，本专利技术敏感信息泄露监控并联动大模型分析的方法步骤s13中所述的标准大模型包括但不限于：llama、百川、chatgpt4。

15、进一步地，本专利技术敏感信息泄露监控并联动大模型分析的方法步骤s2中所述的对标准大模型进行敏感信息泄露微调训练是通过选择开源的标准大模型作为基座模型进行本地训练来完成的；所述的基座模型包括但不限于：llama、百川、chatgpt4、或者单独构建的大模型底座。

16、进一步地，本专利技术敏感信息泄露监控并联动大模型分析的方法步骤s2中所述的微调训练使用全参微调或lora微调方式。

17、进一步地，本专利技术敏感信息泄露监控并联动大模型分析的方法步骤s3中所述的实施信息泄露告警分析，包括：

18、s31.构建企业敏感信息监控规则；

19、s32.爬虫程序基于企业敏感信息监控规则进行持续检测，发现匹配关键字的数据后，将检测规则与疑似信息泄露的完整内容，传递给微调加强大模型进行研判分析；

20、s33.微调加强大模型确认是否是敏感信息泄露，并进行具体原因分析和威胁程度判定，然后输出泄露风险判定结果数据；

21、s34.人工对判定结果数据进行确认与处置，确认后的事件按照企业标准流程进行应急响应处置；

22、s35.确认与处置后的数据被自动治理到大模型微调训练数据集中，供大模型进行持续能力更新。

23、进一步地，本专利技术敏感信息泄露监控并联动大模型分析的方法步骤s31中所述的企业敏感信息监控规则用于监控企业敏感信息，所述的企业敏感信息包括但不限于：企业域名信息、代码头信息、企业内部的ip地址和环境信息。

24、另外，本专利技术还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述的敏感信息泄露监控并联动大模型分析的方法的步骤。

25、另一方面，本专利技术还提供了一种敏感信息泄露监控并联动大模型分析的系统，本系统包括：

26、大模型微调训练数据集生成模块：构造挖掘类审计规则并联动爬虫程序，获取通用信息泄露数据，利用标准大模型对通用信息泄露数据进行分析产出大模型研判数据，人工订正大模型研判数据生成大模型微调训练数据集；

27、微调加强大模型生成模块：基于大模型微调训练数据集对标准大模型进行敏感信息泄露微调训练，生成微调加强大模型；

28、信息泄露告警分析模块：利用微调加强大模型对企业敏感信息监控规则联动爬虫程序产出的信息泄露告警数据进行研判，确认是否是敏感信息泄露，并进行威胁程度判定，然后输本文档来自技高网...

【技术保护点】

1.一种敏感信息泄露监控并联动大模型分析的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤S1中所述的生成大模型微调训练数据集，包括：

3.根据权利要求2所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤S11中所述的挖掘类审计规则包括通用的敏感信息策略和包含企业基础信息的宽泛规则。

4.根据权利要求2所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤S13中所述的标准大模型包括：Llama、百川、ChatGPT4。

5.根据权利要求1所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤S2中所述的对标准大模型进行敏感信息泄露微调训练是通过选择开源的标准大模型作为基座模型进行本地训练来完成的；所述的基座模型包括：Llama、百川、ChatGPT4、或者单独构建的大模型底座。

6.根据权利要求5所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤S2中所述的微调训练使用全参微调或lora微调方式。

8.根据权利要求7所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤S31中所述的企业敏感信息监控规则用于监控企业敏感信息，所述的企业敏感信息包括：企业域名信息、代码头信息、企业内部的IP地址和环境信息。

9.一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1-8任一项所述的敏感信息泄露监控并联动大模型分析的方法的步骤。

10.一种敏感信息泄露监控并联动大模型分析的系统，其特征在于，所述系统包括：

...

【技术特征摘要】

1.一种敏感信息泄露监控并联动大模型分析的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤s1中所述的生成大模型微调训练数据集，包括：

3.根据权利要求2所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤s11中所述的挖掘类审计规则包括通用的敏感信息策略和包含企业基础信息的宽泛规则。

4.根据权利要求2所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤s13中所述的标准大模型包括：llama、百川、chatgpt4。

5.根据权利要求1所述的敏感信息泄露监控并联动大模型分析的方法，其特征在于，步骤s2中所述的对标准大模型进行敏感信息泄露微调训练是通过选择开源的标准大模型作为基座模型进行本地训练来完成的；所述的基座模型包括：llama、百川、chatgpt4...

【专利技术属性】
技术研发人员：许祥，
申请(专利权)人：中电云计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人