一种基于大语言模型的自动化编排剧本生成方法及装置制造方法及图纸

技术编号：40576235 阅读：23 留言：0更新日期：2024-03-06 17:17

本发明专利技术公开了一种基于大语言模型的自动化编排剧本生成方法及装置，所述自动化编排剧本生成方法包括，获取二次预训练数据集并对数据集进行清洗；将清洗完成后的数据集对开源大语言模型进行二次预训练获得垂直领域模型；获取指令数据集，对垂直领域模型进行微调；基于指令微调后的垂直领域模型自动生成编排剧本的流程图代码，并对输出的流程图代码进行解析生成剧本图。该自动化编排剧本生成方法可自动生成高质量事件响应剧本，大幅提升事件响应效率，用户无需编写剧本，可快速响应新问题，适应性强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及剧本编排，具体涉及一种基于大语言模型的自动化编排剧本生成方法及装置。

技术介绍

1、在网络安全形势日趋严峻复杂的当下，信息安全事件的应急以及日常进行的网络故障排查、运维故障排查等情况，需要快速做出响应。但现有技术解决方案中，需要相关工程师手动进行剧本编排，并且编排时严重依赖相关专家给出处置建议和流程说明。其中，基于人工手动进行剧本编排主要包括以下几个步骤：

2、事件类型判断：在编排剧本之前，首先需要对可能发生的安全事件进行分类和判断，安全事件类型包括各种类型的攻击、漏洞利用、异常行为等。通过对已知的安全事件进行研究和分析，建立一个事件类型的分类系统，以便在编排剧本时能够针对不同类型的事件进行相应的响应。

3、构建事件响应逻辑：在确定事件类型后构建事件响应逻辑，事件响应逻辑包括确定对每种事件类型的应对策略和行动步骤。根据事件的严重程度和紧急性，需要制定相应的响应计划，例如封锁攻击来源、恢复系统功能、隔离受感染的设备等。

4、编写节点代码：在确定事件类型和响应逻辑后，需要将响应逻辑转化为具体的脚本或节点代码。编写节点代码是将每个事件响应步骤转化为可执行的指令或命令的过程，代码可以包括自动化脚本、命令行操作或特定的安全工具的使用。编写节点代码的目的是为了实现剧本的自动化执行，以减少人工干预的需要。

5、剧本测试上线：在完成节点代码编写之后，需要对整个剧本进行测试和验证，其中包括模拟不同的安全事件场景，运行剧本并观察其响应行为是否符合预期。通过测试发现潜在的问题和漏洞并进行修

6、综上所述，剧本的编排过程包括事件类型判断、构建事件响应逻辑、编写节点代码和剧本测试上线。通过这些步骤，可以将安全事件的响应过程自动化，提高安全性和效率，减少人为错误和延迟响应的风险。但是剧本的编排完全基于相关工程师人工手动完成，并依赖专家的经验和建议，所以存在如下问题：

7、效率低下：由于人工操作的限制，处理时间可能较长，无法及时响应和处置安全威胁。

8、质量难以保证：由于剧本编排过程主要依赖人工操作，剧本的质量和效果很大程度上取决于工作人员的水平和经验，不同工作人员之间的差异、经验不足或流程不规范可能导致剧本的波动性较大。人为的疏忽、错误或不一致性可能导致剧本的不准确或不完整，质量难以保证，从而影响安全事件的响应效果。

9、剧本更新优化迭代难管理：由于剧本编排是基于人工手动完成，剧本的更新和优化迭代可能面临管理上的困难。随着安全威胁的不断演化和技术的更新，及时更新和优化剧本至关重要。人工手动编排的剧本往往缺乏良好的传承机制和自我修正能力。

10、另外，授权公告号为cn114491541b的中国专利《基于知识图谱路径分析的安全运营剧本自动化编排方法》中公开了一种基于知识图谱路径分析的安全运营剧本自动化编排方法，该专利提出了一种路径记忆和推理的lsgat模型，该模型基于强化学习模型，并使用长短期记忆网络和图注意机制，在传统的推理网络transe的基础上增加了记忆模块，利用强化学习模型推理出实体与路径的深层语义特征；在网络安全事件发生时，通过对网络安全应急响应知识图谱路径分析推理出实体与关系，并生成对应的动作，构建出剧本。

11、但是该方法严重依赖在先构建的网络安全知识图谱，工作量巨大，需要利用知识图谱推理出安全事件中的实体和关系，然后根据实体和关系推荐出对应的动作，进而构建剧本，即需要安全事件中有足够详细的信息才能挖掘出事件中的实体和关系；且该方法限制于网络安全知识图片已有的实体和关系，如果安全事件超出已有的实体和关系，则无法处理。

12、因此需要提供一种新的解决方案，能够有效地解决现有技术中在进行剧本编排时对相关专家给出处置建议和流程说明、或者对已知的安全事件中的信息的全面性依赖性过高的问题。

技术实现思路

1、本专利技术要解决的技术问题在于提供一种可快速响应新问题、适应性强、可自动生成高质量事件响应剧本的剧本编写方法及装置。

2、为了解决上述技术问题，本专利技术提供如下技术方案：

3、本专利技术提供一种基于大语言模型的自动化编排剧本生成方法，包括如下步骤：

4、s1：获取二次预训练数据集并对数据集进行清洗；

5、s2：将清洗完成后的数据集对开源大语言模型进行二次预训练获得垂直领域模型；

6、s3：获取指令数据集，对垂直领域模型进行微调；

7、s4：基于指令微调后的垂直领域模型自动生成编排剧本的流程图代码，并对输出的流程图代码进行解析生成剧本图。

8、进一步的，步骤s1中对数据集进行清洗包括：

9、对于从书籍获取的数据，保留其知识点介绍讲解部分内容，去除其中的课后问题无关信息；

10、对于从网页获取的数据，保留其正文部分，去除url、导航栏文本、标题、脚注、广告文本以及与正文无关的内容；

11、将清洗后的数据存储成满足原始预训练的大语言模型二次预训练需要的预设数据格式，每行对应书籍或者网页的一个段落内容。

12、进一步的，步骤s3中所述指令数据集为问答对，一个问题对应一个答案，所述问答对用于训练垂直领域模型，使其获得该类指令集任务处理能力。

13、进一步的，所述指令数据集包括特定领域指令数据集以及通用领域指令数据集，所述特定领域指令数据集用于训练垂直领域模型根据用户描述给出事件处理建议，所述通用领域指令数据集用于训练垂直领域模型根据给出的处置建议输出具体的处置流程图代码。

14、进一步的，步骤s4中还包括对指令微调后的垂直领域模型自动生成编排剧本的流程图代码的复杂度进行判断，所述复杂度判断包括判断是否具有用于规则判断的节点，和/或是否超过预设定阈值的节点数量。

15、进一步的，步骤s4中模型输出的内容包括流程图代码以及关于该事件处理相应的建议总结描述，对输出内容进行解析包括初步解析和深度解析。

16、进一步的，对输出的内容进行初步解析包括解析出对应的流程图代码以及相应的流程图内容建议总结描述，将流程图代码统一格式并对同一个节点却使用不同节点名称表示的代码节点进行去重。

17、进一步的，对初步解析后的流程图代码进行深度解析包括解析节点类型，并剥离掉不合理的节点；其中，节点类型包括动作节点、规则节点和/或循环节点；不合理的节点包括不合理的循环节点和规则节点；不合理的循环节点为节点之间形成环的节点，剥离不合理的循环节点为将所有有回头节点的连线去除，不合理的规则节点为规则节点分叉后流经同一节点，剥离掉不合理的规则节点为将流经同一节点后的所有节点流程复制。

18、进一步的，生成剧本图还包括将流程图代码转成json格式，将json格式的流程图代码文件导入到剧本编排平台，生成可视化剧本图。

19、本专利技术还提供一种基于大语言模型的自动化编排剧本生成装置，包括：本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的自动化编排剧本生成方法，其特征在于，包括，

2.根据权利要求1所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，步骤S1中对数据集进行清洗包括，

3.根据权利要求1所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，步骤S3中所述指令数据为问答对，一个问题对应一个答案，所述问答对用于训练垂直领域模型，使其获得该类指令集任务处理能力。

4.根据权利要求3所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，所述指令数据集包括特定领域指令数据集以及通用领域指令数据集，所述特定领域指令数据集用于训练垂直领域模型根据用户描述给出事件处理建议，所述通用领域指令数据集用于训练垂直领域模型根据给出的处置建议输出具体的处置流程图代码。

5.根据权利要求1所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，步骤S4中还包括对指令微调后的垂直领域模型自动生成编排剧本的流程图代码的复杂度进行判断，所述复杂度判断包括判断是否具有用于规则判断的节点，和/或是否超过预设定阈值的节点数量。

6.根据权利

7.根据权利要求6所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，对输出的内容进行初步解析包括解析出对应的流程图代码以及相应的流程图内容建议总结描述，将流程图代码统一格式并对同一个节点却使用不同节点名称表示的代码节点进行去重。

8.根据权利要求7所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，对初步解析后的流程图代码进行深度解析包括解析节点类型，并剥离掉不合理的节点；其中，节点类型包括动作节点、规则节点和/或循环节点；不合理的节点包括不合理的循环节点和规则节点；不合理的循环节点为节点之间形成环的节点，剥离不合理的循环节点为将所有有回头节点的连线去除，不合理的规则节点为规则节点分叉后流经同一节点，剥离掉不合理的规则节点为将流经同一节点后的所有节点流程复制。

9.根据权利要求1所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，生成剧本图还包括将流程图代码转成json格式，将json格式的流程图代码文件导入到剧本编排平台，生成可视化剧本图。

10.一种基于大语言模型的自动化编排剧本生成装置，其特征在于，包括，

...

【技术特征摘要】

1.一种基于大语言模型的自动化编排剧本生成方法，其特征在于，包括，

2.根据权利要求1所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，步骤s1中对数据集进行清洗包括，

3.根据权利要求1所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，步骤s3中所述指令数据为问答对，一个问题对应一个答案，所述问答对用于训练垂直领域模型，使其获得该类指令集任务处理能力。

5.根据权利要求1所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，步骤s4中还包括对指令微调后的垂直领域模型自动生成编排剧本的流程图代码的复杂度进行判断，所述复杂度判断包括判断是否具有用于规则判断的节点，和/或是否超过预设定阈值的节点数量。

6.根据权利要求1所述的基于大语言模型的自动化编排剧本生成方法，其特征在于，步骤s4中模型输出的内容包括...

【专利技术属性】
技术研发人员：王楹，罗庆勇，郝赛，杨校林，
申请(专利权)人：中国交通信息科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人