一种基于GPT4的网安领域知识增强方法和系统技术方案

技术编号：43800324 阅读：28 留言：0更新日期：2024-12-27 13:20

本发明专利技术涉及网络安全的技术领域，具体为一种基于GPT4的网安领域知识增强方法和系统，将网安领域的知识图谱作为GPT‑4的外部知识库，通过与GPT‑4不断进行交互的方式来行成GPT‑4推理链，让它利用自身强大的推理能力逐步推理出知识图谱中与问题最相关的信息，同时结合GPT‑4强大的知识储备对获取到的有效信息继续解析和处理，从而实现对自身的网安领域知识增强；包括以下步骤：预处理知识图谱获取实体向量；获取用户所输入问题的关键要素，得到嵌入向量；获取所有实体向量与嵌入向量之间的语义相似度得分，语义相似度得分最高的实体为语义最相近实体；设置阈值，如果语义最相近实体的语义相似度得分仍然低于阈值，则转向大模型问答处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络安全的，具体为一种基于gpt4的网安领域知识增强方法和系统。

技术介绍

1、gpt(generative pre-training transformer)系列模型是由openai开发的一系列自然语言处理(nlp)模型，通常叫做大语言模型，旨在通过深度学习技术理解和生成人类语言。这些模型基于transformer架构，通过大量文本数据的预训练和微调(fine-tuning)来提高其性能和灵活性。

2、问答系统kgqan通过识别用户问题的语义来查询知识图谱回答用户问题，它具体实现方法分为三个步骤：(i)问题理解：从问题中提取实体和关系并生成抽象表示；通过训练seq2seq神经网络学习如何从自然语言问题中提取形式抽象表示。对于用户的输入通过训练好的seq2seq模型，提取问题中存在的实体和关系并生成抽象表示；另外预测期望的数据类型和未知的语义类型来帮助后续过滤目标知识图谱中的实体信息，以提高答案的准确性。将数据类型预测定义为分类任务，使用深度神经网络对用户问题预测数据和语义类型，其中预期的数据类型可以是日期、数字、布尔值或字符串。(ii)链接：这其中分为节点链接和关系链接，将目标知识图谱中节点、关系各自与他们的描述结合，识别目标知识图谱和问题的抽象描述语义上最接近的节点与关系，实现将抽象表示映射到目标知识图谱中相应的实体和关系，以构造知识图谱查询；(iii)过滤：过滤目标知识图谱中不符合所预测的数据类型或者语义类型的节点与关系。将过滤后的节点、关系获取所有可能有效组合生成的一组知识图谱子图，计算出这一组

3、上述系统通过模型识别用户问题中存在的所有三元组并在目标知识图谱中查找最相关的三元组，最终将三元组进行拓展获得子知识图谱返回给用户。这种方法识别出的用户问题中的三元组并未考虑专业领域知识，因此返回的信息可能包含过多无关的知识。过度的冗余导致返回给用户的信息精确度不高，用户还需要从获得的信息中检索是否包含有效信息，导致系统可用性差。

4、此外，上述问答系统解决的核心问题是图谱查询，且不论其图谱查询的正确性和精确度如何，即使正确且精准查询到了对应信息，也是以知识图谱的形式返回给用户，但由于知识图谱其为结构化组织信息的特性，返回的信息可读性差，用户门槛高，难以追求用户体验感。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种基于gpt4的网安领域知识增强方法和系统，将网安领域的知识图谱作为gpt-4的外部知识库，通过与gpt-4不断进行交互的方式来行成gpt-4推理链，让它利用自身强大的推理能力逐步推理出知识图谱中与问题最相关的信息，同时结合gpt-4强大的知识储备对获取到的有效信息继续解析和处理，从而实现对自身的网安领域知识增强。

3、(二)技术方案

4、为实现上述目的，本专利技术提供如下技术方案：一种基于gpt4的网安领域知识增强方法，包括以下步骤：

5、预处理知识图谱获取实体向量；

6、获取用户所输入问题的关键要素，得到嵌入向量；获取所有实体向量与嵌入向量之间的语义相似度得分，语义相似度得分最高的实体为语义最相近实体；

7、设置阈值，如果语义最相近实体的语义相似度得分仍然低于阈值，则转向大模型问答处理；若语义最相近实体的语义相似度得分实体高于阈值，且不止一个实体的语义相似度得分高于阈值，将语义最相近实体判定为问题的对应实体，并开启知识图谱阅读，然后进行gpt-4的推理链处理。

8、进一步地，所述预处理知识图谱获取实体向量的方法，包括以下步骤：

9、将知识图谱中所有的实体节点进行提取，然后通过词嵌入的方式将每个实体映射为一个高维空间中的实体向量，完成实体嵌入过程，然后构建实体向量库来存储该知识图谱中所有实体向量。

10、进一步地，所述得到嵌入向量的方法，包括以下步骤：

11、将用户给出的问题中的主体作为关键要素，采用词嵌入方法将关键要素转化成对应的嵌入向量。

12、进一步地，所述获取所有实体向量与嵌入向量之间的语义相似度得分的方法，包括以下步骤：

13、所述获取所有实体向量与嵌入向量之间的语义相似度得分的方法，包括以下步骤：

14、通过计算嵌入向量和实体向量之间的余弦相似度得到语义相似度得分，计算方法如下：

15、嵌入向量和实体向量的余弦相似度的计算公式为：

16、

17、其中：

18、a和b是两个非零向量；

19、a·b表示a和b的点积；

20、‖a‖和‖b‖分别表示向量a和b的欧几里得范数；

21、得到嵌入向量和实体向量之间的夹角余弦值，夹角余弦值作为实体的语义相似度得分，然后根据语义相似度得分进行排序，从而匹配出语义最相近实体。

22、进一步地，所述gpt-4的推理链，包括以下步骤：

23、最优关系推理：通过模板查询出该实体节点关联的所有关系，所有关系经过序列化处理后输入gpt-4，让gpt-4根据用户输入的问题来推理出所有关系中的最相关关系；

24、相关三元组推理：根据gpt-4推理出的最相关关系，查询出包含该实体-最相关关系对的所有三元组，经过序列化处理后输入gpt-4，让gpt-4根据用户输入的问题，进一步推理出与问题相关的所有三元组；

25、迭代决策：根据找出的所有三元组信息是否足够支撑gpt-4回答用户的问题来决策是否继续迭代。

26、进一步地，所述根据找出的所有三元组信息是否足够支撑gpt-4回答用户的问题来决策是否继续迭代的方法，包括以下步骤：

27、若当前获取到的信息还不足以回答问题，gpt-4继续迭代直到获取足够的信息；如果当前信息足够，则不进行迭代，直接完成领域知识增强。

28、本专利技术的一种基于gpt4的网安领域知识增强系统，包括：

29、知识图谱预处理模块:用于预处理知识图谱获取实体向量；

30、用户问题处理模块:负责接收用户输入的问题，进行关键要素选取，并生成嵌入向量；

31、相似度计算模块:计算嵌入向量与实体向量的语义相似度得分，以确定语义最相近实体；

32、阈值判定模块:设置阈值来决定是否在知识图谱中找到合适的实体；若语义最相近实体的语义相似度得分实体高于阈值，且不止一个实体的语义相似度得分高于阈值，将语义最相近实体判定为问题的对应实体；

33、知识图谱阅读模块:在确定语义最相近实体后，进行知识图谱阅读，利用gpt-4进行推理链处理，生成最终的回答。

34、(三)有益效果

35、与现有技术相比，本专利技术提供了一种基于gpt4的网安领域知识增强方法和系统，具备以下有益效果：本专利技术首次将gpt-4应用到网安领域的智能问答系统，通过将网安领域的知识图谱作为gpt-4的外部本文档来自技高网...

【技术保护点】

1.一种基于GPT4的网安领域知识增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于GPT4的网安领域知识增强方法，其特征在于，所述预处理知识图谱获取实体向量的方法，包括以下步骤：

3.根据权利要求2所述的一种基于GPT4的网安领域知识增强方法，其特征在于，所述得到嵌入向量的方法，包括以下步骤：

4.根据权利要求3所述的一种基于GPT4的网安领域知识增强方法，其特征在于，所述获取所有实体向量与嵌入向量之间的语义相似度得分的方法，包括以下步骤：

5.根据权利要求4所述的一种基于GPT4的网安领域知识增强方法，其特征在于，所述GPT-4的推理链，包括以下步骤：

6.根据权利要求5所述的一种基于GPT4的网安领域知识增强方法，其特征在于，所述根据找出的所有三元组信息是否足够支撑GPT-4回答用户的问题来决策是否继续迭代的方法，包括以下步骤：

7.一种基于GPT4的网安领域知识增强系统，其特征在于，包括：

【技术特征摘要】

1.一种基于gpt4的网安领域知识增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于gpt4的网安领域知识增强方法，其特征在于，所述预处理知识图谱获取实体向量的方法，包括以下步骤：

3.根据权利要求2所述的一种基于gpt4的网安领域知识增强方法，其特征在于，所述得到嵌入向量的方法，包括以下步骤：

4.根据权利要求3所述的一种基于gpt4的网安领域知识增强方法，其特征在于，所述获取所有实体向量...

【专利技术属性】
技术研发人员：田志宏，欧露，倪晓雅，吴未，刘园，戚吴祺，王昊，仇晶，鲁辉，孙彦斌，苏申，徐光侠，李默涵，
申请(专利权)人：广州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人