基于Transformer的网络安全风险知识图谱三元组联合抽取方法技术

技术编号：43653610 阅读：19 留言：0更新日期：2024-12-13 12:47

本发明专利技术公开了基于Transformer的网络安全风险知识图谱三元组联合抽取方法，具体为：步骤1，构建面向网络威胁情报的网络安全知识图谱本体；步骤2，采集网络安全领域网络威胁情报，提取网络安全领域网络威胁情报中的文本数据并按语句分割、标注生成数据集，并分为训练集和数据集；步骤3，构建联合关系三元组抽取模型；步骤4，采用训练集对构建的联合关系三元组抽取模型进行训练；步骤5，将测试集输入到抽取模型中，评估抽取模型的性能；步骤6，使用经过测试的模型进行网络安全风险知识图谱三元组联合抽取。本发明专利技术解决了现有技术中存在的忽略了文本数据序列的全局关联以及实体对及关系序列间的关联导致三元组抽取精度较差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络安全知识图谱构建方法，涉及基于transformer的网络安全风险知识图谱三元组联合抽取方法。

技术介绍

1、网络安全风险的信息来源，主要由网络威胁情报(cyber threat intelligence,cti)构成，cti是指通过收集和分析有关网络威胁的信息，以帮助研究者更好地理解、预测和防御网络攻击的知识集合，具有提高网络安全态势感知、安全防御能力的重要作用。当前，网络威胁情报数据类型多样、分布离散、术语未规范化，在实际应用中存在较大阻碍。知识图谱作为一种新兴的信息组织和处理技术，因其能够有效地整合和管理大规模、多源异构的数据，提供强大的知识表示和推理能力，在网络安全领域得到了广泛的关注和应用。在网络安全风险的研究中引入知识图谱技术框架，利用知识图谱面向海量数据时信息收集及加工整合的思想，构建面向网络威胁情报的网络安全知识图谱，可提高网络威胁情报的收集效率、情报质量，同时拓展情报的使用范围。

2、关系三元组抽取在知识图谱自动化构建中具有至关重要的作用。关系三元组抽取是指从文本数据中提取具有明确语义结构的三元组信息，构建三元组(s，r，o)，其中，s表示主实体(subject)，o表示客实体(object)，r表示两实体间的关系(relation)。近年来，随着深度学习技术的应用，关系三元组抽取方法取得了显著的进步。关系三元组联合抽取方法通过同时编码、解码实体与关系，可以有效避免误差传递，且能够更好地识别和处理实体和关系的重叠问题。

3、一些最新的关系三元组联合抽取方法在不同的数据集

技术实现思路

1、本专利技术的目的是提供基于transformer的网络安全风险知识图谱三元组联合抽取方法，解决了现有技术中存在的忽略了文本数据序列的全局关联以及实体对及关系序列间的关联导致三元组抽取精度较差的问题。

2、本专利技术所采用的技术方案是，基于transformer的网络安全风险知识图谱三元组联合抽取方法，具体按照如下步骤实施：

3、步骤1，构建面向网络威胁情报的网络安全知识图谱本体；

4、步骤2，采集网络安全领域网络威胁情报，提取网络安全领域网络威胁情报中的文本数据并按语句分割，分割成若干句子，基于步骤1构建的网络安全知识图谱本体对每个句子进行标注生成数据集，并分为训练集和数据集；

5、步骤3，构建联合关系三元组抽取模型gairel；

6、步骤4，采用训练集对步骤3构建的联合关系三元组抽取模型gairel进行训练，得到抽取模型；

7、步骤5，将测试集输入到抽取模型中，评估抽取模型的性能；

8、步骤6，使用经过测试的模型进行网络安全风险知识图谱三元组联合抽取。

9、本专利技术的特征还在于：

10、步骤1具体为：

11、基于stix标准化语言，构建面向网络威胁情报的网络安全知识图谱本体，网络安全知识图谱本体包括实体类型、语义关系种类，以及实体之间的语义关系。

12、步骤2具体为：采集网络安全领域网络威胁情报中的apt报告、安全公告、漏洞库，并提取apt报告、安全公告、漏洞库中的文本数据，然后对提取的文本数据进行语义分割，分割成若干句子，然后基于步骤1构建的网络安全知识图谱本体对每个句子进行标注生成数据集，并分为训练集和数据集；

13、其中，对每个句子进行标注具体为：

14、根据步骤1中确定的实体类型、语义关系种类以及实体之间的语义关系对每个句子分析，抽取句中所有关系三元组并标注。

15、步骤3中联合关系三元组抽取模型gairel包括依次连接的编码器、全局交互模块、特征提取模块、解码器；

16、采用预训练的bert-base-cased模型作为编码器；

17、全局交互模块由两个独立的双向长短期记忆网络层与其后的两个独立的前馈层组成；

18、特征提取模块包括主客体特征交互层、最大池化层、两个多头注意力层以及层归一化；

19、解码模块利用表填充策略，生成关系表、实体表并解码出模型对语句中关系三元组的最终抽取结果。

20、步骤4具体为：

21、步骤4.1，将训练集中的句子输入编码器，预训练的bert-base-cased模型作为编码器将句子编码为一个token序列，记为其中n是句子中单词数，dh是向量维度；

22、步骤4.2，将token序列h输入到全局交互模块得到主体特征向量和客体特征向量，分别记为和

23、步骤4.3，将和输入到特征提取模块中得到进行n次迭代得到提取的特征向量

24、步骤4.4，将特征向量输入到解码模块，解码模块利用表填充策略，生成关系表、实体表并解码出对语句中关系三元组的最终抽取结果。

25、步骤4.2具体为：

26、将token序列h输入到两个双向长短期记忆网络层中，分别产生主体相关的特征向量和客体相关的特征向量具体为：

27、

28、然后将和分别输入两前馈层，进行特征转换，具体如式(2)所示：

29、

30、其中，和分别是训练权重和偏置。

31、步骤4.3具体为：

32、步骤4.3.1，将两个前馈层的输出和作为输入，输入到主客体特征交互层，进行两特征向量的交互生成关系特征

33、步骤4.3.2，将关系特征输入到最大池化层，生成与主体相关的特征向量和与客体相关的特征向量fo(1)；

34、步骤4.3.3，将与主体相关的特征向量fs(1)和与客体相关的特征向量fo(1)输入到第一个多头自注意力层分别得到特征其中，包括和其中为将与主体相关的特征向量输入到第一个多头自注意力层得到的特征，表示将与客体相关的特征向量fo(1)输入到第一个多头自注意力层得到的特征；

35、步骤4.3.4，将特征和步骤4.1中得到的token序列h输入到第二个多头自注意力层中得到其中，包括和为将和h输入到第二个多头自注意力层中得到特征，为将和h输入到第二个多头自注意力层中得到特征；

36、步骤4.3.5，将进行层归一化操作，得到输出其中，包括和其中，为将进行层归一化操作后得到特征，为将进行层归一化操作后得到的特征；

37、步骤4.3.6，将步骤4.3.5得到的即就是和输入到主客体特征交互层继续按照步骤4.3.1-4.3.5的方式进行第二次迭代得到然后将输入到主本文档来自技高网...

【技术保护点】

1.基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，具体按照如下步骤实施：

2.根据权利要求1所述的基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤1具体为：

3.根据权利要求2所述的基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤2具体为：采集网络安全领域网络威胁情报中的APT报告、安全公告、漏洞库，并提取APT报告、安全公告、漏洞库中的文本数据，然后对提取的文本数据进行语义分割，分割成若干句子，然后基于步骤1构建的网络安全知识图谱本体对每个句子进行标注生成数据集，并分为训练集和数据集；

4.根据权利要求3所述的基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤3中联合关系三元组抽取模型GAIRel包括依次连接的编码器、全局交互模块、特征提取模块、解码器；

5.根据权利要求4所述的基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤4具体为：>

6.根据权利要求5所述的基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤4.2具体为：

7.根据权利要求6所述的基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤4.3具体为：

8.根据权利要求7所述的基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，在步骤4.3.1中对于第n次迭代，主客体特征交互层进行两特征向量的交互生成关系特征如式(3)所示：

9.根据权利要求8所述的基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤4.4具体为：

10.根据权利要求9所述的基于Transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤5具体为：

...

【技术特征摘要】

1.基于transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，具体按照如下步骤实施：

2.根据权利要求1所述的基于transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤1具体为：

3.根据权利要求2所述的基于transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤2具体为：采集网络安全领域网络威胁情报中的apt报告、安全公告、漏洞库，并提取apt报告、安全公告、漏洞库中的文本数据，然后对提取的文本数据进行语义分割，分割成若干句子，然后基于步骤1构建的网络安全知识图谱本体对每个句子进行标注生成数据集，并分为训练集和数据集；

4.根据权利要求3所述的基于transformer的网络安全风险知识图谱三元组联合抽取方法，其特征在于，所述步骤3中联合关系三元组抽取模型gairel包括依次连接的编码器、全局交互模块、特征提取模块、解码器；

5.根据权利要求...

【专利技术属性】
技术研发人员：姬文江，王智，张亚玲，邱原，朱磊，王一川，周思洋，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人