基于多模态数据模型的复合攻击链补全方法、系统及介质技术方案

技术编号:37119784 阅读:20 留言:0更新日期:2023-04-01 05:14
本发明专利技术提供了一种基于多模态数据模型的复合攻击链补全方法,可以得到符合攻击规律的攻击链,包括步骤:基于五元组模型构建网络安全本体模型,构建本体

【技术实现步骤摘要】
基于多模态数据模型的复合攻击链补全方法、系统及介质


[0001]本专利技术涉及网络安全
,具体涉及基于多模态数据模型的复合攻击链补全方法、系统及介质。

技术介绍

[0002]开放域知识图谱的重点在于实体的语义信息,通过实体识别、实体链接和实体消歧构建,但是这种方法获取三元组知识的准确率不高。领域知识图谱的重点在于实体间的关系,通过构建本体模型确保关系的准确率,但是目前大多是手工构建本体模型,无法实现自动化建模。知识图谱包含数据层和模式层,开放域知识图谱的模式层是从数据层中自动抽象、提炼出的实体概念和概念间关系,领域知识图谱包含实体概念,但无法自动构建概念间关系。
[0003]在网络安全领域,知识库中的知识是公认正确的,知识中实体概念间的关系是确定的,实体由于计算机领域命名规则的特殊性而具有唯一标识性和约定俗成性,实体间的关系通常缺失或弱化表达并且涉及多个实体,这些特点使得实体识别的准确率很高,但无法自动化获取三元组知识。
[0004]近年来,以高级持续性威胁攻击为代表的新型网络攻击频繁发生,其隐蔽性和持续性的特点使得基于机器学习、深度学习的异常检测技术、入侵检测技术等检测方法难以奏效。以有限状态机为代表的针对多维度安全事件关联分析方法,通过设置初始状态、中间状态、结束状态以及状态转换的触发条件来发现攻击链。该类方法灵活性较差,很难有效发现持续时间长、隐蔽性高的复合攻击。

技术实现思路

[0005]针对上述问题,本专利技术提供了一种基于多模态数据模型的复合攻击链补全方法、系统及介质,可以从多源、异构的安全知识库中获得准确的网络安全知识,进而从海量的数据中通过关联分析、动态去除存在错误状态关联序列攻击链、补全攻击链、对攻击链进行剪枝得到符合攻击规律的攻击链。
[0006]其技术方案是这样的:基于多模态数据模型的复合攻击链补全方法,其特征在于,包括以下步骤:
[0007]步骤1:基于五元组模型构建网络安全本体模型,所述五元组模型包括网络安全知识本体、网络安全知识实例、网络安全知识本体、实例之间的关系、网络安全知识实例的属性和网络安全知识推理规则;
[0008]步骤2:构建本体

实例模型,所述本体

实例模型用于指导实例添加到网络安全本体模型,优化构建的所述本体

实例模型;
[0009]步骤3:基于网络安全本体特征进行网络安全实体识别;基于实体识别优化模型进行网络安全实体识别;构建网络安全知识图谱;
[0010]步骤4:将获取的网络安全相关数据用多模态数据模型表示;
[0011]步骤5:将获取的网络安全相关数据与网络安全知识图谱匹配,返回带有时间、源IP和目的IP的单步攻击,基于分析的时间窗口按照时间顺序为单步攻击进行排序,基于节点传播的IP约束将单步攻击相连,将满足时间排序和IP约束的单步攻击生成的攻击链与攻击规律进行匹配,保留符合攻击规律的攻击链;
[0012]步骤6:判断得到的攻击链中是否存在错误状态关联序列,将错误状态关联序列存入错误状态集,丢弃存在错误状态关联序列的攻击链,根据错误状态集中错误状态关联序列的传递情况,找到首次出现错误状态关联的IP重新进行IP约束,重新得到符合攻击规律的攻击链;
[0013]步骤7:对于缺失单个节点的攻击链,基于多模态数据模型补全攻击链中缺失的节点;对于连续缺失多个节点的攻击链,基于多模态数据模型查找所有的可达路径,依据作为攻击路径的可能赋予相应的权重,按照每条路径的综合权重对所有可达路径进行排序,基于攻击规则确定缺失节点的个数,从可达路径中选出满足条件的最优可达路径,采用最优可达路径补全攻击链。
[0014]进一步的,所述网络安全知识本体包括多级本体;
[0015]网络安全知识本体、实例之间的关系包括:多级本体之间的关系、不同本体之间的关系、本体与实例的关系;
[0016]网络安全知识推理规则包括:
[0017]属性推理,用于依据本体推理出实例缺失的属性;
[0018]关系推理,用于依据本体间关系推理出实例间缺失的关系。
[0019]进一步的,在步骤3中,基于网络安全本体特征进行网络安全实体识别,本体特征包括:漏洞库中的漏洞名、攻击名和否定词,病毒库中的蠕虫名、木马名、攻击名和否定词;
[0020]基于实体识别优化模型进行网络安全实体识别具体包括:
[0021]通过jieba分词将语料中打好标签的词进行切分,采用word2vec的CBOW Multi

Word Context训练模型将切分后的词语或字转换成向量,通过特征词间的距离训练词向量;
[0022]采用具有不同大小的卷积核的CNN卷积神经网络,提取字符级特征;
[0023]使用双向LSTM模型,提取网络安全语料中的上下文信息;
[0024]在本体特征中关键词与识别词的位置关系的约束下,利用CRF识别模型得到识别词特征标签的排列组合。
[0025]进一步的,利用CRF识别模型得到识别词特征标签的排列组合,具体包括:
[0026]分别计算BiLSTM隐藏层输出的包括否定词在内的识别词标签分数fraction,计算方式如下公式所示:
[0027]fraction=W
f
·
O
t
+b
f
+F
n
[0028]其中,W
f
为权重矩阵,b
f
为偏移量,O
t
为隐藏层输出结果,F
n
为本体特征的特征权重总和;
[0029]设置转移矩阵T,表示标签之间的转移分数;设置否定词与攻击词的位置模板来确定否定词与前后攻击名的归属,依据否定词位置模板,计算否定词和识别词的转移分数,将否定词的标签得分通过转移矩阵与识别词的标签得分求和,计算方式如下公式所示:
[0030][0031]其中,x
i
表示否定词的标签,x
i+1
表示下一个否定词的标签,y表示攻击词;
[0032]采用交叉熵损失函数,利用随机梯度下降学习算法训练参数,依据本体特征,在语料中去掉出现了否定词的攻击名,得到语料库中每一行包含漏洞名称、木马名、否定词、所有的攻击名称{att_1,att_2,...,att_n}及标签{att_1_tag,att_2_tag,..,att_n_tag}。
[0033]进一步的,所述本体

实例模型包括一对一本体

实例模型、一对多本体

实例模型;
[0034]在一对一本体

实例模型中,构建攻击本体、安全事件本体、漏洞本体、木马本体、蠕虫本体、snort告警本体,为安全事件本体、漏洞本体、木马本体、蠕虫本体构建二级本体,如果一对一本体

实例模型中本体的每一个分类中的所有实例都与同一攻击相关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态数据模型的复合攻击链补全方法,其特征在于,包括以下步骤:步骤1:基于五元组模型构建网络安全本体模型,所述五元组模型包括网络安全知识本体、网络安全知识实例、网络安全知识本体、实例之间的关系、网络安全知识实例的属性和网络安全知识推理规则;步骤2:构建本体

实例模型,所述本体

实例模型用于指导实例添加到网络安全本体模型,优化构建的所述本体

实例模型;步骤3:基于网络安全本体特征进行网络安全实体识别;基于实体识别优化模型进行网络安全实体识别;构建网络安全知识图谱;步骤4:将获取的网络安全相关数据用多模态数据模型表示;步骤5:将获取的网络安全相关数据与网络安全知识图谱匹配,返回带有时间、源IP和目的IP的单步攻击,基于分析的时间窗口按照时间顺序为单步攻击进行排序,基于节点传播的IP约束将单步攻击相连,将满足时间排序和IP约束的单步攻击生成的攻击链与攻击规律进行匹配,保留符合攻击规律的攻击链;步骤6:判断得到的攻击链中是否存在错误状态关联序列,将错误状态关联序列存入错误状态集,丢弃存在错误状态关联序列的攻击链,根据错误状态集中错误状态关联序列的传递情况,找到首次出现错误状态关联的IP重新进行IP约束,重新得到符合攻击规律的攻击链;步骤7:对于缺失单个节点的攻击链,基于多模态数据模型补全攻击链中缺失的节点;对于连续缺失多个节点的攻击链,基于多模态数据模型查找所有的可达路径,依据作为攻击路径的可能赋予相应的权重,按照每条路径的综合权重对所有可达路径进行排序,基于攻击规则确定缺失节点的个数,从可达路径中选出满足条件的最优可达路径,采用最优可达路径补全攻击链。2.根据权利要求1所述的基于多模态数据模型的复合攻击链补全方法,其特征在于:所述网络安全知识本体包括多级本体;网络安全知识本体、实例之间的关系包括:多级本体之间的关系、不同本体之间的关系、本体与实例的关系;网络安全知识推理规则包括:属性推理,用于依据本体推理出实例缺失的属性;关系推理,用于依据本体间关系推理出实例间缺失的关系。3.根据权利要求2所述的基于多模态数据模型的复合攻击链补全方法,其特征在于:在步骤3中,基于网络安全本体特征进行网络安全实体识别,本体特征包括:漏洞库中的漏洞名、攻击名和否定词,病毒库中的蠕虫名、木马名、攻击名和否定词;基于实体识别优化模型进行网络安全实体识别具体包括:通过jieba分词将语料中打好标签的词进行切分,采用word2vec的CBOW Multi

Word Context训练模型将切分后的词语或字转换成向量,通过特征词间的距离训练词向量;采用具有不同大小的卷积核的CNN卷积神经网络,提取字符级特征;使用双向LSTM模型,提取网络安全语料中的上下文信息;在本体特征中关键词与识别词的位置关系的约束下,利用CRF识别模型得到识别词特征标签的排列组合。
4.根据权利要求3所述的基于多模态数据模型的复合攻击链补全方法,其特征在于:利用CRF识别模型得到识别词特征标签的排列组合,具体包括:分别计算BiLSTM隐藏层输出的包括否定词在内的识别词标签分数fraction,计算方式如下公式所示:fraction=W
f
·
O
t
+b
f
+F
n
其中,W
f
为权重矩阵,b
f
为偏移量,O
t
为隐藏层输出结果,F
n
为本体特征的特征权重总和;设置转移矩阵T,表示标签之间的转移分数;设置否定词与攻击词的位置模板来确定否定词与前后攻击名的归属,依据否定词位置模板,计算否定词和识别词的转移分数,将否定词的标签得分通过转移矩阵与识别词的标签得分求和,计算方式如下公式所示:其中,x
i
表示否定词的标签,x
i+1
表示下一个否定词的标签,y表示攻击词;采用交叉熵损失函数,利用随机梯度下降学习算法训练参数,依据本体特征,在语料中去掉出现了否定词的攻击名,得到语料库中每一行包含漏洞名称、木马名、否定词、所有的攻击名称{att_1,att_2,...,att_n}及标签{att_1_tag,att_2_tag,..,att_n_tag}。5.根据权利要求4所述的基于多模态数据模型的复合攻击链补全方法,其特征在于:所述本体

实例模型包括一对一本体

实例模型、一对多本体

实例模型;在一对一本体

实例模型中,构建攻击本体、安全事件本体、漏洞本体、木马本体、蠕虫本体、snort告警本体,为安全事件本体、漏洞本体、木马本体、蠕虫本体构建二级本体,如果一对一本体

实例模型中本体的每一个分类中的所有实例都与同一攻击相关联,则为对应的二级本体与攻击构建一对一关系;在一对多本体

实例模型中,构建攻击本体、安全事件本体、漏洞本体、木马本体、蠕虫本体、snort告警本体,为安全事件本体、漏洞本体、木马本体、蠕虫本体构建二级本体,如果一对多本体

实例模型中本体的每一个分类中的所有实例都与相同的多个攻击相关联,则为对应的二级本体与攻击构建一对多关系。6.根据权利要求5所述的基于多模态数据模型的复合攻击链补全方法,其特征在于:对于本体

实例模型的优化包括:对于实体类别进行优化,采用相似度度量的方法统一攻击名称的类别,具体包括:统计同一类攻击名称包含的关键字,通过将识别的攻击名称与关键字匹配,统计匹配成功的字符数来计算相似度,若相似度大于设置阈值,则将攻击类别赋予攻击名称;对于实体相关性进行优化,依据否定词出现的位置确定需要去掉的攻击名称,判断否定词与攻击名称的空间相关性,选择保留空间相关性小的攻击名称,删除空间相关性大的攻击名称,所述空间相关性通过计算否定识别词与攻击识别词特征变量之间的欧氏距离得到;对于类别优化:将每一条语句中所有识别的攻...

【专利技术属性】
技术研发人员:亓玉璐陈磊贾焰周斌李爱平江荣涂宏魁王晔罗宇喻承
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1