当前位置: 首页 > 专利查询>四川大学专利>正文

基于关联增强的网络威胁情报多维IoC实体识别方法及装置制造方法及图纸

技术编号:30648569 阅读:26 留言:0更新日期:2021-11-04 01:02
本发明专利技术公开了一种基于关联增强的网络威胁情报多维IoC实体识别方法及装置,该方法针对网络威胁情报文本数据的多维复杂性,采用半监督实体分解和关系统一描述的方法,形成多维IoC实体统一描述语言和抽象标准;并采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取,验证、评估和优化的过程。本发明专利技术通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰,将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中,增加识别结果的可靠性和稳定性,提高识别结果的可解释性和可信性。提高识别结果的可解释性和可信性。提高识别结果的可解释性和可信性。

【技术实现步骤摘要】
基于关联增强的网络威胁情报多维IoC实体识别方法及装置


[0001]本专利技术涉及网络空间安全领域,设计一种基于关联增强的网络威胁情报多维IoC(Indicator of Compromise威胁指标)实体识别方法,通过深度学习算法提高威胁情报中的IoC实体提取的可靠性和稳定性,解决传统方法从大量的威胁情报文本中自动化提取威胁情报的IoC实体因信息干扰而导致准确性不够的问题。

技术介绍

[0002]当前随着网络安全形势的日益严峻,网络威胁情报在整个网络安全防护过程中的价值愈发突显,攻击行为模式作为攻击方的一种高级特征,从威胁情报中识别攻击方的攻击行为模式,成为网络空间安全领域主动防御的重要内容。依据多维IoC的关联性,采用关联增强的方式自动识别多维IoC信息是对攻击行为模式关联分析的前提。但是,IoC信息抽象层次高,并且通常存在于多源异质的网络威胁报告中,这导致传统的人工分析方法以及基于特征工程的机器学习方法难以快速有效地从网络威胁情报中获取IoC信息。区别于传统的机器学习,深度学习通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示,用“简单模型”即可完成复杂的识别与分类等任务。在非结构化威胁情报文本数据处理任务中,深度学习能够从异质的文本数据中发现其内在联系,提取隐含特征,用于下游的安全实体识别、文本分类等任务。因此,使用深度学习算法对威胁情报进行IoC实体识别是目前主流的解决方法。但是,威胁情报作为多维IoC信息的主要数据来源、多样化的数据格式给多维IoC信息识别带来挑战。本专利技术公开了一种基于关联增强的网络威胁情报多维IoC识别方法。该方法针对文本类型的网络威胁情报的多维复杂性,采用半监督实体分解和关系统一描述的方法,形成多维IoC实体统一描述语言和抽象标准;并采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取,验证、评估和优化的过程。

技术实现思路

[0003]针对上述问题,本专利技术的目的在于提供一种基于关联增强的网络威胁情报多维IoC识别方法及装置,通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰,将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中,增加了结果的可靠性和稳定性,并提高了数据分析的可解释性和可信性。本专利技术采用的技术方案是:一种基于关联增强的网络威胁情报多维IoC识别方法,主要包含多维IoC实体及关系定义,多维IoC实体识别和实体识别优化反馈三个模块。技术方案如下:
[0004]一种基于关联增强的网络威胁情报多维IoC实体识别方法,包括以下步骤:
[0005]步骤1:通过实体及实体关系定义模块对多维IoC实体及实体关系进行定义
[0006]通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计
假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;
[0007]步骤2:通过实体识别模块对多维IoC实体进行识别
[0008]通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征,形成优化实体;并根据这一过程的反馈优化原有超路径结构权重基础数据;
[0009]步骤3:通过优化反馈模块进行实体识别优化反馈
[0010]通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;
[0011]根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;
[0012]形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中。
[0013]进一步的,所述步骤1中通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势具体为:根据实体集的空间结构选择对应的距离度量,并计算实体集的霍普金斯统计量,通过统计量取值判断实体集是否包含有意义的聚类簇,以此评估聚类趋势的有效性;包括以下步骤:
[0014]步骤1.1.1:计算全集N中实体A∈N,B∈N间距离,距离度量的计算公式如下表示:
[0015][0016]其中,d(A,B)是实体A和B间的距离;N
AB
是全集N中同时包含实体A,B的情况的集合,|N
AB
|是集合N
AB
的元素个数;是全集N中同时不包含实体A,B的情况的集合,是全集N中包含实体A但不包含实体B的情况的集合,是N全集中包含实体B但不包含实体A的情况的集合;N
A
是全集N中包含实体A的情况的集合;是全集N不包含实体B的情况的集合;N
B
是全集N中包含实体B情况的集合;是全集N中不包含实体B情况的集合;
[0017]步骤1.1.2:计算公所述霍普金斯统计量,并评估聚类趋势的有效性,计算公式如下:
[0018][0019]其中,m是循环次数,R
t
是每一次独立循环中以随机伯努利分布生成的一个模拟数据集,享有和实体集L同等的元素个数;和为模拟数据R
t
中的元素;集对于n阶的霍普金斯统计量H,n≤|L|,在每次循环中,随机抽样L
i,i≤n
∈L的实体,并计算他们的最近邻距离和min(d(L
i
,L
j,j≠i
))并求和;
[0020]步骤1.1.3:通过对多次霍普金斯统计量的平均值计算实体集L的聚类趋势当时存在有意义的实体集L强关系挖掘;反之,人工定义的实体集L需要重新定义。
[0021]更进一步的,所述使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径过程如下:
[0022]步骤1.2.1:假设L
t
是实体集L的第t次凝聚迭代,L0=L;对实体集L
t
合并任意实体Lt
i
和形成新实体集合并规则为将和看成一个新实体
[0023]对i<j对应的新实体集计算集内上三角距离度量矩阵,定义如下:
[0024][0025]其中,是的第k∈{1,...,|L|}个实体元素;
[0026]步骤1.2.2:计算新实体集的离差平方和,公式如下:
[0027][0028]其中,是的Hadamard自乘积矩阵,Σ计算一个矩阵所有元素的和;
[0029]步骤1.2.3:对新实体集的离差平方和排序,对于最小的令完成一轮迭代;
[0030]步骤1.2.4:重复步骤1.2.1

1.2.3,直至实体集L
t+1
的元素个数|L
t+本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,包括以下步骤:步骤1:通过实体及实体关系定义模块对多维IoC实体及实体关系进行定义通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势,并使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径,再采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系;步骤2:通过实体识别模块对多维IoC实体进行识别通过网络安全词向量编码情报文本,送入以RNN+CNN编码网络编码原始文本语义向量;通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征,形成优化实体;并根据这一过程的反馈优化原有超路径结构权重基础数据;步骤3:通过优化反馈模块进行实体识别优化反馈通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史,并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果;根据实体识别模块分析目标及环境不同,合理规划分析过程,并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务;形成合理的事件、实体、关系演变规律,并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中。2.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述步骤1中,通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势具体为:根据实体集的空间结构选择对应的距离度量,并计算实体集的霍普金斯统计量,通过统计量取值判断实体集是否包含有意义的聚类簇,以此评估聚类趋势的有效性;包括以下步骤:步骤1.1.1:计算全集N中实体A∈N,B∈N间距离,距离度量的计算公式如下表示:其中,d(A,B)是实体A和B间的距离;N
AB
是全集N中同时包含实体A,B的情况的集合,|N
AB
|是集合N
AB
的元素个数;是全集N中同时不包含实体A,B的情况的集合,是全集N中包含实体A但不包含实体B的情况的集合,是N全集中包含实体B但不包含实体A的情况的集合;N
A
是全集N中包含实体A的情况的集合;是全集N不包含实体B的情况的集合;N
B
是全集N中包含实体B情况的集合;是全集N中不包含实体B情况的集合;步骤1.1.2:计算公所述霍普金斯统计量,并评估聚类趋势的有效性,计算公式如下:其中,m是循环次数,R
t
是每一次独立循环中以随机伯努利分布生成的一个模拟数据集,享有和实体集L同等的元素个数;和为模拟数据R
t
中的元素;集对于n阶的霍普金斯统计量H,n≤|L|,在每次循环中,随机抽样L
i,i≤n
∈L的实体,并计算他们的最近邻
距离和min(d(L
i
,L
j,j≠i
))并求和;步骤1.1.3:通过对多次霍普金斯统计量的平均值计算实体集L的聚类趋势当时存在有意义的实体集L强关系挖掘;反之,人工定义的实体集L需要重新定义。3.根据权利要求2所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述使用以Ward连接为主的凝聚层次进行凝聚迭代,聚类形成实体关联关系的统计学关键路径过程如下:步骤1.2.1:假设L
t
是实体集L的第t次凝聚迭代,L0=L;对实体集L
t
合并任意实体和形成新实体集合并规则为将和看成一个新实体对对应的新实体集计算集内上三角距离度量矩阵,定义如下:其中,是的第k∈{1,...,|L|}个实体元素;步骤1.2.2:计算新实体集的离差平方和,公式如下:其中,是的Hadamard自乘积矩阵,Σ计算一个矩阵所有元素的和;步骤1.2.3:对新实体集的离差平方和排序,对于最小的令完成一轮迭代;步骤1.2.4:重复步骤1.2.1

1.2.3,直至实体集L
t+1
的元素个数|L
t+1
|=1;根据t步迭代的过程中和的合并记录,将返回实体集L的实体凝聚层次聚类树T
L
。4.根据权利要求3所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述采用统计假设检验的方法去除假阳性超路径,并输出确定截断值的有效实体关系具体包括:假设对原始合并聚类树T
L
,令T
L
深度为使用截断值h作为合并分支的的深度:假设以截断值h截断T
L
后的树为定义对于任意树T,其非空子树为其节点簇,其簇的个数使用C
T
表示;对于原始聚类树T
L
,其子树的个数为截断树的簇数为使用Ward连接凝聚层次聚类算法以随机伯努利分布生成m个层次树T
i
,i∈{1,...,m},使其方差与T
L
的方差相同;计算当截断值为h时,各随机树T
i
,i∈{1,...,m}生成截断树T
ih
,其簇数
分别为按照如下公式计算置信度:其中,遍历所有可能h,获取最大的置信度P
max
(L,h

,m);如果P
max
(L,h

,m)>0.95,则在截断值为h

时,实体集L的分解的截断实体子集内部关系最为密切;反之不成立,需要对实体集L重新进行Ward连接凝聚层次聚类。5.根据权利要求1或2所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述人工假设定义的IoC实体集包括:由技战术组成的高级行为实体,由机构名称、软件名称、邮箱名称、地点名称、时间、漏洞名称、域名组成的关键性证据或描述类实体,由Hash、IP、CVSS组成的细节代号实体。6.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法,其特征在于,所述步骤2具体为:步骤2.1:对收集的网络安全文本库使用FastText或者Bert方法进行词嵌模型训练,得到用于表征文本单词词向量的词嵌模型;通过词嵌模型,对原有文档D的单词集合W(w1,w2,...,w
|W|
)进行词嵌入编码,形成单词词向量集合|W|为为单词集合W的最大长度;步骤2.2:对于词向量集合S
W
中每个词向量,使用双向递归神经网络结合前后词向量做贡献预测,以形成当前词汇的上下文词向量贡献预测,以形成当前词汇的上下文词向量其中,W
f
和W
b
分别是顺序和逆序的预测权重,b
f
和b
b
是偏移量,f是BN函数和RELU激活函数;针对处在文档D单词语序顺序第j位的...

【专利技术属性】
技术研发人员:王俊峰唐宾徽葛文翰于忠坤陈柏翰余坚
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1