一种基于深度学习的网络威胁情报自动抽取方法技术

技术编号:25308751 阅读:27 留言:0更新日期:2020-08-18 22:27
本发明专利技术实施例提供了一种基于深度学习的网络威胁情报自动抽取方法,能够获取情报源数据,并判断情报源数据的数据结构类型;若数据结构类型为非结构化类型,则将情报源数据输入预先训练的情报实体识别模型,得到情报源数据中的各情报实体,情报实体识别模型为利用情报样本数据,基于预先设置的字与字的前后位置约束条件,训练得到的神经网络模型;按照预先设置的组合形式,将各情报实体组合得到网络威胁情报。应用本发明专利技术可以利用预先训练的情报实体识别模型进行网络威胁情报的自动抽取,而情报实体识别模型在训练时引入的位置约束条件限制情报实体中字与字的前后位置关系,因此减少情报实体乱序的结果出现,从而提高网络威胁情报识别的准确率。

【技术实现步骤摘要】
一种基于深度学习的网络威胁情报自动抽取方法
本专利技术涉及网络安全
,特别是涉及一种基于深度学习的网络威胁情报自动抽取方法。
技术介绍
随着互联网技术的飞速发展,各种数据上传至互联网中,网络信息安全成为各种组织关注的一个重点,为了避免自身受到威胁,需要对攻击者的攻击行为做出防御。网络安全防御手段中,利用已知的网络威胁情报对未知威胁的攻击行为等进行防御是一种以检测和分析为手段的主动防御方式。威胁情报是基于证据的知识,包括场景、机制、指标、含义和可操作的建议,这些知识是与面临的威胁相关的情报信息,其中有证据表明组织可能将会遭受威胁。网络威胁情报是可以从网络中获取的威胁情报,在网络中获取威胁情报的源数据(即原始来源的数据信息),经过数据处理和数据分析,实现情报抽取,生成可机读或人读的标准化情报。依照数据存在形式,网络威胁情报的源数据可以分三种类型:非结构化情报源数据、半结构化情报源数据以及结构化情报源数据。对于非结构化情报源数据,比如网页、邮件、文档等,需要将其转化为自然语言,从自然语言中识别出多个情报实体,对多个情报进行组合实现情报抽取。一般情报抽取流程为:利用带有标签标注的文本数据集,训练神经网络模型,利用训练好的神经网络模型进行情报实体识别,情报实体可以但不局限于是人名、地名、组织机构名等。当前进行情报抽取的方法易出现情报实体乱序的预测结果,使得网络威胁情报识别准确率低。
技术实现思路
本专利技术实施例的目的在于提供一种基于深度学习的网络威胁情报自动抽取方法,以提高网络威胁情报识别的准确率。具体技术方案如下:第一方面,本专利技术实施例提供一种基于深度学习的网络威胁情报自动抽取方法,所述方法包括:获取情报源数据,并判断所述情报源数据的数据结构类型;若所述数据结构类型为非结构化类型,则将所述情报源数据输入预先训练的情报实体识别模型,得到所述情报源数据中的各情报实体,所述情报实体识别模型为利用情报样本数据,基于预先设置的字与字的前后位置约束条件,训练得到的神经网络模型,所述情报实体为多个字或单个字组成的信息;按照预先设置的组合形式,将所述各情报实体组合得到网络威胁情报。本专利技术实施例提供一种基于深度学习的网络威胁情报自动抽取方法,能够获取情报源数据,并判断情报源数据的数据结构类型;若数据结构类型为非结构化类型,则将情报源数据输入预先训练的情报实体识别模型,得到情报源数据中的各情报实体,情报实体识别模型为利用情报样本数据,基于预先设置的字与字的前后位置约束条件,训练得到的神经网络模型,情报实体为多个字或单个字组成的信息;按照预先设置的组合形式,将各情报实体组合得到网络威胁情报。本专利技术实施例有益效果:本专利技术实施例提供的基于深度学习的网络威胁情报自动抽取方法,可以利用预先训练的情报实体识别模型进行网络威胁情报的自动抽取,而情报实体识别模型在训练时引入了字与字的前后位置约束条件,该位置约束条件限制情报实体中字与字的前后位置关系,因此减少情报实体乱序的结果出现,从而提高网络威胁情报识别的准确率。当然,实施本专利技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的第一种基于深度学习的网络威胁情报自动抽取方法流程图;图2为本专利技术实施例提供的一种情报实体识别模型的训练方法流程图;图3为本专利技术实施例提供的一种情报实体识别模型的层级结构示意图;图4为本专利技术实施例提供的一种情报字向量生成网络的训练方法流程图;图5为本专利技术实施例提供的一种情报字向量生成网络的网络结构示意图;图6为本专利技术实施例提供的一种网络威胁情报领域本体模型的结构示意图;图7为本专利技术实施例提供的第二种基于深度学习的网络威胁情报自动抽取方法流程图;图8为本专利技术实施例提供的第三种基于深度学习的网络威胁情报自动抽取方法流程图;图9为本专利技术实施例提供的第四种基于深度学习的网络威胁情报自动抽取方法流程图;图10为本专利技术实施例提供的一种针对不同数据结构类型的情报源数据进行网络威胁情报自动抽取的流程示意图;图11为本专利技术实施例提供的一种针对非结构化情报源数据进行网络威胁情报自动抽取的流程示意图;图12为本专利技术实施例提供的一种基于深度学习的网络威胁情报自动抽取装置的结构示意图;图13为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。TI(ThreatIntelligence,威胁情报)定义是基于证据的知识,包括场景、机制、指标、含义和可操作的建议。网络安全防御手段中,利用已知的CTI(CyberThreatIntelligence,网络威胁情报)对未知威胁的攻击行为等进行防御是一种以检测和分析为手段的主动防御方式。相比传统的被动防御,主动防御具有优秀的预警能力和快速的响应能力。大数据环境下,依照数据存在形式作区分,CTI的源数据(即原始来源的数据信息)通常分三种类型:非结构化情报源数据(如网络中与威胁情报相关的自然语言文本)、半结构化情报源数据(如包含XML(ExtensibleMarkupLanguage,可扩展标记语言)、JSON(JavaScriptObjectNotation,JS对象简谱)格式数据的网页的列表或信息框)、以及结构化情报源数据库或链接数据(如RDF(ResourceDescriptionFramework,资源描述框架))。根据威胁情报的生命周期闭环理论(定向-收集-处理-分析-传递-反馈-定向),以上所有分类的源数据必须在规范的情报标准的指导下,经过数据处理和数据分析,生成可机读或人读的标准化情报,才能真正地被应用到安全防御中去。对于结构化、半结构化情报源数据,如恶意IP(InternetProtocol,互联网协议)地址、恶意域名信息以及恶意软件样本等,通过制定爬取策略,对结构化情报源数据所在数据库、半结构化情报源数据所在网页等进行数据爬取,并对半结构化的网页拆除HTML(HyperTextMarkupLanguage,超文本标记语言)模板;对于非结构化文本情报源数据,如安全行业组织和网络安全供应商发布的威胁报告、情报平台的安全事件分析报告、甚至网络社区中的威胁舆论信息等,就需要将其转化为NLP(naturallanguageprocessing,自然语言处理)问题,对源数据清洗后进行情报抽取。现有技术本文档来自技高网...

【技术保护点】
1.一种基于深度学习的网络威胁情报自动抽取方法,其特征在于,所述方法包括:/n获取情报源数据,并判断所述情报源数据的数据结构类型;/n若所述数据结构类型为非结构化类型,则将所述情报源数据输入预先训练的情报实体识别模型,得到所述情报源数据中的各情报实体,所述情报实体识别模型为利用情报样本数据,基于预先设置的字与字的前后位置约束条件,训练得到的神经网络模型,所述情报实体为多个字或单个字组成的信息;/n按照预先设置的组合形式,将所述各情报实体组合得到网络威胁情报。/n

【技术特征摘要】
1.一种基于深度学习的网络威胁情报自动抽取方法,其特征在于,所述方法包括:
获取情报源数据,并判断所述情报源数据的数据结构类型;
若所述数据结构类型为非结构化类型,则将所述情报源数据输入预先训练的情报实体识别模型,得到所述情报源数据中的各情报实体,所述情报实体识别模型为利用情报样本数据,基于预先设置的字与字的前后位置约束条件,训练得到的神经网络模型,所述情报实体为多个字或单个字组成的信息;
按照预先设置的组合形式,将所述各情报实体组合得到网络威胁情报。


2.根据权利要求1所述的方法,其特征在于,所述情报样本数据包括由多个带标签的字组成的文本数据;所述情报实体识别模型包括双向长短期记忆网络层和条件随机场层;
所述情报实体识别模型的训练方式,包括:
步骤A,初始化所述双向长短期记忆网络层和所述条件随机场层的参数;
步骤B,利用预先训练的情报字向量生成网络,将所述文本数据中的每个字分别转换为对应的目标字向量;
步骤C,分别将各目标字向量输入所述双向长短期记忆网络层,得到每个字的标签概率;
步骤D,将每个字的标签概率输入所述条件随机场层,得到所述文本数据中每个句子的标签概率;
步骤E,根据所述条件随机场层输出的每个句子的标签概率,以及每个句子对应的预设标签信息,计算所述情报实体识别模型的损失函数;根据所述损失函数,调整所述双向长短期记忆网络层和所述条件随机场层的参数,并迭代执行步骤C至步骤E,直至迭代次数达到预设次数,得到训练后的情报实体识别模型。


3.根据权利要求1所述的方法,其特征在于,所述将所述情报源数据输入预先训练的情报实体识别模型,得到所述情报源数据中的各情报实体,包括:
以字为分割单元,将所述情报源数据进行分割,得到所述情报源数据中的每个字;
利用预先训练的情报字向量生成网络,将所述情报源数据中的每个字分别转换为对应的目标字向量;
将各目标字向量输入预先训练的情报实体识别模型,得到所述情报源数据中的各情报实体。


4.根据权利要求2所述的方法,其特征在于,所述情报字向量生成网络的训练方式,包括:
步骤A,按照预设规则,针对所述文本数据的每个字,设置相应的初始字向量;
步骤B,将所述每个字对应的初始字向量输入字向量训练网络,得到每个字的字向量输出概率;
步骤C,将输出概率最大的字的字向量与该字的初始字向量做比较,确定所述字向量训练网络的转换误差,当误差大于预设阈值时,调整所述字向量训练网络的权重参数;并迭代执...

【专利技术属性】
技术研发人员:李小勇武涵高雅丽郭宁
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1