一种基于深度学习的网络威胁情报自动抽取方法技术

技术编号：25308751 阅读：27 留言：0更新日期：2020-08-18 22:27

本发明专利技术实施例提供了一种基于深度学习的网络威胁情报自动抽取方法，能够获取情报源数据，并判断情报源数据的数据结构类型；若数据结构类型为非结构化类型，则将情报源数据输入预先训练的情报实体识别模型，得到情报源数据中的各情报实体，情报实体识别模型为利用情报样本数据，基于预先设置的字与字的前后位置约束条件，训练得到的神经网络模型；按照预先设置的组合形式，将各情报实体组合得到网络威胁情报。应用本发明专利技术可以利用预先训练的情报实体识别模型进行网络威胁情报的自动抽取，而情报实体识别模型在训练时引入的位置约束条件限制情报实体中字与字的前后位置关系，因此减少情报实体乱序的结果出现，从而提高网络威胁情报识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的网络威胁情报自动抽取方法
本专利技术涉及网络安全
，特别是涉及一种基于深度学习的网络威胁情报自动抽取方法。
技术介绍
随着互联网技术的飞速发展，各种数据上传至互联网中，网络信息安全成为各种组织关注的一个重点，为了避免自身受到威胁，需要对攻击者的攻击行为做出防御。网络安全防御手段中，利用已知的网络威胁情报对未知威胁的攻击行为等进行防御是一种以检测和分析为手段的主动防御方式。威胁情报是基于证据的知识，包括场景、机制、指标、含义和可操作的建议，这些知识是与面临的威胁相关的情报信息，其中有证据表明组织可能将会遭受威胁。网络威胁情报是可以从网络中获取的威胁情报，在网络中获取威胁情报的源数据(即原始来源的数据信息)，经过数据处理和数据分析，实现情报抽取，生成可机读或人读的标准化情报。依照数据存在形式，网络威胁情报的源数据可以分三种类型：非结构化情报源数据、半结构化情报源数据以及结构化情报源数据。对于非结构化情报源数据，比如网页、邮件、文档等，需要将其转化为自然语言，从自然语言中识别出多个情报实体，对多个情报进行组合实现情报抽取。一般情报抽取流程为：利用带有标签标注的文本数据集，训练神经网络模型，利用训练好的神经网络模型进行情报实体识别，情报实体可以但不局限于是人名、地名、组织机构名等。当前进行情报抽取的方法易出现情报实体乱序的预测结果，使得网络威胁情报识别准确率低。
技术实现思路
本专利技术实施例的目的在于提供一种基于深度学习的网络威胁情报自动抽取方法，以提高网络威胁情报识别的...

【技术保护点】
1.一种基于深度学习的网络威胁情报自动抽取方法，其特征在于，所述方法包括：/n获取情报源数据，并判断所述情报源数据的数据结构类型；/n若所述数据结构类型为非结构化类型，则将所述情报源数据输入预先训练的情报实体识别模型，得到所述情报源数据中的各情报实体，所述情报实体识别模型为利用情报样本数据，基于预先设置的字与字的前后位置约束条件，训练得到的神经网络模型，所述情报实体为多个字或单个字组成的信息；/n按照预先设置的组合形式，将所述各情报实体组合得到网络威胁情报。/n

【技术特征摘要】
1.一种基于深度学习的网络威胁情报自动抽取方法，其特征在于，所述方法包括：
获取情报源数据，并判断所述情报源数据的数据结构类型；
若所述数据结构类型为非结构化类型，则将所述情报源数据输入预先训练的情报实体识别模型，得到所述情报源数据中的各情报实体，所述情报实体识别模型为利用情报样本数据，基于预先设置的字与字的前后位置约束条件，训练得到的神经网络模型，所述情报实体为多个字或单个字组成的信息；
按照预先设置的组合形式，将所述各情报实体组合得到网络威胁情报。

2.根据权利要求1所述的方法，其特征在于，所述情报样本数据包括由多个带标签的字组成的文本数据；所述情报实体识别模型包括双向长短期记忆网络层和条件随机场层；
所述情报实体识别模型的训练方式，包括：
步骤A，初始化所述双向长短期记忆网络层和所述条件随机场层的参数；
步骤B，利用预先训练的情报字向量生成网络，将所述文本数据中的每个字分别转换为对应的目标字向量；
步骤C，分别将各目标字向量输入所述双向长短期记忆网络层，得到每个字的标签概率；
步骤D，将每个字的标签概率输入所述条件随机场层，得到所述文本数据中每个句子的标签概率；
步骤E，根据所述条件随机场层输出的每个句子的标签概率，以及每个句子对应的预设标签信息，计算所述情报实体识别模型的损失函数；根据所述损失函数，调整所述双向长短期记忆网络层和所述条件随机场层的参数，并迭代执行步骤C至步骤E，直至迭代次数达到预设次数，得到训练后的情报实体识别模型。

3.根据权利要求1所述的方法，其特征在于，所述将所述情报源数据输入预先训练的情报实体识别模型，得到所述情报源数据中的各情报实体，包括：
以字为分割单元，将所述情报源数据进行分割，得到所述情报源数据中的每个字；
利用预先训练的情报字向量生成网络，将所述情报源数据中的每个字分别转换为对应的目标字向量；
将各目标字向量输入预先训练的情报实体识别模型，得到所述情报源数据中的各情报实体。

4.根据权利要求2所述的方法，其特征在于，所述情报字向量生成网络的训练方式，包括：
步骤A，按照预设规则，针对所述文本数据的每个字，设置相应的初始字向量；
步骤B，将所述每个字对应的初始字向量输入字向量训练网络，得到每个字的字向量输出概率；
步骤C，将输出概率最大的字的字向量与该字的初始字向量做比较，确定所述字向量训练网络的转换误差，当误差大于预设阈值时，调整所述字向量训练网络的权重参数；并迭代执...

【专利技术属性】
技术研发人员：李小勇，武涵，高雅丽，郭宁，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人