基于迁移学习的网络安全命名实体和关系联合抽取方法及装置制造方法及图纸

技术编号:31826721 阅读:18 留言:0更新日期:2022-01-12 12:55
本发明专利技术公开了一种基于迁移学习的网络安全命名实体和关系联合抽取方法及装置,包括:对网络安全威胁情报进行网络安全命名实体及关系联合标注,构建网络安全威胁情报语料库;基于自然语言语料库预训练深度神经网络;将预训练深度神经网络与一分类器组合,构建初始联合抽取模型;基于网络安全威胁情报语料库,对初始联合抽取模型进行训练;将目标数据输入训练好的联合抽取模型,得到网络安全命名实体和关系联合抽取结果。本发明专利技术能够同时标注网络安全命名实体和关系,有效规避先实体后关系的串行抽取模式存在的误差传递问题,降低网络安全领域实体及关系抽取对专家经验的依赖,增强模型的移植性,减少网络安全领域内标注数据集少对模型训练带来的困扰。对模型训练带来的困扰。对模型训练带来的困扰。

【技术实现步骤摘要】
基于迁移学习的网络安全命名实体和关系联合抽取方法及装置


[0001]本专利技术属于网络安全
,尤其涉及一种基于迁移学习的网络安全命名实体和关系联合抽取方法及装置。

技术介绍

[0002]随着信息技术的飞速发展,网络攻击者可利用的零日漏洞、攻击方法、隐藏手段均呈现出多元化和多样化的发展趋势。新型的攻击趋势带来了严峻的攻击后果,如国内外高级持续性威胁(APT,Advanced Persistent Threat)相关公开报告的数量逐年增加。新的攻击形势和严重的攻击后果凸显出传统单点防护的弊端越来越明显,无法及时准确地应对新出现的网络安全威胁,攻防不对称态势也越来越严重。
[0003]网络安全威胁情报作为一种针对已存在或即将出现的对资产构成威胁或危害的背景、机制、指标、影响和可以实施的防护建议等证据知识,可以为资产拥有者针对威胁或危害做出防护决策的依据,在一定程度上缓解了攻防不对称的态势,典型的如abuse.ch针对臭名昭著的僵尸网络Zeus进行追踪,并将新发现的命令和控制(C&C)服务器作为结构化网络安全威胁情报进行共享,从而对全球僵尸网络Zeus的防御起到了重要作用。
[0004]网络安全威胁情报按照结构形式分类,可分为结构化网络安全威胁情报和非结构化网络安全威胁情报,其中,结构化网络安全威胁情报的信息准确、规范性强,但由于缺少大量的网络安全威胁背景信息,不易与其他网络安全威胁情报数据关联分析;非结构化网络安全威胁情报具有丰富的网络安全威胁背景信息,但多以文档报告的形式出现,在利用机器进行关联分析之前,需将非结构化网络安全威胁情报转化为机读情报,当前非结构化网络安全威胁情报向机读情报的转化过程过度依赖于专家抽取经验,移植性较差。在通用实体和关系抽取领域,多采用先抽取实体信息,然后基于抽取的实体信息进一步抽取关系,这种串行的抽取方式存在误差传递的问题,例如中国专利申请CN113128227A公开了一种实体抽取方法及装置,该专利仅能抽取实体信息,无法进行关系信息的抽取;如中国专利申请CN112926325A公开了一种基于BERT神经网络的中文任务关系抽取,该专利仅能抽取人物关系信息,无法进行实体信息的抽取;如中国专利申请CN113158676A公开了专业实体与关系联合抽取方法、系统及电子、中国专利申请CN111798987A公开了一种实体关系抽取方法和设备,二者均是先抽取实体信息,而后基于实体的信息进行关系抽取,存在误差传递的问题;
[0005]针对上述非结构化网络安全威胁情报向机读情报转化的问题,本专利提出一种基于迁移学习的网络安全威胁情报联合抽取方法。该方法首先利用自然语言领域语料训练深度神经网络结构以学习词语特征表示向量,然后基于网络安全威胁情报标注数据集训练优化深度神经网络结构,同时基于深度神经网络结构输出的词语特征表示向量利用条件随机场进行标签分类,优化后的深度神经网络和条件随机场组合形成最终的网络安全命名实体和实体间关系的抽取模型,最后,针对新的非结构化网络安全威胁情报,利用抽取模型完成
网络安全命名实体和实体间关系的抽取,实现非结构化网络安全威胁情报向机读情报自动转化的目的。

技术实现思路

[0006]本专利技术的目的是提供一种基于迁移学习的网络安全命名实体和关系联合抽取方法及装置,利用自然语言领域语料和少量的网络安全威胁情报标注数据集进行网络安全命名实体及实体间关系的深度学习联合抽取模型的训练,对新的非结构化网络安全威胁情报可以利用预训练的深度学习联合抽取模型进行抽取,实现非结构化网络安全威胁情报向机读情报的自动转化。
[0007]本专利技术的技术方案包括:
[0008]一种基于迁移学习的网络安全命名实体和关系联合抽取方法,其步骤包括:
[0009]1)对网络安全威胁情报进行网络安全命名实体及关系联合标注,构建网络安全威胁情报语料库;
[0010]2)基于自然语言语料库预训练深度神经网络,得到提取词语特征表示向量的预训练深度神经网络;
[0011]3)将预训练深度神经网络与一分类器组合,构建初始联合抽取模型;
[0012]4)基于网络安全威胁情报语料库,使用迁移学习方法对初始联合抽取模型进行训练,获取训练好的联合抽取模型;
[0013]5)将目标数据输入训练好联合抽取模型,得到网络安全命名实体和关系联合抽取结果。
[0014]进一步地,通过以下步骤构建网络安全威胁情报语料库:
[0015]1)从网络安全威胁情报博客或论坛中采集网络安全威胁情报,其中网络安全威胁情报包括:结构化网络安全威胁情报和非结构化网络安全威胁情报;
[0016]2)对结构化网络安全威胁情报,利用情报自身的结构规则标注网络安全命名实体及关系,得到结构化网络安全威胁情报标注结果;
[0017]3)利用标注工具,对部分非结构化网络安全威胁情报手工标注网络安全命名实体及关系,并基于总结的标注规则,自动标注剩余的非结构化网络安全威胁情报;
[0018]4)结合手工标注结果与规则标注结果,得到非结构化网络安全威胁情报标注结果
[0019]5)根据结构化网络安全威胁情报标注结果与非结构化网络安全威胁情报标注结果,构建网络安全威胁情报语料库。
[0020]进一步地,标注规则包括:正则表达式或标注词典。
[0021]进一步地,通过以下步骤得到预训练深度神经网络:
[0022]1)利用自然语言组织规律,对自然语言语料库中的自然语言语料进行分词,得到初始词典;
[0023]2)对自然语言中部分的分词进行掩盖;
[0024]3)将掩盖后的自然语言语料输入深度神经网络,通过预测掩盖分词,以得到预训练深度神经网络。
[0025]进一步地,所述自然语言组织规律包括:词语的词性、词语间的依赖关系、词语的位置和/或词语间的标点符号。
[0026]进一步地,使用迁移学习方法对初始联合抽取模型进行训练之前,利用词分片技术、初始词典及自然语言组织规律,对网络安全威胁情报语料库中网络安全威胁情报进行分词。
[0027]进一步地,分类器的构建方法包括:使用条件随机场算法。
[0028]进一步地,利用网络安全命名实体和关系联合抽取结果,构建网络安全威胁知识图谱,并基于网络安全威胁知识图谱,进行网络安全威胁的应急响应及防御。
[0029]一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以上所述方法。
[0030]一种电子装置,包括存储器和处理器,其中存储器存储执行以上所述方法的程序。
[0031]与现有技术相比,本专利技术的优势包括:
[0032]1)提出一种网络安全命名实体和关系的联合标注方法,该方法能够同时标注网络安全命名实体和关系,有利于网络安全命名实体和关系的联合抽取,有效规避了先实体后关系的串行抽取模式存在的误差传递问题;
[0033]2)引入迁移学习策略,可将自然语言领域内的抽取知识或经验迁移至网络安全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习的网络安全命名实体和关系联合抽取方法,其步骤包括:1)对网络安全威胁情报进行网络安全命名实体及关系联合标注,构建网络安全威胁情报语料库;2)基于自然语言语料库预训练深度神经网络,得到提取词语特征表示向量的预训练深度神经网络;3)将预训练深度神经网络与一分类器组合,构建初始联合抽取模型;4)基于网络安全威胁情报语料库,使用迁移学习方法对初始联合抽取模型进行训练,获取训练好的联合抽取模型;5)将目标数据输入训练好联合抽取模型,得到网络安全命名实体和关系联合抽取结果。2.如权利要求1所述的方法,其特征在于,通过以下步骤构建网络安全威胁情报语料库:1)从网络安全威胁情报博客或论坛中采集网络安全威胁情报,其中网络安全威胁情报包括:结构化网络安全威胁情报和非结构化网络安全威胁情报;2)对结构化网络安全威胁情报,利用情报自身的结构规则标注网络安全命名实体及关系,得到结构化网络安全威胁情报标注结果;3)利用标注工具,对部分非结构化网络安全威胁情报手工标注网络安全命名实体及关系,并基于总结的标注规则,自动标注剩余的非结构化网络安全威胁情报;4)结合手工标注结果与规则标注结果,得到非结构化网络安全威胁情报标注结果5)根据结构化网络安全威胁情报标注结果与非结构化网络安全威胁情报标注结果,构建网络安全威胁情报语料库。3.如权利要求2所述的方法,其特征在于,标注规则包括:正则表达式或标...

【专利技术属性】
技术研发人员:黄克振连一峰张海霞彭媛媛刘倩
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1