基于迁移学习的网络安全命名实体和关系联合抽取方法及装置制造方法及图纸

技术编号：31826721 阅读：18 留言：0更新日期：2022-01-12 12:55

本发明专利技术公开了一种基于迁移学习的网络安全命名实体和关系联合抽取方法及装置，包括：对网络安全威胁情报进行网络安全命名实体及关系联合标注，构建网络安全威胁情报语料库；基于自然语言语料库预训练深度神经网络；将预训练深度神经网络与一分类器组合，构建初始联合抽取模型；基于网络安全威胁情报语料库，对初始联合抽取模型进行训练；将目标数据输入训练好的联合抽取模型，得到网络安全命名实体和关系联合抽取结果。本发明专利技术能够同时标注网络安全命名实体和关系，有效规避先实体后关系的串行抽取模式存在的误差传递问题，降低网络安全领域实体及关系抽取对专家经验的依赖，增强模型的移植性，减少网络安全领域内标注数据集少对模型训练带来的困扰。对模型训练带来的困扰。对模型训练带来的困扰。

全部详细技术资料下载

【技术实现步骤摘要】
基于迁移学习的网络安全命名实体和关系联合抽取方法及装置

[0001]本专利技术属于网络安全
，尤其涉及一种基于迁移学习的网络安全命名实体和关系联合抽取方法及装置。

技术介绍

[0002]随着信息技术的飞速发展，网络攻击者可利用的零日漏洞、攻击方法、隐藏手段均呈现出多元化和多样化的发展趋势。新型的攻击趋势带来了严峻的攻击后果，如国内外高级持续性威胁(APT，Advanced Persistent Threat)相关公开报告的数量逐年增加。新的攻击形势和严重的攻击后果凸显出传统单点防护的弊端越来越明显，无法及时准确地应对新出现的网络安全威胁，攻防不对称态势也越来越严重。
[0003]网络安全威胁情报作为一种针对已存在或即将出现的对资产构成威胁或危害的背景、机制、指标、影响和可以实施的防护建议等证据知识，可以为资产拥有者针对威胁或危害做出防护决策的依据，在一定程度上缓解了攻防不对称的态势，典型的如abuse.ch针对臭名昭著的僵尸网络Zeus进行追踪，并将新发现的命令和控制(C&C)服务器作为结构化网络安全威胁情报进行共享，从而对全球僵尸网络Zeus的防御起到了重要作用。
[0004]网络安全威胁情报按照结构形式分类，可分为结构化网络安全威胁情报和非结构化网络安全威胁情报，其中，结构化网络安全威胁情报的信息准确、规范性强，但由于缺少大量的网络安全威胁背景信息，不易与其他网络安全威胁情报数据关联分析；非结构化网络安全威胁情报具有丰富的网络安全威胁背景信息，但多以文档报告的形式出现，在利用...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习的网络安全命名实体和关系联合抽取方法，其步骤包括：1)对网络安全威胁情报进行网络安全命名实体及关系联合标注，构建网络安全威胁情报语料库；2)基于自然语言语料库预训练深度神经网络，得到提取词语特征表示向量的预训练深度神经网络；3)将预训练深度神经网络与一分类器组合，构建初始联合抽取模型；4)基于网络安全威胁情报语料库，使用迁移学习方法对初始联合抽取模型进行训练，获取训练好的联合抽取模型；5)将目标数据输入训练好联合抽取模型，得到网络安全命名实体和关系联合抽取结果。2.如权利要求1所述的方法，其特征在于，通过以下步骤构建网络安全威胁情报语料库：1)从网络安全威胁情报博客或论坛中采集网络安全威胁情报，其中网络安全威胁情报包括：结构化网络安全威胁情报和非结构化网络安全威胁情报；2)对结构化网络安全威胁情报，利用情报自身的结构规则标注网络安全命名实体及关系，得到结构化网络安全威胁情报标注结果；3)利用标注工具，对部分非结构化网络安全威胁情报手工标注网络安全命名实体及关系，并基于总结的标注规则，自动标注剩余的非结构化网络安全威胁情报；4)结合手工标注结果与规则标注结果，得到非结构化网络安全威胁情报标注结果5)根据结构化网络安全威胁情报标注结果与非结构化网络安全威胁情报标注结果，构建网络安全威胁情报语料库。3.如权利要求2所述的方法，其特征在于，标注规则包括：正则表达式或标...

【专利技术属性】
技术研发人员：黄克振，连一峰，张海霞，彭媛媛，刘倩，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人