一种安全实体检测方法及装置制造方法及图纸

技术编号:32240668 阅读:22 留言:0更新日期:2022-02-09 17:44
本申请实施例提供一种安全实体检测方法及装置,涉及网络安全技术领域,该安全实体检测方法包括:先获取待检测数据;并对待检测数据进行预处理,得到预处理数据;然后通过预先构建的语义相关词汇查询模型对预处理数据进行处理,得到词汇特征;进一步地,通过预先构建的安全实体检测模型对词汇特征进行处理,得到安全实体检测结果,能够快速准确地对安全实体进行检测,检测误差小,检测效率高。检测效率高。检测效率高。

【技术实现步骤摘要】
一种安全实体检测方法及装置


[0001]本申请涉及网络安全
,具体而言,涉及一种安全实体检测方法及装置。

技术介绍

[0002]命名实体识别(NER)在网络安全领域非常重要。它帮助研究人员从非结构化文本源中提取网络威胁信息。现有的实体检测方法,通常为基于统计词典进行命名实体检测,具体地,为每一种命名实体构造的指称词典,基于该指称词典进行命名实体检测。然而在实践中发现,不同的词汇由于语境变化,存在检测错误的情况,从而降低检测效率。

技术实现思路

[0003]本申请实施例的目的在于提供一种安全实体检测方法及装置,能够快速准确地对安全实体进行检测,检测误差小,检测效率高。
[0004]本申请实施例第一方面提供了一种安全实体检测方法,包括:
[0005]获取待检测数据;
[0006]对所述待检测数据进行预处理,得到预处理数据;
[0007]通过预先构建的语义相关词汇查询模型对所述预处理数据进行处理,得到词汇特征;
[0008]通过预先构建的安全实体检测模型对所述词汇特征进行处理,得到安全实体检测结果。
[0009]在上述实现过程中,先获取待检测数据;并对待检测数据进行预处理,得到预处理数据;然后通过预先构建的语义相关词汇查询模型对预处理数据进行处理,得到词汇特征;进一步地,通过预先构建的安全实体检测模型对词汇特征进行处理,得到安全实体检测结果,能够快速准确地对安全实体进行检测,检测误差小,检测效率高。
[0010]进一步地,所述方法还包括:
>[0011]获取用于训练模型的训练数据、原始实体检测模型以及原始语义模型;
[0012]根据所述训练数据,通过无监督的学习方式训练所述原始语义模型,得到语义相关词汇查询模型;
[0013]将所述训练数据输入至所述语义相关词汇查询模型中进行处理,得到外部词汇特征;
[0014]通过所述外部词汇特征对所述原始实体检测模型进行训练,得到训练好的安全实体检测模型。
[0015]进一步地,所述将所述训练数据输入至所述语义相关词汇查询模型中进行处理,得到词汇特征样本,包括:
[0016]将所述训练数据输入至所述语义相关词汇查询模型中进行处理,得到单词向量以及所述单词向量与其他单词向量之间的余弦相似度;
[0017]根据所述单词向量以及所述余弦相似度,确定所述单词向量对应的外部语义相关
词汇;
[0018]根据所述外部语义相关词汇计算所述单词向量的平均词向量,得到外部词汇特征。
[0019]进一步地,所述通过所述外部词汇特征对所述原始实体检测模型进行训练,得到训练好的安全实体检测模型,包括:
[0020]将所述训练数据输入到编码模型中进行处理,得到单词编码向量;其中,所述预先构建的安全实体检测模型包括所述编码模型和分类层,所述分类层包括不同输入的第一全连接层和第二全连接层;
[0021]将所述单词编码向量输入至所述第一全连接层中进行处理,得到第一处理结果,以及将所述外部词汇特征输入至所述第二全连接层中进行处理,得到第二处理结果;
[0022]根据所述第一处理结果和所述第二处理结果计算总损失;
[0023]根据所述总损失调整所述原始实体检测模型的模型参数,得到训练好的安全实体检测模型。
[0024]在上述实现过程中,能够通过合作学习的方式对原始实体检测模型进行训练,从而有利于提升安全实体检测模型的检测精度,使得实体检测更为准确。
[0025]进一步地,所述根据所述第一处理结果和所述第二处理结果计算总损失,包括:
[0026]根据所述第一处理结果计算第一交叉熵损失,并根据所述第二处理结果计算第二交叉熵损失,以及根据所述第一处理结果和所述第二处理结果计算合作学习的损失;
[0027]根据所述第一交叉熵损失、所述第一交叉熵损失以及所述合作学习的损失计算总损失。
[0028]本申请实施例第二方面提供了一种安全实体检测装置,所述安全实体检测装置包括:
[0029]第一获取单元,用于获取待检测数据;
[0030]预处理单元,用于对所述待检测数据进行预处理,得到预处理数据;
[0031]第一处理单元,用于通过预先构建的语义相关词汇查询模型对所述预处理数据进行处理,得到词汇特征;
[0032]第二处理单元,用于通过预先构建的安全实体检测模型对所述词汇特征进行处理,得到安全实体检测结果。
[0033]在上述实现过程中,第一获取单元获取待检测数据;预处理单元对待检测数据进行预处理,得到预处理数据;第一处理单元通过预先构建的语义相关词汇查询模型对预处理数据进行处理,得到词汇特征;第二处理单元通过预先构建的安全实体检测模型对词汇特征进行处理,得到安全实体检测结果,能够快速准确地对安全实体进行检测,检测误差小,检测效率高。
[0034]进一步地,所述安全实体检测装置还包括:
[0035]第二获取单元,用于获取用于训练模型的训练数据、原始实体检测模型以及原始语义模型;
[0036]第一训练单元,用于根据所述训练数据,通过无监督的学习方式训练所述原始语义模型,得到语义相关词汇查询模型;
[0037]第三处理单元,用于将所述训练数据输入至所述语义相关词汇查询模型中进行处
理,得到外部词汇特征;
[0038]第二训练单元,用于通过所述外部词汇特征对所述原始实体检测模型进行训练,得到训练好的安全实体检测模型。
[0039]进一步地,所述第三处理单元包括:
[0040]第一子单元,用于将所述训练数据输入至所述语义相关词汇查询模型中进行处理,得到单词向量以及所述单词向量与其他单词向量之间的余弦相似度;
[0041]第二子单元,用于根据所述单词向量以及所述余弦相似度,确定所述单词向量对应的外部语义相关词汇;
[0042]第三子单元,用于根据所述外部语义相关词汇计算所述单词向量的平均词向量,得到外部词汇特征。
[0043]本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的安全实体检测方法。
[0044]本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的安全实体检测方法。
附图说明
[0045]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0046]图1为本申请实施例提供的一种安全实体检测方法的流程示意图;
[0047]图2为本申请实施例提供的一种安本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种安全实体检测方法,其特征在于,包括:获取待检测数据;对所述待检测数据进行预处理,得到预处理数据;通过预先构建的语义相关词汇查询模型对所述预处理数据进行处理,得到词汇特征;通过预先构建的安全实体检测模型对所述词汇特征进行处理,得到安全实体检测结果。2.根据权利要求1所述的安全实体检测方法,其特征在于,所述方法还包括:获取用于训练模型的训练数据、原始实体检测模型以及原始语义模型;根据所述训练数据,通过无监督的学习方式训练所述原始语义模型,得到语义相关词汇查询模型;将所述训练数据输入至所述语义相关词汇查询模型中进行处理,得到外部词汇特征;通过所述外部词汇特征对所述原始实体检测模型进行训练,得到训练好的安全实体检测模型。3.根据权利要求2所述的安全实体检测方法,其特征在于,所述将所述训练数据输入至所述语义相关词汇查询模型中进行处理,得到词汇特征样本,包括:将所述训练数据输入至所述语义相关词汇查询模型中进行处理,得到单词向量以及所述单词向量与其他单词向量之间的余弦相似度;根据所述单词向量以及所述余弦相似度,确定所述单词向量对应的外部语义相关词汇;根据所述外部语义相关词汇计算所述单词向量的平均词向量,得到外部词汇特征。4.根据权利要求2所述的安全实体检测方法,其特征在于,所述通过所述外部词汇特征对所述原始实体检测模型进行训练,得到训练好的安全实体检测模型,包括:将所述训练数据输入到编码模型中进行处理,得到单词编码向量;其中,所述预先构建的安全实体检测模型包括所述编码模型和分类层,所述分类层包括不同输入的第一全连接层和第二全连接层;将所述单词编码向量输入至所述第一全连接层中进行处理,得到第一处理结果,以及将所述外部词汇特征输入至所述第二全连接层中进行处理,得到第二处理结果;根据所述第一处理结果和所述第二处理结果计算总损失;根据所述总损失调整所述原始实体检测模型的模型参数,得到训练好的安全实体检测模型。5.根据权利要求4所述的安全实体检测方法,其特征在于,所述根据所述第一处理结果和所述第二处理结果计算总损失,包括:根据所述第一处理结果计算第一...

【专利技术属性】
技术研发人员:姚剑文潘季明
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1