网络安全字典数据集构建方法技术

技术编号:39873149 阅读:25 留言:0更新日期:2023-12-30 12:59
本公开提供了一种网络安全字典数据集构建方法

【技术实现步骤摘要】
网络安全字典数据集构建方法、装置、设备及存储介质


[0001]本公开涉及网络安全
,尤其涉及一种网络安全字典数据集构建方法

装置

设备及存储介质


技术介绍

[0002]大语言模型
(Large Language Model,LLM)
在性能和智能表现上突飞猛进,成为各领域持续关注的热点技术

大语言模型是“大算力
+
大数据
+
强算法”结合的产物,通常是使用上达百亿参数的神经网络在大规模无标注数据上进行训练

学习

调整而成的生成式模型,可通过对话方式完成聊天

代码

图像等新数据的生成任务

通常大语言模型需要大量高质量的数据进行模型训练
,
以得到在各类自然语言处理应用上效果较好的模型

目前缺少开源的面向网络安全领域的通用大语言模型,而其中至关重要的一步就是如何高效构建面向网络安全领域通用大语言模型的高质量数据集

[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息


技术实现思路

[0004]本公开提供一种网络安全字典数据集构建方法

装置

设备及存储介质,至少在一定程度上实现高效构建高质量的面向网络安全领域的数据集的问题

[0005]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得

[0006]根据本公开的一个方面,提供了一种网络安全字典数据集构建方法,包括:获取来自多个数据源的网络安全文本数据,其中,网络安全文本数据包括:多个文本段;将每个文本段输入至预先训练好的语言模型中,输出每个文本段对应的文本出现难度值,其中,每个文本段对应的文本出现难度值用于表征每个文本段在语言模型中出现的难度;将网络安全文本数据中文本出现难度值高于预设阈值的一个或多个文本段删除,得到构建网络安全字典的文本数据集

[0007]在一些实施例中,上述文本出现难度值为困惑度,困惑度用于表征语言模型对每个文本段出现的困惑程度

[0008]在一些实施例中,通过如下公式计算语言模型对每个文本段的困惑程度:
[0009][0010]其中,
P(T1T2…
T
t
)

P(T2|T1)P(T3|T1T2)

P(T
t
|T1T2…
T
t_1
)

[0011]其中,
PPL
表示语言模型对文本段
(T1T2…
T
t
)
的困惑度;
P(T1T2…
T
t
)
表示文本段
(T1T2…
T
t
)
在语言模型中出现的概率;
T
t
表示文本段中第
t
个字;
P(T
t
|T1T2…
T
t
‑1)
表示文本段在出现前面
T1到
T
t
‑1的前提下出现
T
t
的概率

[0012]在一些实施例中,在将每个文本段输入至预先训练好的语言模型中,输出每个文
本段对应的文本出现难度值之前,方法还包括:获取语言模型训练数据,其中,语言模型训练数据为满足预设质量条件的文本数据;根据语言模型训练数据,训练得到语言模型

[0013]在一些实施例中,获取来自多个数据源的网络安全文本数据,包括:从多个数据源获取包含预设网络安全词的文本数据;对包含预设网络安全词的文本数据进行数据切片处理,得到多个文本段;计算各个文本段之间的相似度;根据各个文本段之间的相似度,对多个文本段进行去重处理

[0014]在一些实施例中,从多个数据源获取包含预设网络安全词的文本数据,包括:从多个数据源采集原始文本数据;将多个数据源采集的原始文本数据,输入到预先训练好的网络安全文本提取模型中,提取包含预设网络安全词的文本数据

[0015]在一些实施例中,计算各个文本段之间的相似度,包括:计算每个文本段对应的哈希值;根据每个文本段对应的哈希值,计算各个文本段之间的海明距离;将各个文本段之间的海明距离确定为各个文本段之间的相似度

[0016]在一些实施例中,在计算各个文本段之间的相似度之前,方法还包括:对每个文本段进行如下一种或多种预处理:大写字母转换为小写字母

繁体字转换为简体字

数字替换为占位符

去除标点符号

去除空格符号

去除特殊字符

[0017]在一些实施例中,数据源包括如下至少之一:爬虫数据

网络安全情报数据

网络安全漏洞数据

[0018]在一些实施例中,在将网络安全文本数据中文本出现难度值高于预设阈值的一个或多个文本段删除,得到构建网络安全字典的文本数据集之后,方法还包括:生成文本数据集中每个文本段对应的编码标识,其中,每个文本段对应的编码标识包括:起始编码标识

结束编码标识以及每个文本段中每个字对应的编码标识,起始编码标识位于文本段的起始位置,结束编码标识位于文本段的结尾位置

[0019]根据本公开的另一个方面,还提供了一种网络安全字典数据集构建装置,包括:文本数据获取模块,用于获取来自多个数据源的网络安全文本数据,其中,网络安全文本数据包括:多个文本段;文本出现难度值输出模块,用于将每个文本段输入至预先训练好的语言模型中,输出每个文本段对应的文本出现难度值,其中,每个文本段对应的文本出现难度值用于表征每个文本段在语言模型中出现的难度;文本数据集构建模块,用于将网络安全文本数据中文本出现难度值高于预设阈值的一个或多个文本段删除,得到构建网络安全字典的文本数据集

[0020]根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的网络安全字典数据集构建方法

[0021]根据本公开的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的网络安全字典数据集构建方法

[0022]根据本公开的另一个方面,还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种网络安全字典数据集构建方法,其特征在于,包括:获取来自多个数据源的网络安全文本数据,其中,所述网络安全文本数据包括:多个文本段;将每个文本段输入至预先训练好的语言模型中,输出每个文本段对应的文本出现难度值,其中,每个文本段对应的文本出现难度值用于表征每个文本段在所述语言模型中出现的难度;将所述网络安全文本数据中文本出现难度值高于预设阈值的一个或多个文本段删除,得到构建网络安全字典的文本数据集
。2.
根据权利要求1所述的网络安全字典数据集构建方法,其特征在于,所述文本出现难度值为困惑度,所述困惑度用于表征所述语言模型对每个文本段出现的困惑程度
。3.
根据权利要求2所述的网络安全字典数据集构建方法,其特征在于,通过如下公式计算所述语言模型对每个文本段的困惑程度:其中,
P(T
1 T2...T
t
)

P(T2|T1)P(T3|T
1 T2)...P(T
t
|T
1 T2...T
t
‑1)
;其中,
PPL
表示语言模型对文本段
(T
1 T2...T
t
)
的困惑度;
P(T
1 T2...T
t
)
表示文本段
(T
1 T2...T
t
)
在语言模型中出现的概率;
T
t
表示文本段中第
t
个字;
P(T
t
|T
1 T2...T
t
‑1)
表示文本段在出现前面
T1到
T
t
‑1的前提下出现
T
t
的概率
。4.
根据权利要求1所述的网络安全字典数据集构建方法,其特征在于,在将每个文本段输入至预先训练好的语言模型中,输出每个文本段对应的文本出现难度值之前,所述方法还包括:获取语言模型训练数据,其中,所述语言模型训练数据为满足预设质量条件的文本数据;根据所述语言模型训练数据,训练得到所述语言模型
。5.
根据权利要求1所述的网络安全字典数据集构建方法,其特征在于,获取来自多个数据源的网络安全文本数据,包括:从多个数据源获取包含预设网络安全词的文本数据;对包含预设网络安全词的文本数据进行数据切片处理,得到多个文本段;计算各个文本段之间的相似度;根据各个文本段之间的相似度,对所述多个文本段进行去重处理
。6.
根据权利要求5所述的网络安全字典数据集构建方法,其特征在于,从多个数据源获取包含...

【专利技术属性】
技术研发人员:熊子晗陈军郭雪松
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1