【技术实现步骤摘要】
网络安全字典数据集构建方法、装置、设备及存储介质
[0001]本公开涉及网络安全
,尤其涉及一种网络安全字典数据集构建方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]大语言模型
(Large Language Model,LLM)
在性能和智能表现上突飞猛进,成为各领域持续关注的热点技术
。
大语言模型是“大算力
+
大数据
+
强算法”结合的产物,通常是使用上达百亿参数的神经网络在大规模无标注数据上进行训练
、
学习
、
调整而成的生成式模型,可通过对话方式完成聊天
、
代码
、
图像等新数据的生成任务
。
通常大语言模型需要大量高质量的数据进行模型训练
,
以得到在各类自然语言处理应用上效果较好的模型
。
目前缺少开源的面向网络安全领域的通用大语言模型,而其中至关重要的一步就是如何高效构建面向网络安全领域通用大语言模型的高质量数据集
。
[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息
。
技术实现思路
[0004]本公开提供一种网络安全字典数据集构建方法
、
装置
、
设备及存储介质,至少在一定程度上实现高效构建高 ...
【技术保护点】
【技术特征摘要】
1.
一种网络安全字典数据集构建方法,其特征在于,包括:获取来自多个数据源的网络安全文本数据,其中,所述网络安全文本数据包括:多个文本段;将每个文本段输入至预先训练好的语言模型中,输出每个文本段对应的文本出现难度值,其中,每个文本段对应的文本出现难度值用于表征每个文本段在所述语言模型中出现的难度;将所述网络安全文本数据中文本出现难度值高于预设阈值的一个或多个文本段删除,得到构建网络安全字典的文本数据集
。2.
根据权利要求1所述的网络安全字典数据集构建方法,其特征在于,所述文本出现难度值为困惑度,所述困惑度用于表征所述语言模型对每个文本段出现的困惑程度
。3.
根据权利要求2所述的网络安全字典数据集构建方法,其特征在于,通过如下公式计算所述语言模型对每个文本段的困惑程度:其中,
P(T
1 T2...T
t
)
=
P(T2|T1)P(T3|T
1 T2)...P(T
t
|T
1 T2...T
t
‑1)
;其中,
PPL
表示语言模型对文本段
(T
1 T2...T
t
)
的困惑度;
P(T
1 T2...T
t
)
表示文本段
(T
1 T2...T
t
)
在语言模型中出现的概率;
T
t
表示文本段中第
t
个字;
P(T
t
|T
1 T2...T
t
‑1)
表示文本段在出现前面
T1到
T
t
‑1的前提下出现
T
t
的概率
。4.
根据权利要求1所述的网络安全字典数据集构建方法,其特征在于,在将每个文本段输入至预先训练好的语言模型中,输出每个文本段对应的文本出现难度值之前,所述方法还包括:获取语言模型训练数据,其中,所述语言模型训练数据为满足预设质量条件的文本数据;根据所述语言模型训练数据,训练得到所述语言模型
。5.
根据权利要求1所述的网络安全字典数据集构建方法,其特征在于,获取来自多个数据源的网络安全文本数据,包括:从多个数据源获取包含预设网络安全词的文本数据;对包含预设网络安全词的文本数据进行数据切片处理,得到多个文本段;计算各个文本段之间的相似度;根据各个文本段之间的相似度,对所述多个文本段进行去重处理
。6.
根据权利要求5所述的网络安全字典数据集构建方法,其特征在于,从多个数据源获取包含...
【专利技术属性】
技术研发人员:熊子晗,陈军,郭雪松,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。