针对不平衡样本分布的漏洞分类方法、装置及计算机设备制造方法及图纸

技术编号：41741177 阅读：5 留言：0更新日期：2024-06-19 13:01

本发明专利技术属于数据安全领域，涉及一种针对不平衡样本分布的漏洞分类方法、装置及计算机设备；所述方法包括获取漏洞分类数据集，并从中选出样本数量少的漏洞类别，构建少样本漏洞分类数据集；将少样本漏洞分类数据集的漏洞描述输入到漏洞描述生成模型中；将生成的漏洞描述输入到分类模块中，对漏洞描述进行筛选；将筛选后的漏洞描述、对应的漏洞危险等级、所属的漏洞类别作为新的样本加入漏洞分类数据集中，得到漏洞分类增强数据集；将漏洞危险等级作为外部特征，与漏洞描述特征进行融合表示，构建并训练漏洞描述分类模型，将训练好的模型应用于漏洞分类。本发明专利技术解决了安全漏洞分类数据集存在的样本分布不平衡问题。使模型能更好地学会不同类别漏洞之间的差异。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据安全领域，具体涉及一种针对不平衡样本分布的漏洞分类方法、装置及计算机设备。

技术介绍

1、对漏洞进行明确的分类是漏洞分析与管理的基础。漏洞分类的目的是使用安全漏洞数据库中的样本数据来确定漏洞类别，完成样本数据的归类工作。但安全漏洞数据库存在极大的样本分布不平衡问题，这导致分类模型对样本数据较少的漏洞分类准确度较低。

2、针对漏洞样本分布不平衡问题，有的研究人员采用同义词替换或回译的方法，在不改变样本数据结构的情况下，对较少的样本数据进行同义词替换，以此来增加样本数量。但这类方法存在的问题在于替换后的少样本数据与源数据之间相似度过高，分类模型的过拟合度会大大增高。也有的研究人员通过融合外部特征来提高模型提取少样本数据语义特征的能力，但这类方法的适用性较差。

技术实现思路

1、有鉴于此，为了解决同义词替换或回译的方法所带来的分类模型过拟合度过高的问题，本专利技术提出了针对不平衡样本分布的漏洞分类方法、装置及计算机设备，在改变样本数据结构的情况下，使用预训练模型生成少样本数据，从而减少分类模型的过拟合概率。同时，为解决融合外部特征方法适用性差的问题，本专利技术提出了一种融合漏洞危险等级的漏洞分类模型，融合漏洞危险等级的分类模型能够捕捉漏洞危险等级与样本数据语义特征之间的联系，以此提高模型的适用性和模型提取少样本数据语义特征的能力。

2、为达到上述目的，本专利技术提供如下技术方案：

3、在本专利技术的第一方面，本专利技术提供了一种针对不

4、s1：获取漏洞分类数据集，并从中选出样本数量少的漏洞类别，构建少样本漏洞分类数据集；

5、s2：将少样本漏洞分类数据集的漏洞描述输入到漏洞描述生成模型中，输出得到针对各类别生成的漏洞描述；

6、s3：将生成的漏洞描述输入到分类模块中，根据分类模块预测的漏洞类别与其所属漏洞类别的异同，对漏洞描述进行筛选，得到筛选后的漏洞描述；

7、s4：将筛选后的漏洞描述以及对应的漏洞危险等级、所属的漏洞类别作为新的样本加入漏洞分类数据集中，得到漏洞分类增强数据集；

8、s5：将漏洞危险等级作为外部特征，与漏洞描述特征进行融合表示，构建并训练漏洞描述分类模型，将训练好的模型应用于漏洞分类。

9、在本专利技术的第二方面，本专利技术还提供了一种针对不平衡样本分布的漏洞分类装置，所述装置包括：

10、数据获取模块，从漏洞分类数据集中挑选样本数量较少的漏洞类别，获得少样本漏洞数据集；

11、数据生成模块，将少样本漏洞数据集的漏洞描述输入到生成模型中，输出得到针对各类别生成的漏洞描述；

12、数据筛选模块，将生成的漏洞描述输入到分类模块中，根据分类模块预测的漏洞类别与其所属漏洞类别的异同，对漏洞描述进行筛选，得到筛选后的漏洞描述；

13、数据增强模块，将筛选后的漏洞描述以及对应的漏洞危险等级、所属的漏洞类别作为新的样本加入漏洞分类数据集中，得到漏洞分类增强数据集；

14、数据分类模块，将漏洞危险等级作为外部特征，与漏洞描述特征进行融合表示，构建并训练漏洞描述分类模型，将训练好模型应用于漏洞分类。

15、在本专利技术的第三方面，本专利技术还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如本专利技术第一方面所述的针对不平衡样本分布的漏洞分类方法。

16、本专利技术至少具有以下有益性效果：

17、本专利技术针对漏洞数据集中样本分布不平衡的问题，采用一种基于生成模型的过采样方法对漏洞描述进行生成，达到对漏洞描述分类模型训练进行数据增强的目的。并通过对生成漏洞描述的筛选，减少其中低质漏洞描述对后续漏洞分类任务学习的影响。

18、本专利技术将漏洞危险等级作为外部特征与漏洞描述的文本特征进行融合，使模型能够更好地学习两者之间的内在关联,从而更准确地捕捉不同类别漏洞的差异特征，提高了漏洞描述分类模型的分类准确度。

本文档来自技高网...

【技术保护点】

1.一种针对不平衡样本分布的漏洞分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种针对不平衡样本分布的漏洞分类方法，其特征在于，所述步骤S2包括：

3.根据权利要求2所述的一种针对不平衡样本分布的漏洞分类方法，其特征在于，所述步骤S23包括将预测模块输出的下一个预测词向量依次拼接在原始的漏洞描述向量后，当拼接后的漏洞描述向量达到第二预设长度时，即为对应生成后的漏洞描述。

4.根据权利要求1所述的一种针对不平衡样本分布的漏洞分类方法，其特征在于，所述步骤S3包括：

5.根据权利要求1所述的一种针对不平衡样本分布的漏洞分类方法，其特征在于，所述步骤S5包括：

6.一种针对不平衡样本分布的漏洞分类装置，其特征在于，所述装置包括：

7.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至5任一所述的针对不平衡样本分布的漏洞分类方法。

【技术特征摘要】

1.一种针对不平衡样本分布的漏洞分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种针对不平衡样本分布的漏洞分类方法，其特征在于，所述步骤s2包括：

3.根据权利要求2所述的一种针对不平衡样本分布的漏洞分类方法，其特征在于，所述步骤s23包括将预测模块输出的下一个预测词向量依次拼接在原始的漏洞描述向量后，当拼接后的漏洞描述向量达到第二预设长度时，即为对应生成后的漏洞描述。

4.根据权利要求1所述的一种针对不平衡样...

【专利技术属性】
技术研发人员：钱鹰，朱思宇，韦庆杰，刘歆，陈奉，吴钒，万邦睿，林森，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人