基于知识蒸馏的轻量级源代码漏洞检测方法技术

技术编号：36907472 阅读：16 留言：0更新日期：2023-03-18 09:26

本发明专利技术涉及一种基于知识蒸馏的轻量级源代码漏洞检测方法，包括以下步骤：1、对漏洞检测领域的有标签源代码数据集进行数据预处理，并结合训练过的语言模型来进行单词级替换，进行数据增强得到训练数据集；2、选取教师模型并建立学生模型，对学生模型进行知识蒸馏，获得初步学生模型；3、利用训练数据集对初步学生模型再次进行知识蒸馏，得到的最终学生模型即为轻量级源代码漏洞检测模型；4、利用漏洞检测模型进行漏洞检测，得到检测结果。本发明专利技术可以有效的解决人工智能漏洞检测中神经网络的深度过深导致的时间开销过大的问题，使得模型的复杂度减小，也缩短了训练时间，使模型更为方便地在资源受限地设备上部署和使用，增加了适用场景。场景。场景。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识蒸馏的轻量级源代码漏洞检测方法

[0001]本专利技术涉及软件漏洞检测领域，具体的讲是一种基于知识蒸馏的轻量级源代码漏洞检测方法。

技术介绍

[0002]软件漏洞事网络攻击频繁的一个根本原因，尽管学术界和工业界都在努力提高软件质量，漏洞仍然是一个大问题。每年，在CVE中报告了许多漏洞，考虑到漏洞不可避免，尽早发现它们是很重要的。近年来，为了优化软件测试过程，提高软件的质量和可靠性，许多人尝试开发更有效的软件缺陷预测方法。
[0003]过去两年，自然语言处理(NLP)中的迁移学习方法兴起，大规模预先训练的语言模型成为许多NLP任务的基本工具，最近，同样的思想已被应用于源代码，并取得了令人鼓舞的结果。
[0004]目前，在源代码漏洞检测研究中，研究人员结合预训练模型，通过大量样本训练神经网络模型，一定程度上提升了代码缺陷检测的速度。但随着神经网络的加深，网络模型的效果也越来越好，但模型深度深容易导致过拟合，而且计算量和存储量大，网络卷积层的增加也会显著的增加网络的计算成本和参数规模，而这种成本的增加将会严重制约基于深度卷积网络的源代码漏洞检测模型在计算资源有限的设备上的发展和应用以使模型获取到更好的检测效果，这些问题增加了基于深度学习的源代码漏洞检测的难度。

技术实现思路

[0005]本专利技术要解决的技术问题是针对以上不足，提供一种基于知识蒸馏的轻量级源代码漏洞检测方法。
[0006]为解决以上技术问题，本专利技术采用以下技术方案：
[0007]基于知识蒸馏的轻量...

【技术保护点】

【技术特征摘要】
1.基于知识蒸馏的轻量级源代码漏洞检测方法，其特征在于，包括以下步骤：步骤1、对漏洞检测领域的有标签源代码数据集进行数据预处理，并结合训练过的语言模型来进行单词级替换，进行数据增强得到训练数据集；步骤2、选取教师模型并建立学生模型，采用漏洞检测领域的大规模无标签文本数据集对学生模型进行知识蒸馏，获得可以针对下游任务进行微调的初步学生模型；步骤3、利用步骤1的训练数据集对初步学生模型再次进行知识蒸馏，得到的最终学生模型即为轻量级源代码漏洞检测模型；步骤4、利用轻量级源代码漏洞检测模型进行漏洞检测，得到检测结果。2.根据权利要求1所述的基于知识蒸馏的轻量级源代码漏洞检测方法，其特征在于，所述步骤1中的预处理具体为:对数据集进行提取库/API函数调用，对调用的程序进行切片，再将针对同一个库/API函数调用的多个切片组合形成与语义相关的多行代码文本。3.根据权利要求1所述的基于知识蒸馏的轻量级源代码漏洞检测方法，其特征在于，所述步骤2包括以下步骤：步骤2.1、选取教师模型并建立学生模型，学生模型包括从教师模型的N个transformer层中选出的M个transformer层，对学生模型执行transformer蒸馏；步骤2.2、学生模型学习教师模型的中间结构，具体包括对学生模型执行基于注意力的蒸馏和基于隐藏状态的蒸馏；步骤2.3、学生模型学习教师模型的嵌入层，得到可以针对下游任务进行微调的初步学生模型。4.根据权利要求1所述的基于知识蒸馏的轻量级源代码漏洞检测方法，其特征在于，所述步骤2.1中，对学生模型执行transformer蒸馏时，学生模型通过最小化以下目标从教师模型那里获得知识：其中，L
layer
表示给定模型层的损失函数，f
m
(x)表示从第m层导出的行为函数，λ
m
表示第m层蒸馏的重要性的超参数层。5.根据权利要求1所述的基于知识蒸馏的轻量级源代码漏洞检测方法，其特征在于，步骤2.2中，学生模型学习在教师网络中拟合多头注意力矩阵，基于注意力的蒸馏目标定义为：其中h是注意力头的数量，和...

【专利技术属性】
技术研发人员：汤俊伟，皮乔森，彭涛，胡新荣，何儒汉，周思杰，
申请(专利权)人：武汉纺织大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人