一种提高JIT缺陷预测性能的方法技术

技术编号：37819927 阅读：10 留言：0更新日期：2023-06-09 09:53

本发明专利技术公开了一种提高JIT缺陷预测性能的方法，包括：获取CLI模型的输入信息，其中输入信息包含由SZZ注释的有噪声标签实例的数据集；采用不平衡数据概率预测组件获得数据集的预测概率矩阵；根据预测概率矩阵使用自信学习组件估计噪声标签和真实标签的联合分布，重新训练自信学习组件中的分类器；基于分类器判断数据集中的缺陷修改是否正确；根据分类器的预测结果，判断未被标签的缺陷修改是否正确。本方法可以使用CLI作为我们的去噪方法，通过将CLI应用于JIT预测，可以获得高质量的训练集，从而使JIT预测模型能够学习到更准确的类别信息，从而提高预测性能。从而提高预测性能。从而提高预测性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种提高JIT缺陷预测性能的方法

[0001]本专利技术涉及软件测试
，尤其涉及一种提高JIT缺陷预测性能的方法。

技术介绍

[0002]软件缺陷预测的目的是提前预测可能存在缺陷的软件实体。其基本思想是从软件项目的历史数据中提取特征来表示预测的软件实体，然后将这些特征输入分类器进行训练，得到预测模型，从而预测新生成的软件实体上出现bug的可能性。该方法可以优化资源分配，提高代码质量。传统的缺陷预测模型以文件、模块或包等粗粒度的软件实体为目标。这些用于粗粒度软件实体的模型在实际应用中面临挑战，例如，软件缺陷预测模型可能会将一个巨大的文件预测为缺陷，但对于开发人员而言，浏览整个文件以识别缺陷会消耗大量时间和精力。为了应对挑战，提出了JIT缺陷预测模型，在该模型中，预测的软件实体是由多个代码更改提交而组成的代码更改组合，并且为每个更改提供了一个名为更改分类的模型，以识别代码的潜在错误。
[0003]在JIT缺陷预测中，标签变化需要更加关注。许多JIT缺陷预测模型都使用软件缺陷智能分析技术来标记数据集。但是，SZZ的性能受到很多噪音的影响，这会导致JIT缺陷预测性能显著降低。最近的研究结果表明，绝大多数由SZZ方法自动识别的非功能性bug诱导的提交是假阳性。标签噪声引起的精度下降被认为比特征噪声等其他噪声更有害，在存在噪声标签的情况下，分类模型容易受到噪声标签的影响，从而导致性能下降。

技术实现思路

[0004]根据现有技术存在的问题，本专利技术公开了一种提高JIT缺陷预测性能的方法，具体包括如...

【技术保护点】

【技术特征摘要】
1.一种提高JIT缺陷预测性能的方法，其特征在于包括：获取CLI模型的输入信息，其中输入信息包含由SZZ注释的有噪声标签实例的数据集；采用不平衡数据概率预测组件获得数据集的预测概率矩阵；根据预测概率矩阵使用自信学习组件估计噪声标签和真实标签的联合分布，重新训练自信学习组件中的分类器；基于分类器判断数据集中的缺陷修改是否正确；根据分类器的预测结果，判断未被标签的缺陷修改是否正确。2.根据权利要求1所述的一种提高JIT缺陷预测性能的方法，其特征在于：采用不平衡数据概率预测组件获得数据集的预测概率矩阵采用如下方式：将输入的噪声实例数据集X平均分配成K份，将其中K
‑
1份作为训练集，其余将作为测试集；对训练集进行随机欠采样获得均衡训练集，随机删除多数类中的数据，直到多数类中的数据量大约等于少数类中的数据量；在平衡...

【专利技术属性】
技术研发人员：李辉，戚学欣，徐志豪，郭世凯，李晓晨，江贺，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人