一种基于Adaboost的软件缺陷预测方法技术

技术编号：25689814 阅读：26 留言：0更新日期：2020-09-18 21:01

本发明专利技术公开了一种基于Adaboost的软件缺陷预测方法，首先将数据集中的大类样本按信息量大小分成若干个组，接着分别用每组数据训练当前集成分类器获得本轮样本惩罚参数；再用本组数据训练并由本轮得到的样本惩罚参数计算本轮迭代中的分类器和误差率，最终获得分类器。本发明专利技术在数据训练过程中样本惩罚参数只代表了本轮迭代的训练数据在当前集成分类器中是否能够被正确分类。并且在数据处理过程中基于朴素贝叶斯理论识别出并删除数据中信息量小的样本，这些样本是造成数据类不平衡、噪声等问题的主要原因，因此，本发明专利技术的数据处理方法有效地同时解决了类不平衡问题、噪声等数据分布问题，有效地提高了数据处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Adaboost的软件缺陷预测方法
本专利技术涉及软件可靠性与软件缺陷预测
，更具体的说是涉及一种基于Adaboost的软件缺陷预测方法。
技术介绍
由于软件产品抽象的特殊性，人们不能直观地找出并修改软件中潜藏的所有缺陷，保证软件产品的可靠性。要获得一个高可靠性的软件产品，只能通过控制软件的设计、开发、测试过程来实现。其中，软件测试是发现缺陷、提高软件可靠性的重要手段，全面详细的软件测试可以在软件投入使用前找出软件中85％～95％的缺陷，最大程度地保证软件可靠运行，降低由于软件故障或失效造成的财产损失甚至人员伤亡。然而，随着软件的体量越来越大，测试的难度也越来越高，有限的资源不能再支持测试人员全面详细地测试系统中的每一个软件模块。软件缺陷预测领域中面对的重大阻碍之一即历史数据类不平衡分布问题。类不平衡问题是指，在软件缺陷预测的过程中，软件缺陷数据的质量直接影响着分类算法的效果，会导致关键模块不能得到充分的测试，一旦带有缺陷的软件投入使用，将引发严重后果。软件缺陷数据对分类算法最显著的影响就是数据类分布的不平衡问题，但也有研究表明阻碍分类结果进一步优化的数据问题并不单纯是由类不平衡一个问题造成的，样本类重叠、噪声、离群点等问题往往会伴随着数据类不平衡问题出现，并影响分类算法的分类效果。但是，现有数据处理方法都是对数据类不平衡分布、噪声处理等某一种问题提出的，不能够同时解决数据中的噪声、冗余等多种分布问题，因此，选择一种数据处理方法难以将历史数据处理达到最理想程度。对于现有的基于Adaboo...

【技术保护点】
1.一种基于Adaboost的软件缺陷预测方法，其特征在于，包括如下具体步骤：/n步骤1：采集软件缺陷数据组成原始训练数据集，对原始训练数据集进行分类划分，获得n组训练数据组；/n步骤2：遍历n组所述训练数据组进行训练，获得若干弱分类器，将若干所述弱分类器融合获得集成分类器；/n步骤3：将软件运行数据输入所述集成分类器，输出软件缺陷预测结果。/n

【技术特征摘要】
1.一种基于Adaboost的软件缺陷预测方法，其特征在于，包括如下具体步骤：
步骤1：采集软件缺陷数据组成原始训练数据集，对原始训练数据集进行分类划分，获得n组训练数据组；
步骤2：遍历n组所述训练数据组进行训练，获得若干弱分类器，将若干所述弱分类器融合获得集成分类器；
步骤3：将软件运行数据输入所述集成分类器，输出软件缺陷预测结果。

2.根据权利要求1所述的一种基于Adaboost的软件缺陷预测方法，其特征在于，所述步骤1基于贝叶斯算法进行数据分类方法LIMCR具体实现过程为：
步骤11：输入原始训练数据集S0；
步骤12：将所述训练数据集S0按标签类别划分为大类样本集SMaj和小类样本集SMin；
步骤13：分别计算所述大类样本集SMajk维特征的样本均值和样本方差以及大类样本后验概率，其中k＝1,2,...,m，m为特征数，样本类别Y＝0时，大类样本Xik取值为xik时的后验概率为
步骤14：分别计算所述小类样本集SMink维特征的样本均值和样本方差以及小类样本后验概率，其中k＝1,2,...,m，m为特征数，所述样本类别Y＝1时，所述大类样本Xik取值为xik时的所述后验概率为进入步骤15；否则输出重采样数据集Snew；
步骤15：...

【专利技术属性】
技术研发人员：吴玉美，常硕，刘斌，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人