System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于文本挖掘的缺陷分类方法、系统、设备及介质技术方案_技高网

基于文本挖掘的缺陷分类方法、系统、设备及介质技术方案

技术编号:45050334 阅读:3 留言:0更新日期:2025-04-22 17:35
本发明专利技术公开了一种基于文本挖掘的缺陷分类方法、系统、设备及介质,包括:获取电力系统中待识别缺陷报告文本将所述待识别缺陷报告文本输入到训练后的分类器中,得到该缺陷报告文本的缺陷类别,该方法、系统、设备及介质能够有效提高缺陷分类以及根因分析的效率。

【技术实现步骤摘要】

本专利技术属于缺陷识别,涉及一种基于文本挖掘的缺陷分类方法、系统、设备及介质


技术介绍

1、软件缺陷分析是软件质量管理中重要一个环节,通过对历史缺陷分析,可以发现缺陷的性质和来源,导致缺陷的原因,获取一些有用的经验和教训,形成管理措施应用到当前或后续的软件开发过程,比如软件需求分析、软件设计、软件实现和软件测试等过程。从而在软件开发生命周期的早期阶段就采取措施预防这些缺陷的产生,减少未来的维护成本,提高软件质量。然而现有缺陷报告通常包含大量非结构化数据(标题、描述、评论),软件缺陷描述可能存在冗余信息多、句法不规范的问题并且对于缺陷的分类和根因分析依赖人为判断,难以快速从中提取有效信息。


技术实现思路

1、本专利技术的目的在于克服上述现有技术的缺点,提供了一种基于文本挖掘的缺陷分类方法、系统、设备及介质,该方法、系统、设备及介质能够有效提高缺陷分类以及根因分析的效率。

2、为达到上述目的,本专利技术公开了一种基于文本挖掘的缺陷分类方法,包括:

3、获取电力系统中待识别缺陷报告文本;

4、将所述待识别缺陷报告文本输入到训练后的分类器中,得到该缺陷报告文本的缺陷类别。

5、本专利技术所述基于文本挖掘的缺陷分类方法的进一步改进在于:

6、进一步的,所述将所述待识别缺陷报告文本输入到训练后的分类器中之前还包括:

7、构建数据集;

8、构建分类器;

9、采用交叉验证以及超参数调优的方式,利用所述数据集对所述分类器进行训练及优化,选择最佳的分类器参数,得到训练后的分类器。

10、进一步的,所述构建数据集的过程为:

11、收集电力系统相关的文件,导出所述文件中的缺陷报告文本,所述缺陷报告文本包括标题、描述以及评论字段;

12、所述缺陷报告文本进行清洗及分词;

13、根据分词结果中高频关键词生成所述缺陷报告文本的特征向量;

14、根据各缺陷报告文本的特征向量对各缺陷报告文本进行聚类以及分类,为各缺陷报告文本标注不同的缺陷类别;

15、根据各缺陷报告文本以及其对应的缺陷类别构建数据集。

16、进一步的,使用tf-idf来识别分词结果中的高频关键词。

17、进一步的,将缺陷报告文本采用中文分词工具jieba进行分词处理。

18、本专利技术公开了一种基于文本挖掘的缺陷分类系统,包括:

19、获取模块,用于获取电力系统中待识别缺陷报告文本;

20、识别模块,用于将所述待识别缺陷报告文本输入到训练后的分类器中,得到该缺陷报告文本的缺陷类别。

21、本专利技术所述基于文本挖掘的缺陷分类系统的进一步改进在于:

22、进一步的,还包括:

23、第一构建模块,用于构建数据集;

24、第二构建模块,用于构建分类器;

25、训练模块,用于采用交叉验证以及超参数调优的方式,利用所述数据集对所述分类器进行训练及优化,选择最佳的分类器参数,得到训练后的分类器。

26、进一步的,第一构建模块包括:

27、收集模块,用于收集电力系统相关的文件,导出所述文件中的缺陷报告文本,所述缺陷报告文本包括标题、描述以及评论字段;

28、预处理模块,用于所述缺陷报告文本进行清洗、分词及根据分词结果中高频关键词生成所述缺陷报告文本的特征向量;

29、生成模块,用于根据各缺陷报告文本的特征向量对各缺陷报告文本进行聚类以及使用主题模型识别聚类后的缺陷主题;

30、标注模块,用于根据聚类后的缺陷主题为各缺陷报告文本标注不同的缺陷类别;

31、第三构建模块,用于根据各缺陷报告文本以及其对应的缺陷类别构建数据集。

32、本专利技术公开了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于文本挖掘的缺陷分类方法的步骤。

33、本专利技术公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述基于文本挖掘的缺陷分类方法的步骤。

34、本专利技术具有以下有益效果:

35、本专利技术所述的基于文本挖掘的缺陷分类方法、系统、设备及介质在具体操作时,将自动化文本分析技术应用于软件缺陷管理,可以有效处理大规模非结构化文本,为缺陷分类和根因分析提供了可能性,从而减少人工干预,显著提升缺陷分类和根因分析的效率和准确性。

本文档来自技高网...

【技术保护点】

1.一种基于文本挖掘的缺陷分类方法,其特征在于,包括:

2.根据权利要求1所述的基于文本挖掘的缺陷分类方法,其特征在于,所述将所述待识别缺陷报告文本输入到训练后的分类器中之前还包括:

3.根据权利要求1所述的基于文本挖掘的缺陷分类方法,其特征在于,所述构建数据集的过程为:

4.根据权利要求3所述的基于文本挖掘的缺陷分类方法,其特征在于,使用TF-IDF来识别分词结果中的高频关键词。

5.根据权利要求3所述的基于文本挖掘的缺陷分类方法,其特征在于,将缺陷报告文本采用中文分词工具Jieba进行分词处理。

6.一种基于文本挖掘的缺陷分类系统,其特征在于,包括:

7.根据权利要求6所述的基于文本挖掘的缺陷分类系统,其特征在于,还包括:

8.根据权利要求7所述的基于文本挖掘的缺陷分类系统,其特征在于,第一构建模块包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述基于文本挖掘的缺陷分类方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述基于文本挖掘的缺陷分类方法的步骤。

...

【技术特征摘要】

1.一种基于文本挖掘的缺陷分类方法,其特征在于,包括:

2.根据权利要求1所述的基于文本挖掘的缺陷分类方法,其特征在于,所述将所述待识别缺陷报告文本输入到训练后的分类器中之前还包括:

3.根据权利要求1所述的基于文本挖掘的缺陷分类方法,其特征在于,所述构建数据集的过程为:

4.根据权利要求3所述的基于文本挖掘的缺陷分类方法,其特征在于,使用tf-idf来识别分词结果中的高频关键词。

5.根据权利要求3所述的基于文本挖掘的缺陷分类方法,其特征在于,将缺陷报告文本采用中文分词工具jieba进行分词处理。

6.一种基于文本挖掘的缺陷分类系统,其...

【专利技术属性】
技术研发人员:马亮许斌亓佳佳海元媛高越
申请(专利权)人:华能宁夏能源有限公司灵武隆桥分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1